探討大數(shù)據(jù)整理過程的分析

來源：數(shù)字音視工程網(wǎng) 編輯：merry2013 2015-07-16 06:53:14 加入收藏咨詢

咨詢

所在單位:	*
姓名:	*
手機(jī):	*
職位:
郵箱:	*
其他聯(lián)系方式:
咨詢內(nèi)容:
驗(yàn)證碼:	不能為空驗(yàn)證碼錯誤

確定

　　數(shù)據(jù)整理是數(shù)據(jù)分析過程中最重要的環(huán)節(jié)，在大數(shù)據(jù)分析過程中也是如此。在小數(shù)據(jù)時代，數(shù)據(jù)整理包括數(shù)據(jù)的清洗、數(shù)據(jù)轉(zhuǎn)換、歸類編碼和數(shù)字編碼等過程，其中數(shù)據(jù)清洗占據(jù)最重要的位置，就是檢查數(shù)據(jù)一致性，處理無效值和缺失值等操作。在大數(shù)據(jù)時代，這些工作被弱化了，在有些大數(shù)據(jù)的算法和應(yīng)用中，基本不再進(jìn)行數(shù)據(jù)清洗了，因?yàn)榇髷?shù)據(jù)的多樣化使得其數(shù)據(jù)，有一定的不精確性，但數(shù)據(jù)轉(zhuǎn)換和編碼過程還是需要的。下面以大數(shù)據(jù)分析中文本分類的例子，來分析大數(shù)據(jù)整理的過程。

　　在本例中，以mahout為大數(shù)據(jù)分析軟件，文本分類算法選用樸素貝葉斯算法(new bayes)，分類對象是來自不同類別的新聞數(shù)據(jù)。

　　當(dāng)我們使用網(wǎng)頁爬蟲，每小時源源不斷的從多個不同類別的新聞網(wǎng)站上取得數(shù)據(jù)時，取得的這些數(shù)據(jù)都是文本數(shù)據(jù)，也就是非結(jié)構(gòu)化數(shù)據(jù)，這些數(shù)據(jù)是不需要進(jìn)行數(shù)據(jù)清洗過程，但它們在進(jìn)入到mahout實(shí)現(xiàn)的樸素貝葉斯算法時，需要進(jìn)行必要的數(shù)據(jù)轉(zhuǎn)換。該轉(zhuǎn)換主要分兩個步驟：

　　1.數(shù)據(jù)系列化

　　由于取得的大量的文本數(shù)據(jù)集中，每個新聞?wù)家粋€文檔，共有無數(shù)個小的文件，由于Mahout運(yùn)行在Hadoop的HDFS上，HDFS是為大文件設(shè)計的。如果我們把這些無窮多個小文件都拷貝上去，這樣是非常不合適。試想：假設(shè)對1000萬篇新聞進(jìn)行分類，難道要拷貝1000w個文件么?這樣會使HDFS中運(yùn)行name node節(jié)點(diǎn)的終端崩潰掉。

　　因此，Mahout采用SequenceFile作為其基本的數(shù)據(jù)交換格式。其思路是：通過調(diào)用mahout內(nèi)置的解析器，掃描所有目錄和文件，并把每個文件都轉(zhuǎn)成單行文本，以目錄名開頭，跟著是文檔出現(xiàn)的所有單詞，這樣就把無窮多個小文件，轉(zhuǎn)換成一個系列化的大文件。然后把這個大文件，再上傳到HDFS上，就可以充分發(fā)揮HDFS分布式文件系統(tǒng)的優(yōu)勢。當(dāng)然，這個轉(zhuǎn)換過程由mahout的內(nèi)置工具完成，而大數(shù)據(jù)分析師這個時候只需要把所有的新聞按文件夾分好類放置好，同時運(yùn)行mahout內(nèi)置的解析器命令就可以了。

　　2.文本內(nèi)容向量化

　　簡單地說就是把文本內(nèi)容中的每個單詞(去除一些連接詞后)轉(zhuǎn)換成數(shù)據(jù)，復(fù)雜地說就是進(jìn)行向量空間模型化(VSM)。該過程使每個單詞都有一個編號，這個編號是就它在文檔向量所擁有的維度。這個工作在mahout中實(shí)現(xiàn)時，大數(shù)據(jù)分析師也只需要執(zhí)行其中的一個命令，就可以輕松地實(shí)現(xiàn)文本內(nèi)容的向量化。

　　有了這些被向量化的數(shù)據(jù)，再通過mahout的樸素貝葉斯算法，我們就可以對計算機(jī)訓(xùn)練出一套規(guī)則，根據(jù)這個規(guī)則，機(jī)器就可以對后續(xù)收集的新聞數(shù)據(jù)進(jìn)行自動的分類了。

　　從上述文本分類的大數(shù)據(jù)整理過程可以看出，大數(shù)據(jù)時代的數(shù)據(jù)整理過程不再強(qiáng)調(diào)數(shù)據(jù)的精確性，而強(qiáng)調(diào)的是對非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量化。當(dāng)然，不同的大數(shù)據(jù)分析應(yīng)用使用的算法也不一樣，其數(shù)據(jù)整理過程也不太一樣，但從總體上看，大數(shù)據(jù)分析的數(shù)據(jù)整理區(qū)別于小數(shù)據(jù)時代的精確性，而變得更粗放一些。

免責(zé)聲明：本文來源于網(wǎng)絡(luò)收集，本文僅代表作者個人觀點(diǎn)，本站不作任何保證和承諾，若有任何疑問，請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)

午夜欧美福利,日韩欧美不卡在线,欧美一区福利,99久久综合,国产色啪午夜免费视频,亚洲va久久久久综合,5252色欧美在线男人的天堂

我的位置：

探討大數(shù)據(jù)整理過程的分析

評論comment

重磅！建碁AOPEN攜ChromeOS OPS電腦BP5130亮相2025年臺北國際電腦展！

光影與文化的交響：奧圖碼投影科技重塑夜游文旅新體驗(yàn)

建碁 AOPEN 邀請函 | 2025年臺北國際電腦展COMPUTEX 2025！

【Infocomm 2025】DAV專訪海康威視以場景化創(chuàng)新引領(lǐng)音視頻新時代

我的位置：

share

相關(guān)閱讀related

評論comment