大數(shù)據(jù)分析到底需要多少種工具？

2017-12-15 15:46:31 知乎　點(diǎn)擊量：評(píng)論 (0)

大數(shù)據(jù)如今已經(jīng)不再是什么新的名詞，五中全會(huì)大數(shù)據(jù)上升為國家戰(zhàn)略，BAT巨頭早已布局多年，大數(shù)據(jù)時(shí)代已經(jīng)真正來臨，但我們真的準(zhǔn)備好了么？大家都知道大數(shù)據(jù)中蘊(yùn)含大量的數(shù)據(jù)價(jià)值，比如說淘寶與天貓的

大數(shù)據(jù)如今已經(jīng)不再是什么新的名詞，五中全會(huì)大數(shù)據(jù)上升為國家戰(zhàn)略，BAT巨頭早已布局多年，大數(shù)據(jù)時(shí)代已經(jīng)真正來臨，但我們真的準(zhǔn)備好了么？

大家都知道大數(shù)據(jù)中蘊(yùn)含大量的數(shù)據(jù)價(jià)值，比如說淘寶與天貓的用戶消費(fèi)行為、滴滴打車可以知道用戶每天去了哪里、用戶在優(yōu)酷上都看了那些視頻、移動(dòng)運(yùn)營商的海量客戶終端信息以及上網(wǎng)行為等、大型零售商每天的銷售數(shù)據(jù)，訂餐網(wǎng)上用戶每天吃了什么，等等大數(shù)據(jù)金礦無處不在。但淘出來的才是金子，否則只是一堆土而已，即占用場地，還要花錢去保管和維護(hù)這堆土。

大數(shù)據(jù)時(shí)代金礦已經(jīng)有了，如何利用好這個(gè)金礦，某種意義上取決于我們手上的工具。熟話說“沒有那金剛鉆，就別攬瓷器活”，工具是否適用，直接決定著我們能否進(jìn)行挖金，以及挖金的速度與效率。適合用鐵鍬還是挖掘機(jī)，對(duì)挖金來說有著質(zhì)的不同。

第一個(gè)金剛鉆Hadoop

Hadoop是大數(shù)據(jù)時(shí)代的第一個(gè)金剛鉆。筆者從08年開始研究hadoop源碼，當(dāng)時(shí)中文資料還是比較少的，國內(nèi)除了BAT外其他公司用的也很少，初次接觸hadoop是因?yàn)楸划?dāng)時(shí)公司的流量系統(tǒng)所困擾，當(dāng)時(shí)公司網(wǎng)站的流量已經(jīng)達(dá)到了每天接近一個(gè)億的水平，最初選擇了postgresql來計(jì)算數(shù)據(jù)，但是普通機(jī)器根本無法計(jì)算，無奈之下我們花大價(jià)錢買了128G內(nèi)存（在當(dāng)時(shí)是很奢侈的）的服務(wù)器，運(yùn)行在postgresql的內(nèi)存表里才勉勉強(qiáng)強(qiáng)的計(jì)算出來。直到有一天遇到了hadoop，你懂的，一個(gè)HiveSql在幾臺(tái)普通硬件的機(jī)器上，一億數(shù)據(jù)幾個(gè)小時(shí)就出結(jié)果了。

如今Hadoop已經(jīng)不再神秘，相關(guān)書籍越來越多。但是伴隨著互聯(lián)網(wǎng)技術(shù)的日新月異，Hadoop已經(jīng)不能滿足用戶了。數(shù)據(jù)時(shí)效性差，以及查詢的響應(yīng)效率低，那些對(duì)時(shí)效性要求較高的用戶場景無法滿足。Hadoo目前面臨兩兩方面的挑戰(zhàn)，第一，數(shù)據(jù)從產(chǎn)生到能夠最終出結(jié)果要等待數(shù)小時(shí)，時(shí)效性較差。第二，多個(gè)Job任務(wù)，相互之間爭搶資源，而且由于采用暴力掃描原始數(shù)據(jù)的方式，對(duì)機(jī)器資源的消耗太大，每天能夠跑的計(jì)算任務(wù)個(gè)數(shù)十分有限。

第二個(gè)利器阿里JStorm

JStorm的出現(xiàn)主要是因?yàn)镠adoop滿足不了支付寶成交實(shí)時(shí)分析的需求。阿里的雙十一活動(dòng)以及其他活動(dòng)都有對(duì)阿里網(wǎng)站成交流量實(shí)時(shí)展示的需求，通過運(yùn)營活動(dòng)，來了解開始的幾分鐘或者幾秒鐘內(nèi)，實(shí)時(shí)流入了多少的流量，帶來多大的成交。正巧當(dāng)時(shí)Apache Storm正式開源，阿里團(tuán)隊(duì)認(rèn)為Storm正適合阿里的業(yè)務(wù)，但是Storm的核心邏輯采用Clojure編寫，熟悉這門語言的太少，另外業(yè)務(wù)需要定制化的邏輯，故阿里團(tuán)隊(duì)花費(fèi)3個(gè)多月的時(shí)間閱讀Storm的源碼，并將其Clojure部分更換為Java代碼。筆者曾是團(tuán)隊(duì)的一員，有幸成為其 committer,離開阿里后，團(tuán)隊(duì)其他兄弟將其開源，貢獻(xiàn)了出去，如今Jstorm已經(jīng)被Apache接受，正式成為Storm項(xiàng)目的子項(xiàng)目。

Storm能夠滿足企業(yè)對(duì)數(shù)據(jù)時(shí)效性的要求，但跟現(xiàn)有的其他大數(shù)據(jù)的實(shí)時(shí)系統(tǒng)一樣，都是采用預(yù)計(jì)算的方式。因流式系統(tǒng)不保存原始日志，數(shù)據(jù)只能安裝固定的維度和粒度進(jìn)行計(jì)算與匯總，例如只能按照淘寶的類目、分鐘等維度匯總統(tǒng)計(jì)。眾所周知，運(yùn)營情況是千遍萬化的，很多都是突發(fā)事件，維度并不能預(yù)先固定，很多事物也需要多方面展示，要經(jīng)過數(shù)次的不同角度、不同粒度的鉆取，來發(fā)現(xiàn)運(yùn)營活動(dòng)的規(guī)律?；谶@種場景，我們需要保留原始日志，同時(shí)需要非常快速的對(duì)這些原始日志進(jìn)行快分析與計(jì)算。這樣高需求的場景，數(shù)據(jù)工具既要有hadoop+hive計(jì)算的靈活性，又要有Jstorm的時(shí)效性和速度。Storm就顯出了它的不足。

新生代數(shù)據(jù)挖掘機(jī)延云YDB

YDB是延云針對(duì)用戶對(duì)大數(shù)據(jù)檢索快速、實(shí)時(shí)、多維度的需求而開發(fā)的分析軟件，可以說是筆者的心頭好。

YDB將傳統(tǒng)數(shù)據(jù)庫索引技術(shù)應(yīng)用在大數(shù)據(jù)技術(shù)上，打破目前大數(shù)據(jù)計(jì)算技術(shù)的僵局。將大數(shù)據(jù)檢索向時(shí)效性更強(qiáng)，查詢方式更靈活，執(zhí)行效率更高的方向演進(jìn)。雖然引用傳統(tǒng)索引技術(shù)，但是對(duì)硬件的需求并不比hadoop高，不會(huì)讓小型用戶望而卻步。技術(shù)上YDB采用Java語言編寫，接地氣，Sql接口用戶也更易于上手使用，同時(shí)每天千億增量萬億總量的數(shù)據(jù)量也能滿足高端用戶的需求。YDB主要技術(shù)方向在大索引，大索引的好處在于加快了檢索的速度，減少查詢中的分組、統(tǒng)計(jì)和排序時(shí)間，提高系統(tǒng)的性能和響應(yīng)時(shí)間來節(jié)約資源。大索引技術(shù)的運(yùn)用才能使YDB在如此大規(guī)模的數(shù)據(jù)量下依然保持查詢響應(yīng)時(shí)間在幾秒，數(shù)據(jù)導(dǎo)入延遲在幾分鐘。

大數(shù)據(jù)時(shí)代拼的不僅僅是數(shù)據(jù)量有多大，還要拼速度，拼誰的更快、更準(zhǔn)、成本更低。大數(shù)據(jù)的運(yùn)用領(lǐng)域還在不斷的擴(kuò)張，大索引技術(shù)還有很長的路要走。終有一天大數(shù)據(jù)會(huì)帶給我們震撼世界的影響。

責(zé)任編輯：售電衡衡

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

我要收藏

個(gè)贊