大數(shù)據(jù)分析與數(shù)據(jù)挖掘
數(shù)據(jù)挖掘基于數(shù)據(jù)庫理論,機器學習,人工智能,現(xiàn)代統(tǒng)計學的迅速發(fā)展的交叉學科,在很多領域中都有應用。涉及到很多的算法,源于機器學習的神經(jīng)網(wǎng)絡,決策樹,也有基于統(tǒng)計學習理論的支持向量機,分類回歸樹,和關聯(lián)分析的諸多算法。數(shù)據(jù)挖掘的定義是從海量數(shù)據(jù)中找到有意義的模式或知識。
大數(shù)據(jù)是最近幾年提出來,也是媒體忽悠的一個概念。有三個重要的特征:數(shù)據(jù)量大,結構復雜,數(shù)據(jù)更新速度很快。由于Web技術的發(fā)展,web用戶產(chǎn)生的數(shù)據(jù)自動保存、傳感器也在不斷收集數(shù)據(jù),以及移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)自動收集、存儲的速度在加快,全世界的數(shù)據(jù)量在不斷膨脹,數(shù)據(jù)的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數(shù)據(jù)挖掘技術的實施提出了挑戰(zhàn)(一般而言,數(shù)據(jù)挖掘的實施基于一臺小型機或大型機,也可以進行并行計算)。Google提出了分布式存儲文件系統(tǒng),發(fā)展出后來的云存儲和云計算的概念。
1.從結構化數(shù)據(jù)到非結構化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)挖掘都是依據(jù)數(shù)據(jù)庫里面的數(shù)據(jù)進行分析,在大數(shù)據(jù)時代,數(shù)據(jù)來源多種多樣,對于這些非結構化數(shù)據(jù)的加工是大數(shù)據(jù)數(shù)據(jù)挖掘的重要特征。因為非結構化數(shù)據(jù)處理的成功與否決定了大數(shù)據(jù)數(shù)據(jù)源的質量好壞,而這并不是算法可以解決的。
2.從抽樣數(shù)據(jù)到全量數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)挖掘受制于數(shù)據(jù)處理能力,只能使用少量的抽樣數(shù)據(jù)進行分析。在大數(shù)據(jù)技術環(huán)境下,完全可以實現(xiàn)全量數(shù)據(jù)的分析,效率甚至可能高于抽樣數(shù)據(jù)的分析。
3.從因果關系到相關性分析。大數(shù)據(jù)分析通過事件和多種因素進行相關性分析,通過數(shù)據(jù)挖掘和機器學習的算法找到其關聯(lián)關系,并運用回歸分析從而實現(xiàn)預測。
數(shù)據(jù)挖掘的任務按照目標可以分為4類:
1) 分類:通過分析訓練集的數(shù)據(jù),為每一個分類建立分類分析模型,用這個已知的規(guī)律對其他數(shù)據(jù)進行分類
2) 回歸:建立因變量和自變量之間關系的模型
3) 聚類:將對象集合分成由類似的對象組成的多個類的過程
4) 關聯(lián)規(guī)則:尋找給定數(shù)據(jù)集合中各個因子之間的關聯(lián)關系
人們經(jīng)常見到的“邏輯回歸模型”、“神經(jīng)網(wǎng)絡模型”、“遺傳算法”、“決策樹”等等都是監(jiān)督學習過程的挖掘算法。這類算法在機器學習和深度學習里面大量使用,是大數(shù)據(jù)公司必備的專業(yè)技能。極光大數(shù)據(jù)作為國內領先的移動大數(shù)據(jù)服務商,在這方面的實際案例頗多,例如極光大數(shù)據(jù)團隊利用神經(jīng)網(wǎng)絡算法預測個人前往某一個特定區(qū)域的概率和時間,準確度可以達到80%以上;他們還利用神經(jīng)網(wǎng)絡算法和隨機森林算法對個人喜歡的移動應用進行推薦下載和推薦產(chǎn)品;此外,極光大數(shù)據(jù)團隊還自主開發(fā)了空間軌跡相似度STS(spatial trajectory similarity)算法進行同軌分析等。
數(shù)據(jù)挖掘技術隨著大數(shù)據(jù)時代的到來已變幻出更強的功能特征,而在大數(shù)據(jù)服務商的精耕細作下,也必將為各行業(yè)帶來進步的動力。

責任編輯:售電衡衡
-
權威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設典型實踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進這個行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎設施,電力新基建 -
燃料電池汽車駛入尋常百姓家還要多久?
-
備戰(zhàn)全面電動化 多部委及央企“定調”充電樁配套節(jié)奏
-
權威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產(chǎn)業(yè),設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務,新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市