大數(shù)據(jù)系統(tǒng)功能
1.數(shù)據(jù)分析
越來越多的應(yīng)用涉及到大數(shù)據(jù),大數(shù)據(jù)最大的好處在于能夠讓我們從這些數(shù)據(jù)中分析出很多智能的、深入的、有價(jià)值的信息。
Analytic Visualizations(可視化分析)
不管是數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀地展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法可以讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的"量",也要處理大數(shù)據(jù)的"速度"。
Predictive Analytic Capabilities(預(yù)測性分析能力)
數(shù)據(jù)挖擁可以讓分析員更好地理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。
Semantic Engines(語義引擎)
我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新挑戰(zhàn),我們需要一系列的工具去解折、提取、分析數(shù)據(jù)。語義引擎需要波設(shè)計(jì)成能夠從"文檔"中智能提取信息。
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是模擬人腦內(nèi)部結(jié)構(gòu),在模擬推理、自動(dòng)學(xué)習(xí)等方面接近人腦的自組織和并行處理的數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的優(yōu)勢是:噪聲數(shù)據(jù)的強(qiáng)承受能力,對數(shù)據(jù)分類的高準(zhǔn)確性,以及可用各種算法進(jìn)行規(guī)則提取。
2.數(shù)據(jù)挖掘
數(shù)據(jù)挖掘,是從數(shù)據(jù)當(dāng)中發(fā)現(xiàn)趨勢和模式的過程,它能有效地從大量的、不完全的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的潛在有用的信息和知識,揭示出大量數(shù)據(jù)中復(fù)雜的和隱藏的關(guān)系,為決策提供有用的參考,也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個(gè)基本步驟。常用的數(shù)據(jù)挖掘方法主要有關(guān)聯(lián)分析、分類分析、聚類分析、神經(jīng)網(wǎng)絡(luò)等。
關(guān)聯(lián)分析
即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖據(jù)隱藏在數(shù)據(jù)中的相互關(guān)系,比如,它能發(fā)現(xiàn)數(shù)據(jù)庫中的顧客在一次購買活動(dòng)中購買商品 A及B的各種習(xí)慣、時(shí)段等關(guān)聯(lián)信息。
分類分析
分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確地描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對其他記錄進(jìn)行分類。
聚類分析
通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定 的分類規(guī)則,合理地劃分記錄集合,并確定每個(gè)記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。