訂閱
糾錯(cuò)
加入自媒體

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

2017-10-23 09:59
來源: e-works

    (五)機(jī)器學(xué)習(xí)的算法分類

機(jī)器學(xué)習(xí)基于學(xué)習(xí)形式的不同通常可分為三類:

1.監(jiān)督學(xué)習(xí)(Supervised Learning)
   給學(xué)習(xí)算法提供標(biāo)記的數(shù)據(jù)和所需的輸出,對(duì)于每一個(gè)輸入,學(xué)習(xí)者都被提供了一個(gè)回應(yīng)的目標(biāo)。監(jiān)督學(xué)習(xí)主要被應(yīng)用于快速高效地教熟AI現(xiàn)有的知識(shí),被用于解決分類和回歸的問題。常見的算法有:

(1)決策樹(Decision Trees):決策樹可看作一個(gè)樹狀預(yù)測(cè)模型,它通過把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來分類實(shí)例,葉子節(jié)點(diǎn)即為實(shí)例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹是一個(gè)決策支持工具,它用樹形的圖或者模型表示決策及其可能的后果,包括隨機(jī)事件的影響、資源消耗、以及用途。用于分析判斷有無貸款意向的決策樹示如圖 所示,從商業(yè)角度看,常用于基于規(guī)則的信用評(píng)估、賽馬結(jié)果預(yù)測(cè)等。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖6 決策樹

(2)Adaboost算法:這是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。算法本身是改變數(shù)據(jù)分布實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中的每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改權(quán)值的新數(shù)據(jù)送給下層分類器進(jìn)行訓(xùn)練,然后將每次訓(xùn)練得到的分類器融合起來,作為最后的決策分類器。AdaBoost算法主要解決了:兩類問題、多類單標(biāo)簽問題、多類多標(biāo)簽問題、大類單標(biāo)簽問題和回歸問題; 優(yōu)點(diǎn):學(xué)習(xí)精度明顯增加,并且不會(huì)出現(xiàn)過擬合問題,AdaBoost算法技術(shù)常用于人臉識(shí)別和目標(biāo)跟蹤領(lǐng)域。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖7 Adaboost

(3)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network -ANN)算法:人工神經(jīng)網(wǎng)絡(luò)是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。它是在現(xiàn)代神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。人工神經(jīng)網(wǎng)絡(luò)是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)完全不同的機(jī)理,克服了傳統(tǒng)的基于邏輯符號(hào)的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實(shí)時(shí)學(xué)習(xí)的特點(diǎn)。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖8 人工神經(jīng)網(wǎng)絡(luò)

(4)SVM(Support Vector Machine):SVM 法即支持向量機(jī)算法,由Vapnik等人于1995年提出,具有相對(duì)優(yōu)良的性能指標(biāo)。該方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法!VM是一種二分算法。假設(shè)在N維空間,有一組點(diǎn),包含兩種類型,SVM生成a(N-1) 維的超平面,把這些點(diǎn)分成兩組。比如你有一些點(diǎn)在紙上面,這些點(diǎn)是線性分離的。SVM會(huì)找到一個(gè)直線,把這些點(diǎn)分成兩類,并且會(huì)盡可能遠(yuǎn)離這些點(diǎn)。從規(guī)?磥恚琒VM(包括適當(dāng)調(diào)整過的)解決的一些特大的問題有:廣告、人類基因剪接位點(diǎn)識(shí)別、基于圖片的性別檢測(cè)、大規(guī)模圖片分類,適用于新聞分類、手寫識(shí)別等應(yīng)用。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖9 支持向量機(jī)算法

(5)樸素貝葉斯(Naive Bayesian):貝葉斯法是一種在已知先驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。樸素貝葉斯分類器基于把貝葉斯定理運(yùn)用在特征之間關(guān)系的強(qiáng)獨(dú)立性假設(shè)上。優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點(diǎn):對(duì)于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感。適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)。現(xiàn)實(shí)生活中的應(yīng)用例子:電子郵件垃圾副過濾、判定文章屬性分類、分析文字表達(dá)的內(nèi)容含義和人臉識(shí)別、情感分析、消費(fèi)者分類。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖10  樸素貝葉斯算法

(6)K-近鄰(k-Nearest Neighbors,KNN):這是一種分類算法,其核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對(duì)于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖11  K-近鄰算法

(7)邏輯回歸(Logistic Regression):這是一種分類算法,主要用于二分類問題。邏輯回歸是一種非常強(qiáng)大的統(tǒng)計(jì)方法,可以把有一個(gè)或者多個(gè)解釋變量的數(shù)據(jù),建立為二項(xiàng)式類型的模型,通過用累積邏輯分布的邏輯函數(shù)估計(jì)概率,測(cè)量分類因變量和一個(gè)或多個(gè)獨(dú)立變量之間的關(guān)系。邏輯回歸是一種非線性回歸模型,相比于線性回歸,它多了一個(gè)sigmoid函數(shù)(或稱為Logistic函數(shù))。通常,回歸在現(xiàn)實(shí)生活中的用途如下:信用評(píng)估、測(cè)量市場(chǎng)營銷的成功度、預(yù)測(cè)某個(gè)產(chǎn)品的收益、特定的某天是否會(huì)發(fā)生地震,路面交通流量分析、郵件過濾。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖12  邏輯回歸算法

(8)隨機(jī)森林算法(Random Forest):隨機(jī)森林算法可以用于處理回歸、分類、聚類以及生存分析等問題,當(dāng)用于分類或回歸問題時(shí),它的主要思想是通過自助法重采樣,生成很多個(gè)樹回歸器或分類器。在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器, 并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定,常用于用戶流失分析、風(fēng)險(xiǎn)評(píng)估。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖13  隨機(jī)森林算法

(9)線形回歸( Linear Regression):這是利用數(shù)理統(tǒng)計(jì)中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法,運(yùn)用十分廣泛。線性回歸是回歸分析中第一種經(jīng)過嚴(yán)格研究并在實(shí)際應(yīng)用中廣泛使用的類型。這是因?yàn)榫性依賴于其未知參數(shù)的模型比非線性依賴于其位置參數(shù)的模型更容易擬合,而且產(chǎn)生的估計(jì)的統(tǒng)計(jì)特性也更容易確定。

機(jī)器學(xué)習(xí):開啟智能創(chuàng)新之門

圖14  線形回歸算法

<上一頁  1  2  3  4  5  6  7  8  9  下一頁>  余下全文
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)