訂閱
糾錯
加入自媒體

人工智能之決策樹(DT)

決策樹停止分支方法:

剪枝是決策樹停止分支的方法之一,剪枝有分預(yù)先剪枝和后剪枝兩種。

1)預(yù)先剪枝(Public算法是在樹的生長過程中設(shè)定一個指標,當(dāng)達到該指標時就停止生長,容易產(chǎn)生“視界局限”,即一旦停止分支,使得節(jié)點N成為葉節(jié)點,就斷絕了其后繼節(jié)點進行“好”的分支操作的任何可能性。會誤導(dǎo)學(xué)習(xí)算法,導(dǎo)致產(chǎn)生的樹不純度降差最大的地方過分靠近根節(jié)點。

人工智能之決策樹(DT)

2)后剪枝(Sprint算法中樹首先要充分生長,直到葉節(jié)點都有最小的不純度值為止,因而可以克服“視界局限”。然后對所有相鄰的成對葉節(jié)點考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那么執(zhí)行消去,并令它們的公共父節(jié)點成為新的葉節(jié)點。這種“合并”葉節(jié)點的做法和節(jié)點分支的過程恰好相反,經(jīng)過剪枝后葉節(jié)點常常會分布在很寬的層次上,樹也變得非平衡。后剪枝技術(shù)的優(yōu)點克服了“視界局限”效應(yīng),且無需保留部分樣本用于交叉驗證,所以可以充分利用全部訓(xùn)練集的信息。但后剪枝的計算量代價比預(yù)剪枝方法大得多,特別是在大樣本集中,不過對于小樣本的情況,后剪枝方法還是優(yōu)于預(yù)剪枝方法的。

人工智能之決策樹(DT)

決策樹與條件概率:

決策樹模型呈樹形結(jié)構(gòu),在分類問題中,表示基于特征對實例進行分類的過程。它可以認為是if-then規(guī)則的集合,也可以認為是定義在特征空間與類空間上的條件概率分布,即決策樹可以依靠計算條件概率來構(gòu)造。決策樹如果依靠數(shù)學(xué)的計算方法可以取得更加理想的效果。數(shù)據(jù)庫已如下所示:

(x, y) = (x1, x2, x3…, xk, y)

相關(guān)的變量 Y 表示嘗試去理解,分類或者更一般化的結(jié)果。其他的變量x1, x2, x3 等則是幫助達到目的的變量。

決策樹常見算法:

決策樹的常見的算法包括:1)分類及回歸樹(Classification And Regression Tree, CART),2)ID3(IterativeDichotomiser 3),3)C4.5,4)Chi-squared Automatic Interaction Detection(CHAID), 5)Decision Stump, 6)隨機森林(Random Forest),7)多元自適應(yīng)回歸樣條(MARS),8)梯度推進機(Gradient Boosting Machine,GBM)等等。

其中,隨機森林(RandomForest是作為新興起的、高度靈活的一種決策樹算法。它是用訓(xùn)練數(shù)據(jù)隨機的計算出許多決策樹,形成了一個森林。然后用這個森林對未知數(shù)據(jù)進行預(yù)測,選取投票最多的分類。此算法的錯誤率得到了經(jīng)一步的降低。這種方法背后的原理可以用“三個臭皮匠定一個諸葛亮”這句諺語來概括。一顆樹預(yù)測正確的概率可能不高,但是集體預(yù)測正確的概率卻很高。

決策樹優(yōu)點:

1)易于理解和實現(xiàn):在學(xué)習(xí)過程中不需要使用者了解很多的背景知識,只要通過解釋后都有能力去理解決策樹所表達的意義;

2)效率高、效果好:對于決策樹,數(shù)據(jù)的準備往往是簡單或者是不必要的,而且能夠同時處理數(shù)據(jù)型和常規(guī)型屬性,在相對短的時間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果;

3)易于評測和生成:易于通過靜態(tài)測試來對模型進行評測,可以測定模型可信度;如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應(yīng)的邏輯表達式。

決策樹缺點:

1)對連續(xù)性的字段比較難預(yù)測;

2)對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作;

3)當(dāng)類別太多時,錯誤可能就會增加的比較快;

4)一般的算法分類的時候,只是根據(jù)一個字段來分類。

決策樹應(yīng)用前景:

決策樹具有條理清晰,程序嚴謹,定量、定性分析相結(jié)合,方法簡單,易于掌握,應(yīng)用性強,適用范圍廣等優(yōu)點。人們逐漸認識到,在投資方案比較選擇時考慮時間因素,建立時間可比原則和條件的重要性。當(dāng)今的社會經(jīng)濟活動中,競爭日趨激烈,現(xiàn)代企業(yè)的經(jīng)營方向面臨著許多可供選擇的方案,如何用最少的資源,贏得最大的利潤以及最大限度地降低企業(yè)的經(jīng)營風(fēng)險,是企業(yè)決策者經(jīng)常面對的決策問題,決策樹法能簡單明了地幫助企業(yè)決策層分析企業(yè)的經(jīng)營風(fēng)險和經(jīng)營方向。必然地,隨著經(jīng)濟的不斷發(fā)展,企業(yè)需要做出決策的數(shù)量會不斷地增加,而決策質(zhì)量的提高取決于決策方法的科學(xué)化。企業(yè)的決策水平提高了,企業(yè)的管理水平就一定會提高。

人工智能之決策樹(DT)

結(jié)語:

決策樹采用的是一種簡單且直觀的“分而治之”(divide-and-conquer)策略。決策樹的核心是通過對數(shù)據(jù)的學(xué)習(xí),選定判斷節(jié)點,構(gòu)造一顆合適的決策樹。決策樹是一個有監(jiān)督的分類模型,其本質(zhì)是選擇一個能帶來最大信息增益的特征值進行樹的分割,直到到達結(jié)束條件或者葉子結(jié)點純度到達一定閾值。決策樹是人工智能之機器學(xué)習(xí)中比較常見的算法,相比樸素貝葉斯分類,決策樹優(yōu)勢在于構(gòu)造過程不需要任何領(lǐng)域知識或參數(shù)設(shè)置,因此在實際應(yīng)用中,對于探測式的知識發(fā)現(xiàn),決策樹更加適用,其應(yīng)用超級廣泛。

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號