為何大家都看重決策樹(shù)?
決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱決策樹(shù)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹(shù)算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
決策樹(shù)是一種樹(shù)形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類別。
分類樹(shù)(決策樹(shù))是一種十分常用的分類方法。它是一種監(jiān)督學(xué)習(xí),所謂監(jiān)督學(xué)習(xí)就是給定一堆樣本,每個(gè)樣本都有一組屬性和一個(gè)類別,這些類別是事先確定的,那么通過(guò)學(xué)習(xí)得到一個(gè)分類器,這個(gè)分類器能夠?qū)π鲁霈F(xiàn)的對(duì)象給出正確的分類。這樣的機(jī)器學(xué)習(xí)就被稱之為監(jiān)督學(xué)習(xí)。
機(jī)器學(xué)習(xí)中,決策樹(shù)是一個(gè)預(yù)測(cè)模型;他代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結(jié)點(diǎn)則對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值。決策樹(shù)僅有單一輸出,若欲有復(fù)數(shù)輸出,可以建立獨(dú)立的決策樹(shù)以處理不同輸出。數(shù)據(jù)挖掘中決策樹(shù)是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。
從數(shù)據(jù)產(chǎn)生決策樹(shù)的機(jī)器學(xué)習(xí)技術(shù)叫做決策樹(shù)學(xué)習(xí), 通俗說(shuō)就是決策樹(shù)。
一個(gè)決策樹(shù)包含三種類型的節(jié)點(diǎn):
●決策節(jié)點(diǎn):通常用矩形框來(lái)表示
●機(jī)會(huì)節(jié)點(diǎn):通常用圓圈來(lái)表示
●終結(jié)點(diǎn):通常用三角形來(lái)表示
決策樹(shù)學(xué)習(xí)也是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹(shù)都表述了一種樹(shù)型結(jié)構(gòu),它由它的分支來(lái)對(duì)該類型的對(duì)象依靠屬性進(jìn)行分類。每個(gè)決策樹(shù)可以依靠對(duì)源數(shù)據(jù)庫(kù)的分割進(jìn)行數(shù)據(jù)測(cè)試。這個(gè)過(guò)程可以遞歸式的對(duì)樹(shù)進(jìn)行修剪。 當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類可以被應(yīng)用于某一分支時(shí),遞歸過(guò)程就完成了。另外,隨機(jī)森林分類器將許多決策樹(shù)結(jié)合起來(lái)以提升分類的正確率。
決策樹(shù)同時(shí)也可以依靠計(jì)算條件概率來(lái)構(gòu)造。
決策樹(shù)如果依靠數(shù)學(xué)的計(jì)算方法可以取得更加理想的效果。 數(shù)據(jù)庫(kù)已如下所示:
(x, y) = (x1, x2, x3…, xk, y)
相關(guān)的變量 Y 表示我們嘗試去理解,分類或者更一般化的結(jié)果。 其他的變量x1, x2, x3 等則是幫助我們達(dá)到目的的變量。
優(yōu)點(diǎn)
決策樹(shù)易于理解和實(shí)現(xiàn),人們?cè)谠趯W(xué)習(xí)過(guò)程中不需要使用者了解很多的背景知識(shí),這同時(shí)是它的能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),只要通過(guò)解釋后都有能力去理解決策樹(shù)所表達(dá)的意義。
對(duì)于決策樹(shù),數(shù)據(jù)的準(zhǔn)備往往是簡(jiǎn)單或者是不必要的,而且能夠同時(shí)處理數(shù)據(jù)型和常規(guī)型屬性,在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。
易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行評(píng)測(cè),可以測(cè)定模型可信度;如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹(shù)很容易推出相應(yīng)的邏輯表達(dá)式。
缺點(diǎn)
1)對(duì)連續(xù)性的字段比較難預(yù)測(cè)。
2)對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。
3)當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快。
4)一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類。
算法
1、C4.5
C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對(duì)ID3算法進(jìn)行了改進(jìn):
1) 用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;
2) 在樹(shù)構(gòu)造過(guò)程中進(jìn)行剪枝;
3) 能夠完成對(duì)連續(xù)屬性的離散化處理;
4) 能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。
C4.5算法有如下優(yōu)點(diǎn):產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點(diǎn)是:在構(gòu)造樹(shù)的過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次的順序掃描和排序,因而導(dǎo)致算法的低效。此外,C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集,當(dāng)訓(xùn)練集大得無(wú)法在內(nèi)存容納時(shí)程序無(wú)法運(yùn)行。
具體算法步驟如下;
1創(chuàng)建節(jié)點(diǎn)N
2如果訓(xùn)練集為空,在返回節(jié)點(diǎn)N標(biāo)記為Failure
3如果訓(xùn)練集中的所有記錄都屬于同一個(gè)類別,則以該類別標(biāo)記節(jié)點(diǎn)N
4如果候選屬性為空,則返回N作為葉節(jié)點(diǎn),標(biāo)記為訓(xùn)練集中最普通的類;
5for each 候選屬性 attribute_list
6if 候選屬性是連續(xù)的then
7對(duì)該屬性進(jìn)行離散化
8選擇候選屬性attribute_list中具有最高信息增益率的屬性D
9標(biāo)記節(jié)點(diǎn)N為屬性D
10for each 屬性D的一致值d
11由節(jié)點(diǎn)N長(zhǎng)出一個(gè)條件為D=d的分支
12設(shè)s是訓(xùn)練集中D=d的訓(xùn)練樣本的集合
13if s為空
14加上一個(gè)樹(shù)葉,標(biāo)記為訓(xùn)練集中最普通的類
15else加上一個(gè)有C4.5(R - {D},C,s)返回的點(diǎn)
2、CART
背景:
分類與回歸樹(shù)(CART——Classification And Regression Tree)) 是一種非常有趣并且十分有效的非參數(shù)分類和回歸方法。它通過(guò)構(gòu)建二叉樹(shù)達(dá)到預(yù)測(cè)目的。
分類與回歸樹(shù)CART 模型最早由Breiman 等人提出,已經(jīng)在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)挖掘技術(shù)中普遍使用。它采用與傳統(tǒng)統(tǒng)計(jì)學(xué)完全不同的方式構(gòu)建預(yù)測(cè)準(zhǔn)則,它是以二叉樹(shù)的形式給出,易于理解、使用和解釋。由CART 模型構(gòu)建的預(yù)測(cè)樹(shù)在很多情況下比常用的統(tǒng)計(jì)方法構(gòu)建的代數(shù)學(xué)預(yù)測(cè)準(zhǔn)則更加準(zhǔn)確,且數(shù)據(jù)越復(fù)雜、變量越多,算法的優(yōu)越性就越顯著。模型的關(guān)鍵是預(yù)測(cè)準(zhǔn)則的構(gòu)建,準(zhǔn)確的。
定義:
分類和回歸首先利用已知的多變量數(shù)據(jù)構(gòu)建預(yù)測(cè)準(zhǔn)則, 進(jìn)而根據(jù)其它變量值對(duì)一個(gè)變量進(jìn)行預(yù)測(cè)。在分類中, 人們往往先對(duì)某一客體進(jìn)行各種測(cè)量, 然后利用一定的分類準(zhǔn)則確定該客體歸屬那一類。例如, 給定某一化石的鑒定特征, 預(yù)測(cè)該化石屬那一科、那一屬, 甚至那一種。另外一個(gè)例子是, 已知某一地區(qū)的地質(zhì)和物化探信息, 預(yù)測(cè)該區(qū)是否有礦;貧w則與分類不同, 它被用來(lái)預(yù)測(cè)客體的某一數(shù)值, 而不是客體的歸類。例如, 給定某一地區(qū)的礦產(chǎn)資源特征, 預(yù)測(cè)該區(qū)的資源量。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-6.16立即報(bào)名>> 【在線會(huì)議】Solution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過(guò)于簡(jiǎn)單
- 10 為何全球AI巨頭都在搶?MCP協(xié)議背后的暴富玄機(jī)大公開(kāi)!