|
大(dà)話(huà)數(shù)據挖掘——預測分(fēn)析之決策樹(σ€shù)方法接上(shàng)一(yī)篇《大(dà)話(huà)數(shù)據挖掘之預測分(fēn)析》 徐教授的(de)PPT又(yòu)翻開(kāi)了(le±•)新的(de)一(yī)頁,他(tā)将光(guāng)筆(bǐ)指向屏幕上(shàng)的§ββ←(de)樹(shù)狀圖,講道(dào):“所謂決策樹(shù)就(jiù& )是(shì)一(yī)個(gè)類似流程圖的(d♥<↕₩e)樹(shù)型結構,樹(shù)的(de)最高(gāo)層結點就(ji✔±≈ù)是(shì)根結點,樹(shù)的(de)每個(gè)內(≠↓•☆nèi)部結點代表對(duì)一(yī)個(gè)屬性(取值)的(de)測試,其分(fēn)支¥✔δ就(jiù)代表測試的(de)每個(gè)Ω♣€®結果,而樹(shù)的(de)每個(gè)葉結點就(jiù)代表一(yī)個(gè)類别 γ∞↑。從(cóng)根節點到(dào)葉子(zǐ)節點的(de)每Ω一(yī)條路(lù)徑構成一(yī)條‘IF…THEN…’ ↓÷♦分(fēn)類規則。” 李部長(cháng)凝視(shì)著(zhe)大(dà)屏幕上(shà↓'∞↔ng)的(de)決策樹(shù),明(míng)白(bái)了(le)其中的(↓€₽αde)奧妙,不(bù)禁道(dào):“決策樹(shùγ')方法實際上(shàng)就(jiù)是(shì)通(tōng)過一™ δπ(yī)定的(de)評判策略判定哪一(yī)個£€(gè)屬性對(duì)分(fēn)類最為(wèi)重要(yào),就(ji±® ù)将其作(zuò)為(wèi)根節點,然後再判斷餘下(<€xià)的(de)節點中最重要(yào)的>'(de)的(de)節點,直到(dào)葉子(zǐ)節點。” “好(hǎo),理(lǐ)解得(de)還($♥∏∏hái)比較透徹。不(bù)過,李部長(chán☆εφg),什(shén)麽樣的(de)節點才可(kě)以标注為(☆βπ∑wèi)葉子(zǐ)節點呢(ne)?”徐教授問(wèn)。 李部長(cháng)吱吱唔唔:“好(hǎo)像有(y©ǒu)三種情況……” “對(duì),附合以下(xià)三個(gè↓ )條件(jiàn)之一(yī)的(de)節點就(jiù)可(kě)為(wèi)葉子(zǐ₽×≤>)節點:(1)節點的(de)樣本集合中所有(yǒu)的(de)樣本都(dōu)★λ®λ屬于同一(yī)類;(2)節點的(de)樣本集合中所有(yǒu)的(de)屬性都(♠≤¥dōu)已經處理(lǐ)完畢,沒有(yǒu)剩餘屬性可(kě)®→ 以用(yòng)來(lái)進一(yī)步劃分">≠(fēn)樣本,這(zhè)時(shí)候采用(yòng)子(zǐ)集中多(duō) Ω♠數(shù)樣本所屬于的(de)類來(lái)标記該節點;(3♠≈)節點的(de)樣本集合中所有(yǒu)樣本的(de)剩餘§屬性取值完全相(xiàng)同,但(dàn)所屬類&×☆≠别卻不(bù)同,此時(shí)用(yòng)樣本中多(duō)數(shδ ù)類來(lái)标示該節點。” ![]() 徐教授接著(zhe)說(shuō):“決策樹(÷$shù)算(suàn)法的(de)典型代表是(&¶♣shì)ID3(Interactive Dicremiser vers φ£ion 3)算(suàn)法,它是(shì)由Qu&<"↓inlan等人(rén)于1986年(nián)λ ↓₩提出的(de),是(shì)當前機(jī)器(qì)學習(xí)領域中最有(yǒu)影(yǐng)響力的(de)算(suà¶≈n)法之一(yī)。其核心思想是(shì)在決策樹(shù)的(de)構建過程中 ©÷采取基于信息增益的(de)特征選擇策略,即選取具有Ω(yǒu)最高(gāo)信息增益的(de)屬性作(zuò)為(wèi)當前節點的(de)分(fēn×)裂屬性,使得(de)對(duì)結果劃分(fēn™¥)中的(de)樣本分(fēn)類所需要(yào)•↓≤ 的(de)信息量最小(xiǎo)。以此構造與訓練數( ↓αshù)據一(yī)緻的(de)一(yī)棵決策樹(shù),從(cóng)而保證了(le)φ♣£決策樹(shù)具有(yǒu)最小(xiǎ®®o)的(de)分(fēn)支數(shù)量和(hé)最小(xiǎo)的π £¶(de)冗餘度。” 李部長(cháng):“ID3算(suàn)法思想簡單,并且由其構造的÷$×¶(de)決策樹(shù)對(duì)樣本的(de♦Ω)識别率比較高(gāo)。在實際應用(yòng)中<↔ ,ID3算(suàn)法還(hái)有(yǒu)什(shén)麽不(bù♥λ§)足之處嗎(ma)?” 徐教授按了(le)一(yī)下(xià)光(guāng)筆(bǐ),并說(shuō):“請(q↑π&ǐng)看(kàn)大(dà)屏幕ID3算(suàn)♠₹×法的(de)缺點主要(yào)表現(xiàn)在≥★以下(xià)幾個(gè)方面。” ID3算(suàn)法的(de)不(bù)足之處 (1)ID3算(suàn)法在搜索過程中不(bù)能(nénβ£ ₹g)再回溯重新考慮選擇過的(de)屬性,從(cóng)而收斂到(dào)局部最優解而不(bù)±$是(shì)全局最優解; (2)信息增益的(de)度量偏袒于屬性取值數(shù)目∏&較多(duō)的(de)屬性,這(zhè)不(bù)太合理(lǐ₩σ≤); (3)ID3算(suàn)法隻能(néng)處理(lǐ)離(lí)散值得(de)屬性,不(bù$←₩)能(néng)處理(lǐ)連續屬性; (4)當訓練樣本過小(xiǎo)或者包含有(yǒu)噪聲εγ¥的(de)時(shí)候,容易産生(shēng)±÷∞過度拟和(hé)(Overfitting)現(xiàn)象。 馬處長(cháng)看(kàn)著(zhe)屏幕,問(☆π€↔wèn)道(dào):“徐老(lǎo)師(s∞"hī),那(nà)怎樣改進ID3算(suàn)法©£呢(ne)?” 徐教授回答(dá)道(dào):“針對(§₩εduì)ID3算(suàn)法的(de)不(bù)足,Quinlan于1993年(niá↓∏↔n)提出了(le)ID3的(de)改進的(de)方法——C4.5。與ID§α¶∞3相(xiàng)比,C4.5主要(yào)在以下(xià)幾個(gè)方面作(zuò)了 ∏(le)修改,并且引進了(le)新的(de)功能(néng):用(yòng)® ↑信息增益比率作(zuò)為(wèi)選擇标準,彌補了(le)ID3算(≠ suàn)法偏向于取值較多(duō)的(de)屬性的(de)↓♥不(bù)足;合并連續屬性的(de)值;可(kě)以處理(lǐ)具有(€¶yǒu)缺少(shǎo)屬性值的(de)訓練樣本;運用(yòng)不(bù)同的(de✘ €)剪枝技(jì)術(shù)來(lái)避免決策γ♠≤₩樹(shù)的(de)過拟合現(xiàn)象;K次交叉驗證等等。” 李部長(cháng)又(yòu)問(wèn):“徐老(lΩλǎo)師(shī),我們在使用(yòng)決策樹(sh$♠δù)算(suàn)法進行(xíng)分(fēn)類時(✔± shí),有(yǒu)時(shí)會(huì)出現(♠✔ §xiàn)過拟合現(xiàn)象,這(zhè)是(s ✔↕₩hì)怎麽回事(shì)呢(ne)?” 徐教授不(bù)厭(yàn)其煩:“基本的(de)決策樹(shù)構造算(suàn)法沒有(yǒu★∑↔)考慮噪聲,因此生(shēng)成的(de)"§λ 決策樹(shù)可(kě)以完全與訓練數↕₹(shù)據拟合,也(yě)就(jiù)是(shì)說(shuβ<λō),對(duì)訓練數(shù)據的(deΩλ'€)測試準确度可(kě)以達到(dào)100%。但(d←"àn)是(shì)在有(yǒu)噪聲的(de)情況下(xià),完全拟合将導緻“過拟合”的(de)φ結果,即對(duì)訓練數(shù)據的(de)完全拟合反而Ω↔♣導緻對(duì)新數(shù)據的(de)預測能(néng)力下(xià)降。這(zhè)是(s®δhì)因為(wèi)當訓練數(shù)據集合包含噪聲時(shí),決策樹(shù)在生(s÷σhēng)成的(de)過程中為(wèi)了(le)與訓練§↔→©數(shù)據一(yī)緻,必然生(shē®≈¥ng)成了(le)一(yī)些(xiē)反映噪聲的(de)分(fēn)支,這(zhè)些÷'λ(xiē)分(fēn)支不(bù)僅在新的(dγ€e)決策問(wèn)題中導緻錯(cuò)誤的(de)預測,而且增加了(le)模型的(de)複✔ε 雜(zá)度。” 馬處長(cháng)也(yě)問(wèn)道(dào):“那(nà)怎麽避免過拟合現(xiànγ> •)象呢(ne)?” 徐教授:“解決決策樹(shù)生(shēng)成過程中的(de)過拟£Ω合問(wèn)題的(de)方法主要(yào)是(shì)對(duì )決策樹(shù)進行(xíng)剪枝。剪枝是(shì)一(yī)種克服噪聲的(de)技(jì•→♣$)術(shù),它有(yǒu)助于提高(gāo)決策樹(shù)對(duì)新數($↓shù)據的(de)準确分(fēn)類能(néng)力,同時(shí)能(né™♣δng)使決策樹(shù)得(de)到(dào)簡化(huà),使其更容易理(lǐ)解,加±∞¶快(kuài)分(fēn)類速度。剪枝策略可(kě)分'•>(fēn)為(wèi)預剪枝(pre-pruning)和(hé)後剪枝(post-pruningα♠)兩種。預剪枝主要(yào)是(shì)通(tōng)過建立某些(xiē)規則限∞>♣π制(zhì)決策樹(shù)的(de)充分(fēn)生(shēng)長(chánγg),後剪枝則是(shì)等決策樹(shù)充分(f₽₹∑εēn)生(shēng)長(cháng)完畢後再剪去(qù)那(nà)些(xiē∞∞≠)不(bù)具有(yǒu)一(yī)般代>>©↓表性的(de)葉節點或者分(fēn)枝。盡管前一(yī)種方法可(kě)能(néng)看(k★₹∞àn)起來(lái)更直接,但(dàn)是(shì)後一(♥↔Ωyī)種方法在實踐中更成功。因此在實際運用(♠™ ¶yòng)中更多(duō)的(de)采用(yòng)的(de)是(shì)後剪枝技(jì×₽↕α)術(shù)。” |