詳細內(nèi)容

大(dà)話(huà)數(shù)據挖掘之聚類分(fēn)析↓↔(下(xià)篇)

人(rén)物(wù)介紹
許教授:國(guó)內(nèi)數(shù)據挖掘專₹€家(jiā)、某985高(gāo)校(xiào)智能(néng)信息處理(lǐ)₹€φ∑學術(shù)帶頭人(rén)
趙總:某電(diàn)力公司總經理(lǐ)
萬總:某超市(shì)集團營銷副總
李部長(cháng):某鋼鐵(tiě)集團生(shēng)産部部長​Ω(cháng)
 
某985高(gāo)校(xiào)管理(lǐ)&<學院第五屆EMBA班的(de)《數(shù)據挖掘及其應用(yòng)》課程上(shàng)。≥≈ γ
國(guó)內(nèi)數(shù)據挖掘專家(jiā)、智能(néng)信息處理(lǐ)學術(shù↔→‌≤)帶頭人(rén)徐教授站(zhàn)在講台上(shàng)打開(k↔εāi)PPT說(shuō):“同學們,大(dà)家(jiā)好(♥βhǎo)!今天我們接著(zhe)上(shàng)一(yī)節課關于聚類分(fēn)∑≠析的(de)內(nèi)容展開(kāi)。”★>★
徐教授:“上(shàng)節課我們講了(le)k-Means算(suàn)法和(hé ×)k-Medoids算(suàn)法的(de)第一(yī)個(gè)不(b$§ù)足。第二個(gè)不(bù)足就(jiù)是(shì)這(zhè)兩種↔γ算(suàn)法不(bù)适用(yòng)于發現(xiàn)非球狀的(dσ✔δe)簇。原因是(shì)這(zhè)類算(suàn)法使用(♣€φ✔yòng)距離(lí)來(lái)描述數(<₽shù)據之間(jiān)的(de)相(xiàng)似性,但(dàn)是(shì),對(duì)↓®&$于非球狀數(shù)據集,隻用(yòng)距±""✘離(lí)來(lái)描述是(shì)不(bù)夠的(de)。”
“那(nà)遇到(dào)非球狀的(de)聚類問(wèn)題φΩ$可(kě)怎麽辦呢(ne)?”萬總問(wèn)道(dào)。
徐教授答(dá)道(dào):“對(duì)于這(γ→€©zhè)種情況,要(yào)用(yòng)密度來∑☆(lái)代替相(xiàng)似性設計(jì)聚類算(su ∑àn)法,這(zhè)就(jiù)是(shì)基于密度的(de)聚類算(suàn)法₹☆•即Density-based Method。基于密度的(de)算(suàn)法÷±₹從(cóng)數(shù)據對(duì)象的(de)分(fēn)布密度出發,把密度足夠大÷✘→α(dà)的(de)區(qū)域連接起來(lái),從(cóng)而可(kě)以發現(xiàn)任意γ 形狀的(de)簇,而且此類算(suàn)法還(hái)能(néng)夠有(yǒu)效去(q §$ù)除噪聲。常見(jiàn)的(de)基 ≈&®于密度的(de)聚類算(suàn)法有(yǒu)DBSCAN,OPTICS,DENCLUE等€©♣ 。”
李部長(cháng)已經沉默了(le)好(hǎo)長(cháng)時(shí)間∑α¥(jiān),他(tā)擔心萬總又(yòu)有(yǒu)什(↓↑​×shén)麽問(wèn)題影(yǐng)響徐教授的(de)教學進度,趕緊插話(huà)道(‌×<βdào):“徐老(lǎo)師(shī),您剛才 ←說(shuō)還(hái)有(yǒu)一(yī)種 ♥±​層次方法,這(zhè)種聚類方法的(de)思想……”
徐教授:“好(hǎo),我現(xiàn)在就(jiù)介紹一(yī)下(xià)層次方法即λ↓Hierarchical Method的(de)基本思想。這(zh¥©è)種方法按數(shù)據分(fēn)層建立簇,形成一(yī)棵以簇為(wèi‌φ)節點的(de)樹(shù)。如(rú)果自(zì)底向上₹∑ε(shàng)進行(xíng)層次聚集,則稱為(wèi)凝聚的(de)(Agσ±galomerative)層次聚類;如(rú)果自(zì)頂向下(xià)的(de)進行♦ε&(xíng)層次分(fēn)解,則稱為(wèi)分(fēnσ£β)裂法(Divisive)的(de)層次聚類。”
徐教授潤了(le)潤嗓子(zǐ),繼續講道(λ≈≠λdào):“凝聚的(de)層次聚類首先将每個(gè)對(duì♣¥£∞)象作(zuò)為(wèi)一(yī)個(gè)簇,然後逐漸合并這(zhè)些(xiē)★♠λ簇形成較大(dà)的(de)簇,直到(dào)所有(y¥¥×ǒu)的(de)對(duì)象都(dōu)在同一(yī)個(gè)簇中≤λ,或者滿足某個(gè)終止條件(jiàn)。分(fēn)裂的(de)層次聚類與之相(xiànδφ‍g)反,它首先将所有(yǒu)的(de)對(duì)象置£γ÷于一(yī)個(gè)簇中,然後逐漸劃分(fēn)為(wèi)越來(lái)越小(xiǎo)©♥  的(de)簇,直到(dào)每個(gè)對(duì)象自(zì)成一(yī)簇,或者達到(d×"ào)了(le)某個(gè)終止條件(jiàn),©₹β例如(rú)達到(dào)了(le)某個(gè)希望的(de)簇數(shù₹∑↓¥)目,或兩個(gè)最近(jìn)的(de)簇之間(jiān)的(de)距離(lí↕☆♠©)超過了(le)一(yī)定的(de)阈值。”'™
李部長(cháng)一(yī)直認真地(dì)聽(tīng)著(z×"★he),不(bù)斷地(dì)點頭表示他(tā)®™∑明(míng)白(bái)了(le)層次聚類的(de)思想。随後,÷→×他(tā)提問(wèn)道(dào):“徐老(lǎo)師(s®α€hī),層次聚類算(suàn)法有(yǒu©®§★)什(shén)麽缺點?”
徐教授:“層次方法可(kě)以在不(bù)™δ同粒度水(shuǐ)平上(shàng)對(duì)數(shù)據進行(xíng)探測,而且容易實現♠γσ(xiàn)相(xiàng)似度量或距離(lí)度量。但(dàn)是(shì)σ±,單純的(de)層次聚類算(suàn)法的(de)終止條件(jiàn)×'含糊,而且執行(xíng)合并或分(fēn)裂簇的(de)操作(zuò)不(bù)可(kě)修≤'正,這(zhè)很(hěn)可(kě)能(néng)導緻聚類結果質α♦₹量很(hěn)低(dī)。另外(wài),由于需要(yào)檢查和(hé)估算(su↑≤àn)大(dà)量的(de)對(duì)象或簇才能(nén♦γ£σg)決定簇的(de)合并或分(fēn)裂,所以這(zhè)種方法的(de)可(kě)擴展性較差。因× ≥✔此,通(tōng)常在解決實際聚類問(wèn)題時(shí)要(yào)把層'‌​π次方法與其他(tā)方法結合起來(lái)。層次方法和(hé)其他(tā)聚類方法的(< <de)有(yǒu)效結合可(kě)以形成多(duō)階段聚類,←β±能(néng)夠改善聚類質量。這(zhè)類方法包括BIRCH、CURE、ROCK、↑Ω©Chameleon算(suàn)法等。”
李部長(cháng)迫不(bù)及待地(dì)說(shuōφ↕¶):“徐老(lǎo)師(shī),您剛才講了(le)這(zhè)麽​÷✘多(duō)聚類方法,我發現(xiàn)它們有(yǒu)一(yī)個(gè)共同的(de)缺點,就φ✔(jiù)是(shì)算(suàn)法無法回答(dá)數(shù)據對(du®♠‌‌ì)象到(dào)底可(kě)以聚集為(wèi)多(duō)少(sh★←ǎo)類,據說(shuō)你(nǐ)們研究團隊發明(míng)®∑"σ了(le)一(yī)種視(shì)覺聚類算(suàn)法,很(hěn)好(hε$₹αǎo)地(dì)解決了(le)這(zhè)一(yī)問(wèn)題↑¥✘。我們幾個(gè)人(rén)昨天晚上(shàng)還(hái)打賭,我說(shuō§₩§ε)您今天肯定會(huì)講視(shì)覺聚類算(suàn)法,可(kě)都(dōu)要(y>≈α∞ào)快(kuài)下(xià)課了(le),您根本沒有(yǒu)提及視(shì)覺兩字 ≠ ‌。我們都(dōu)等不(bù)及了(le),您還(hái)是(s✘ hì)讓我們大(dà)家(jiā)欣賞一(yī)下(xià)視(shì)覺聚類$₽的(de)神奇魅力吧(ba)!”
說(shuō)到(dào)視(shì)覺聚類算(suàn)法,徐教授​≥‌♣臉上(shàng)露出了(le)會(huì)心的(de)微(w₩ε ​ēi)笑(xiào)。
“好(hǎo)的(de)。視(shì)覺聚類算(suà&$★®n)法是(shì)基于我們所建立的(de)尺度空(kōng)間(jiān)理(lǐ)論建立的(de•  ),運用(yòng)這(zhè)種算(suàn)法可(k&♦ě)以對(duì)衛星傳回的(de)原始圖像進行(xíng)分(fēn)Ω'析,把具有(yǒu)相(xiàng)似屬性的(de)事(shì)物(wù)聚到(d£✘ào)同一(yī)簇中,例如(rú)将其用(yòng)于香港地(dì)區(qū)地(d₽←₽©ì)表高(gāo)精度遙感圖像聚類、混雜(zá)遙感圖像中線狀目标如(rú)地(dì)震>>₽'帶、高(gāo)速公路(lù)、機(jī)場(c$₹hǎng)跑道(dào)等目标識别等。”
李部長(cháng)聽(tīng)到(dào)這(zhè)裡(lǐ‌α),激動得(de)跳(tiào)了(le)>♣起來(lái):“徐老(lǎo)師(shī),看(kàn)來(‌★lái)視(shì)覺聚類算(suàn)法有(γ✘✔yǒu)可(kě)能(néng)用(yòng)于我們≠≤∑闆材表面條紋、夾雜(zá)、重皮等質量問(wèn)題的(de)自≈•​(zì)動檢測,我們試試吧(ba)!”

蛋白(bái)質分(fēn)析
蛋白(bái)質分(fēn)析

 

徐教授接著(zhe)說(shuō):“李部長(cháng)的≠✘‍ (de)聯想很(hěn)豐富呀,國(guó)δδ內(nèi)外(wài)不(bù)少(shǎo)已經将這(z&★≤hè)種方法試驗過了(le)。美(měi)國(guó)喬治亞大(dà)學Lan小(xiǎ≈↔•‍o)組、美(měi)國(guó)馬裡(lǐ)蘭大(dà)學DeMenthon小(xiǎo)組、中科✘↕✘←(kē)環境與地(dì)理(lǐ)信息重點實驗室等先後将視(shì)覺聚類算(suàn)法用(✔♥yòng)于地(dì)理(lǐ)數(shù)據的(d∞σe)圖像處理(lǐ),還(hái)有(yǒu)比利時(shí)Namu  ≈r大(dà)學著名的(de)化(huà)學家(jiā)Leherte教授所領導的(de)×∏™✔實驗室将視(shì)覺聚類算(suàn)法應用(yòng)到(dào)生✔↕ (shēng)物(wù)計(jì)算(suàn),進行(xíng)胃蛋白(bái)酶δ∏配合體(tǐ)的(de)匹配、分(fēn)子(zǐ)電(di∏ ₹↑àn)流密度函數(shù)、蛋白(bái)質分(✘ε§↑fēn)子(zǐ)的(de)結構表達等研究。”
趙總:“徐老(lǎo)師(shī),視(sh₹αì)覺聚類算(suàn)法可(kě)太有(yǒu)用(£∏yòng)了(le),真棒!”
徐教授非常高(gāo)興:“不(bù)謙虛地(dì)說(shuπ¥®>ō),視(shì)覺聚類算(suàn)法确實有(yǒu)其獨到(dào "​)之處,其基本思想非常獨特:将數(shù)據集看(kàn)作(zuò)圖像,将數(shù)據建模問(wèn)題看(kàn)作(zuò)認知(zhī)問(wèn)題,通(tōng)<✔Ω↔過模拟認知(zhī)心理(lǐ)學的(de)格式塔原理(lǐ)原理(lǐ)與生(sπ♥ hēng)物(wù)視(shì)覺原理(lǐ✔$≥)解決問(wèn)題。”
“且慢(màn)且慢(màn),什(shén)麽是(shì)格式塔原理(lǐ)?”李部長(chán♦σ₽g)打斷了(le)徐教授的(de)話(huà)語。
徐教授翻動了(le)一(yī)下(xià)PPT:“很(hěn)≥®簡單,格式塔原理(lǐ)就(jiù)是(shì)物(wù)體(tǐ∞©)的(de)整體(tǐ)是(shì)由局部特征組織在一(yī)↑‌≥起的(de)認知(zhī)原則,請(qǐng)看(kàn)屏幕。”


格式塔原理(lǐ)


“我們将相(xiàng)似率、連續率、閉合率、近(jìn)鄰率αΩ和(hé)對(duì)稱率作(zuò)為(wèi)聚類的(de)基本原則,模拟人(rén)的(deλ∞​)眼睛由近(jìn)到(dào)遠(yuǎn)觀察景物(wù)的(de)過程設計( ©jì)算(suàn)法進行(xíng)聚類。随著(zhe)人(rén)由近(jìn✔♥)及遠(yuǎn),也(yě)就(jiù)是(shì)觀察尺度由小(xiǎo<→)變大(dà),所看(kàn)到(dào)的(de)景物(wù)的(de)層次會(huì∞‍)逐漸變化(huà),實際上(shàng)這(zhè)就(✘✔jiù)是(shì)一(yī)個(gè)聚類的(de)過程。”徐教授邊說(∑εΩ™shuō)邊翻了(le)一(yī)下(xià)PPT。

聚類分(fēn)析


李部長(cháng)聽(tīng)得(de)如(rú)醉如(rú)癡,看(kànΩφ)著(zhe)PPT上(shàng)視(λφ☆ shì)覺聚類的(de)示意圖,突然,他(tā)&≈≥&冒出了(le)一(yī)個(gè)新的("∑&de)問(wèn)題:“徐老(lǎo)師(shī↔$★),我明(míng)白(bái)了(le),在近(jìn)處,所聚的(de)類會♠→× (huì)很(hěn)多(duō),在遠(yuǎn)處,所聚的(de)類會¶φε(huì)很(hěn)少(shǎo),在很(hěn)遠(yuǎn)ε<處,所看(kàn)到(dào)的(de)東(dōng)西(xī)就("§₽jiù)成為(wèi)一(yī)個(gè)類别了(le)。您說(shuō),到(dào)底聚"δ∑為(wèi)多(duō)少(shǎo)類最為(wèi)∞↑∞∑合适呢(ne)?”
徐教授點了(le)點頭:“李部長(cháng)的(de)雙核腦(nǎo¶™)袋就(jiù)是(shì)轉得(de)快(kuài),一(yī)下(xià)子(zǐ)問(λ☆wèn)道(dào)了(le)視(shì)覺聚類的(d€↕ e)關鍵。随著(zhe)尺度σ由小(xiǎo)變大(dà),聚類的(de‍≥≥)個(gè)數(shù)在發生(shēng)變化(huà),但(dàn≥★>)會(huì)出現(xiàn)尺度σ在很(hěn)大(dà•> )範圍內(nèi)變化(huà),而聚類的(de)個(gè)數(sλ←hù)卻穩定不(bù)變的(de)情況。這(zhè)個★✘→(gè)聚類個(gè)數(shù)存活周期最長(cháng),它就(jiù)是(shì)最佳的€‍ (de)聚類個(gè)數(shù)!”
“太妙了(le),視(shì)覺聚類理(lǐ)論通(tō£≤ng)過引進類的(de)生(shēng)≈<®>存壽命概念,給出了(le)類的(de)認知→'✔(zhī)定義,解決了(le)聚類有(yǒu)效性問(wèn)題。數(​∏× shù)學上(shàng)嚴格證明(míng)了(le)結構的(de)因果性即類的(d±↓↓→e)演化(huà)單調性,由此形成了(le)尺度空(kōng)間(jiān)聚類♠• 的(de)一(yī)般性理(lǐ)論框架。”李部長(cháδ​ ↔ng)流利地(dì)對(duì)視(shì♣&↕)覺聚類進行(xíng)了(le)總結。
徐教授對(duì)李部長(cháng)的(de)話(‌σδ₩huà)感到(dào)納悶:“李部長(cháng),你(nǐ)不(bù)是(shì)做(zu↕δò)數(shù)據挖掘研究的(de),不(bù)可(kě)能(néng)給出這(Ω¥§σzhè)麽深刻的(de)總結吧(ba)!”
李部長(cháng)笑(xiào)了(le)笑(xσ¥✔€iào):“嘿嘿,這(zhè)是(shì)我從(cóng)網上(shàng)> 看(kàn)到(dào)的(de)有(yǒu)人 ©¶(rén)對(duì)視(shì)覺聚類方法的(de£λ☆ )評價。”
下(xià)課鈴響了(le),徐教授邊合上(s∞λ hàng)電(diàn)腦(nǎo)邊說(shuō):“聚類方法我們就(jiù)簡單學習(xí)σα到(dào)這(zhè)兒(ér),下(xià)一(yī)←≤節可(kě)咱們一(yī)起討(tǎo)論數(shù)據挖掘非常重要(yào)的∑₽≈(de)內(nèi)容——預測。”
“今天關于關聯規則挖掘的(de)內(nèi)容就φ∞​δ(jiù)介紹到(dào)這(zhè)裡(lǐ)。同學們,下(xα™ià)節課見(jiàn)!”


掃一(yī)掃關注公衆号

聯系熱(rè)線:4008-626-828

公司地(dì)址:福建省建瓯市(shì)宏發江景6#30' ‌&6

Copyright @ 2018 . Aπ→ααll rights reserved. 
電(diàn)話(huà)直呼
在線留言
發送郵件(jiàn)
企業(yè)位置
聯系我們:
4008-626-828
18020973535
暫無內(nèi)容
還(hái)可(kě)輸入字符250(限制(zhì)字符250)
技(jì)術(shù)支持: 諾鑫科(kē)技(jì) | 管理(lǐ)登錄
seo seo