詳細內(nèi)容

工(gōng)業(yè)大(dà)數(shù)據分(fēn)析技(jì)術₹♦(shù)在實踐應用(yòng)中的(de)思路(lù)與方法(下(xià)篇)

導讀(dú):欲避免數(shù)據分(fēn)析工(gōng)作(zuò)的(de)陷阱,就(✔§"∏jiù)須事(shì)先了(le)解可(kě)能(néng)遇到(dào)的(de​£)各類問(wèn)題和(hé)困難。在《工(gōng)業(yè)大(dà)數(shù)據分(fēn)析技(ε"↓jì)術(shù)在實踐應用(yòng)中的(de)思路(lù)和(hé)方法φ♠≤》(上(shàng)篇)中,我們一(yī)起研討(tǎo)了(le)工(gōn​≈★≥g)業(yè)大(dà)數(shù)據分(fēn)析的(de)₩"特殊性和(hé)難點;今天我們将繼續和(hé)您分(fēn)享(下‌✘(xià)篇)內(nèi)容,共同探討(tǎo)如(rú)何用(yòng)少(shǎo)的₹‌÷(de)時(shí)間(jiān)代價換取數(shù)據分(f​​ ēn)析工(gōng)作(zuò)的(d↕♣e)高(gāo)成功率和(hé)大(dà)價值;如(rú)何選擇合" ™适的(de)方法解決具體(tǐ)的(de)應用(yòng)問(wèn)題,并對(d✘∞uì)分(fēn)析結果的(de)可(kě)靠性做(zuò)出科(kē)學評估,δ"避免技(jì)術(shù)在具體(tǐ)應用(yòng)中受阻、被淹沒……

工(gōng)業(yè)大(dà)數(shù)據


一(yī)、工(gōng)業(yè)大(dà)數(¶≠shù)據分(fēn)析的(de)基本框架
目前,業(yè)界在開(kāi)展工(gōng)業(yè)大(dà)數(shù)據分(fēn)析&×↓時(shí)主要(yào)遵從(cóng)φ×♦CRISP-DM分(fēn)析流程,以數(shù)據為‍α ♠(wèi)中心,将相(xiàng)關工(gōng)作(zuò)分(fē♣••n)成業(yè)務理(lǐ)解、數(shù)據理(lǐ)解、數(shù©α®)據準備、建模、驗證與評估、實施與運行(xíng)等六個(gè)步驟,如(rú)下±'(xià)圖所示。此流程相(xiàng)關步驟存在多(≥'duō)處循環和(hé)反複叠代,如(rú)業(yè)務理(lǐ)解和(hé)數(±©₽shù)據理(lǐ)解、數(shù)據準備和(hé✔α✘‌)建模之間(jiān),整個(gè)分(fēn)析過程需要(yào)在不(bù)斷交替>σ<↓中深入進行(xíng),甚至會(huì)出現(xiàn)模型驗證評估和(hé$&)業(yè)務理(lǐ)解之間(jiān)的(de)修正調整。

CRISP-DM方法
圖 1:CRISP-DM方法

由于工(gōng)業(yè)數(shù)據關聯關系複雜(zá)、工(gōng)業(yè)數(s≥¥®₩hù)據質量差、工(gōng)業(yè)場(chǎng)景的(•¥ ♥de)分(fēn)析要(yào)求高(gāo)等導緻CRISP-DM方法在工(₽♦εgōng)業(yè)領域的(de)具體(tǐ)應用(yòng)中遇到σ÷(dào)一(yī)些(xiē)問(wèn)題。加之,工(gōng)業(yè)大(dà ↔≈₽)數(shù)據分(fēn)析過程中往往需要(yào)對(duì✘ ')業(yè)務和(hé)數(shù)據進行(xíng)充分≤¥✔(fēn)解讀(dú),難免會(huì)出現(xiàn)大(dà)量無效的(de)循環往複÷€§的(de)工(gōng)作(zuò),導緻在用α"¶(yòng)CRISP-DM方法分(fēn)析時(shí)效率較低(d↑±ī)。所以,在工(gōng)業(yè)大(dà)數(shù)據分(fēn)析過程中,用(y←∏™σòng)好(hǎo)CRISP-DM的(de)關鍵是(sh→♥♠ì)減少(shǎo)上(shàng)下(xià)™™步驟之間(jiān)的(de)反複,避免單向箭頭變成雙向。更需要(yào)注意的♦'(de)是(shì),要(yào)盡量減少(s✔φ≠€hǎo)模型驗證評估失敗後重新進入業(yè)務理(lǐ)解這(zhè)樣大(d≤→¥à)跳(tiào)躍的(de)反複。這(zhè)就(jiù)是(shì)在前文(wén)提到(♥×dào)的(de)在開(kāi)展工(gōng)業(yè)大(α♣₹dà)數(shù)據建模前要(yào)固化(huà)好(hǎo)分(f•♥≈ēn)析場(chǎng)景和(hé)評估确定好(hǎo)數(sφ$∑₹hù)據條件(jiàn)。

二、工(gōng)業(yè)大(dà)數(shù)據分(fēn)析具體≤≈(tǐ)如(rú)何開(kāi)展
長(cháng)期實踐來(lái)看(kàn),CRISP-DM模型須補充進新內(nèi)​≠涵才能(néng)更好(hǎo)的(de)指導工(gōng>​"ε)業(yè)應用(yòng)場(chǎng)景的βδ♥•(de)工(gōng)業(yè)大(dà)數(shù)據分(fēn)析。CR∑γ★ISP-DM模型在工(gōng)業(yè)大(dà)數(sh€σù)據的(de)中的(de)應用(yòng)推進, $₩&主要(yào)分(fēn)以下(xià)幾個(gè)階段:

01 業(yè)務理(lǐ)解
明(míng)确業(yè)務需求和(hé)數(shù)據分(fēn)析的(de)目标。
業(yè)務理(lǐ)解的(de)過程通(tōng)常需要(yào)将專業(yè γ§α)領域的(de)知(zhī)識和(hé)數(shù)據模型充分(φ&∏fēn)融合,業(yè)務領域的(de)知(zhī)識可(kě)作(zuò)為(wèi)φ★→工(gōng)業(yè)建模的(de)輸入變量融入到(dào)工(gōng)業(yè)分(fēn"≈&☆)析模型中,也(yě)可(kě)以作(zuò)為(wèi)知(zhī)識去(q✔σù)輔助建立高(gāo)效地(dì)診斷、檢測、預測模型從(cóng)而指導工(gōng)業(yδα✘‍è)應用(yòng)。工(gōng)業(yè)大(d≠α£à)數(shù)據分(fēn)析需要(yào)數(shù)據分(fēn)析師(shī)深 ☆≠入理(lǐ)解業(yè)務,且要(yào)對(duì)這(zhè)個←™π≠(gè)“度”把握和(hé)控制(zhì)好(hǎo)。一(yī)方≠•₹面,隻有(yǒu)數(shù)據分(fēε >n)析師(shī)深入理(lǐ)解業(yè)務,才能(néng)實現(xiàn)領域知(zδδhī)識與數(shù)據分(fēn)析的(de)有(yǒu)機(jī)融合,得(de)到(d™‌ào)高(gāo)水(shuǐ)平、有(yǒu)價值的(de)分(fēn)析¥ 結果;另一(yī)方面,成為(wèi)一(yī)個(g¶✔è)業(yè)務領域專家(jiā)需要(yào)多(duō)年(nián)±Ω∞的(de)積累,完整掌握業(yè)務知(zhī)識是(shì)不(bù)現(xiàn÷ )實的(de),需要(yào)專業(yè)人(rén)員(yα✘uán)及環境的(de)多(duō)項支持。因此,β×$♥為(wèi)提升工(gōng)業(yè)應用(yòng)¶←£現(xiàn)場(chǎng)業(yè)務認知(zhī)深度,企業(yè)基本是≤ε(shì)采用(yòng)業(yè)務咨詢顧問(™£wèn)和(hé)數(shù)據分(fē±>€n)析師(shī)配合組隊的(de)模式來(lái)開(kāi©‌‌)展工(gōng)業(yè)大(dà)數(shù)據分(fēn)析工(gō☆₽₩ng)作(zuò)。

02 數(shù)據理(lǐ)解
準确建立數(shù)據和(hé)業(yè)務間(jiān)的(de)關聯關系♠¶✘±,從(cóng)數(shù)據的(de)角度深度解讀(dú)業('¶  yè)務。
數(shù)據分(fēn)析師(shī)會(huì)習(x Ω↕₹í)慣性地(dì)把工(gōng)業(yè)大(dà)數(shù)據分(fēn)析過₩"σ✘程中遇到(dào)的(de)分(fēn)析效率低(dī)、數(shù)據信噪比低(dī)、機(jī←©)理(lǐ)融合難、錯(cuò)誤結果多(duō)等問(wèn)題✘®歸結到(dào)數(shù)據質量層面,而忽略在數(shù)據理(lǐ)≥• 解階段的(de)深層次問(wèn)題,而數(s&®hù)據理(lǐ)解恰恰是(shì)數(shù)據建模 Ω的(de)關鍵所在,也(yě)常常是(sh↔‍"γì)數(shù)據分(fēn)析過程中大× ↕(dà)家(jiā)的(de)盲點所在。數(s✘‌hù)據理(lǐ)解需要(yào)從(cóng)數(shù)據類型狀态、數(shù)據質量↓✘£™條件(jiàn)和(hé)數(shù)據間(jiān)的(de)關聯關系等方面開£>↓∞(kāi)展判斷論證,确定是(shì)否滿足業(yè)務↔¶σ∏場(chǎng)景的(de)要(yào)•☆σ₹求。

03 數(shù)據準備
為(wèi)工(gōng)業(yè)建模分(fēn)析提供幹淨、有‍Ω(yǒu)效的(de)輸入數(shù)據源 λ•‍。
工(gōng)業(yè)企業(yè)數(shù)據準備環節主㥧$要(yào)為(wèi)解決業(yè)務應用(yòn•γ☆g)問(wèn)題開(kāi)展數(shù)據集成治理(lǐ),實現(xiàn)數(sΩ≥hù)據資源的(de)互通(tōng)和(hé)共享,™★&‍提供工(gōng)業(yè)建模所需的(de)數(shù)據↕∏≥。通(tōng)常需要(yào)成立專項數(shù)據治理(lǐ)組織β$≤∑,通(tōng)過數(shù)據集成和(hé)定期運維等方式保≠α‌證業(yè)務系統和(hé)線下(xià)數(shù)據準确與完整。此外(→∏wài),工(gōng)業(yè)過程數(shù)據由于傳感器(qì)故障、人(rén)為(wè§≤$i)操作(zuò)因素、系統誤差、異構數(shù)據≤↕源、網絡傳輸亂序等因素極易出現(xiàn)噪聲、缺失值、​‍$數(shù)據不(bù)一(yī)緻等情況,鑒于此通(tōng)常需采用(yòng)一(yī)定的>δ←(de)數(shù)據預處理(lǐ)技(jì)術(shù),消除數(shù)據中的(de↕Ω)噪聲、糾正數(shù)據不(bù)一(yī)緻、識₽≤£别和(hé)删除離(lí)群數(shù)據,來(lái)提高(gāo)算(suàn)法模£©‍₽型的(de)魯棒性,防止模型過拟合或欠拟合。

04 數(shù)據建模
對(duì)業(yè)務和(hé)數(shù)據進行(xín‍€g)深入理(lǐ)解,選擇合适的(de)算(suàn)法和(hé)建<<Ω模工(gōng)具,并對(duì)數(shù)據中的(d ≈e)規律進行(xíng)固化(huà)、提取,最後輸出數(σ×shù)據分(fēn)析模型。
工(gōng)業(yè)模型不(bù)同于數(shù)據分(≤☆fēn)析中的(de)聚類、分(fēn)類、回歸等α↑↕γ算(suàn)法,它更多(duō)的(de)是(shì)基于業(yè)務機(jī)理(lǐ)知♦Ω&(zhī)識與算(suàn)法融合後解決✔≠實際業(yè)務問(wèn)題的(de)一(yī)套理ε↓(lǐ)論體(tǐ)系或業(yè)務機(jī)制(zhì)。數(shù)據建模的(de)>$​本質是(shì)發現(xiàn)知(zhī)識和(hé)固化(huà)知(zhī)識,工(↕≥↑gōng)業(yè)領域的(de)知(zhī)識主要(yào)通(>÷tōng)過試驗\試加工(gōng)等手段獲得(de),把累次試驗£↑Ωε加工(gōng)所用(yòng)到(dào)的(de)參‍$數(shù)慢(màn)慢(màn)地(dì)固化(h≈‌uà)下(xià)來(lái),最終得(de)到(dào)穩定•≤∑的(de)産品質量,此邏輯對(duì)工(gōng)業(yè)領域的(de)∞™←±數(shù)據建模同樣有(yǒu)效。
例如(rú),我們在給航發某廠(chǎng)做(z₹☆uò)外(wài)場(chǎng)服務備件(jiàn)年(nián)度♥≥←✘需求預測分(fēn)析時(shí),首先定義業×&£(yè)務場(chǎng)景及需求是(shì)面向服務部提供外(wài)場(chǎγ'ng)備件(jiàn)的(de)需求預測服 $ 務,解決外(wài)場(chǎng)備件(jiàn)需求預測不(b≈±ε✔ù)準、不(bù)及時(shí)的(de)問(wèn)題。然後,通(tōng)過數(shù '∏ )據集成和(hé)數(shù)據預處理(lǐ)等手段獲取外(wài)場(chǎngλ×​)備件(jiàn)預測相(xiàng)關的(de)近(jìn)十年(nián)發動機(jī)故障≠ ∞"信息、裝機(jī)記錄、計(jì)量信息和(hé)發貨記錄等數(shù)據♦≠,在對(duì)數(shù)據進行(xíng)充分(fēn)理₩₩♥(lǐ)解和(hé)探索後,結合廠(chǎng)內(nèi)業(yè)務專家(ji÷∑ā)的(de)業(yè)務知(zhī)識,在開(kāi)展εβ<工(gōng)業(yè)建模時(shí)将備件(jiàn)細£₽™分(fēn)為(wèi)換件(jiàn)頻(pín)次低(dī)但(dàn)價值高(gāo)的(d♣→ε₽e)故障件(jiàn)(特殊消耗件(jiàn)、周轉件(jiàn))和♣★✘☆(hé)換件(jiàn)頻(pín)次高(gāo)₩≠ π、換件(jiàn)量波動大(dà)且價值密度相(xiàng)對(duì)較低(d≤≤✘ī)的(de)消耗件(jiàn)(一(yī)般消耗件β•(jiàn)),分(fēn)别進行(xíng)建模預測。最後,在不(bù)同的(de)規則約束下(✘§↕xià),通(tōng)過模型評估和(hé)工(♦δgōng)程實際應用(yòng)效果,優選出合适的(de)算(su→♦÷★àn)法模型,實現(xiàn)故障件(jiàn)和(↕₹£hé)消耗件(jiàn)各自(zì)細分(fēn)類别下(xià)的(de)準确預測,極大(dà)∞®提升了(le)服務備件(jiàn)計(jì)劃的(de)準确性和(hé)外(π←÷φwài)場(chǎng)服務保障的(de)及時(shí)性。


外(wài)場(chǎng)服務備件(jiàn)需求預測建模思路(lù)
圖2:外(wài)場(chǎng)服務備件(jiàn)需求預測建模思 ≥路(lù)
 

因此,工(gōng)業(yè)大(dà)數(shù)據建模需要(yào)對(duì)δ"已有(yǒu)工(gōng)業(yè)領域的(de)知(zhī)識深入理(lǐ)解,并>€•在數(shù)據建模的(de)過程中予以參考和(hé)融入,以通(tōng)過數→‍(shù)據分(fēn)析獲得(de)大(dà)量“不(b䣕ù)糾結于因果的(de)知(zhī)識”,這(zhè)是(shì)得(de)到ε≥♦£(dào)高(gāo)質量模型的(de)關鍵所在。對(duì)于企業(☆↕±yè)而言,鑒于場(chǎng)景化(huà)數(shù)據積累量和(hé☆≥§π)全面性短(duǎn)期難以全面達到(dào)全面數(shù)據分($ ↔fēn)析的(de)要(yào)求,可(kě)優先以挖掘到(dào)的₽♦↓♦(de)新知(zhī)識\方法相(xiàng)比現 β↕(xiàn)有(yǒu)業(yè)務環節在÷$  結果和(hé)流程上(shàng)得(de)到(dào)提升或​β¥改進為(wèi)原則,以保證分(fēn)析建模工(gōng)作(zuò)達到(dào)基礎的(♣ ©de)應用(yòng)效果,然後在此基礎随著(z>™"he)數(shù)據積累和(hé)認知(zhī)提升,持續改進優化(huà)。

05 模型的(de)驗證和(hé)評估
确認數(shù)據分(fēn)析的(de)結果或模型是(shì)否滿足具體(tα≥ǐ)工(gōng)業(yè)應用(yòng)場(chǎng)≠α✘景的(de)使用(yòng)需求的(de)過程。
工(gōng)業(yè)界通(tōng)常φ∏追求分(fēn)析結果具備高(gāo)度的(de)可(kε♠ě)靠性及準确性。所以,驗證與評估的(de)重點是(shì)驗證模型在什(shén)麽範圍內(nΩσèi)有(yǒu)效,有(yǒu)效程度是✘><(shì)多(duō)少(shǎo),不(bù)能↑'✘(néng)隻盯平均精度。也(yě)就(j® iù)是(shì)說(shuō),需要(yào)分(fēn)場(chǎng)景去♠€(qù)驗證和(hé)評估模型,結合數(shù)學精度要(yào)求與專業(yè)領域知(zβ​hī)識綜合進行(xíng)評估和(hé)改善。例‌★如(rú),我們針對(duì)某鋼廠(chǎng)開(kāi)展的(de)矽鋼縱條紋工‍>< (gōng)藝參數(shù)優化(huà)項目,♣‍通(tōng)過領域知(zhī)識發現(xiàn)矽和(hé)鋁的(de)成分£$(fēn)占比對(duì)生(shēng)産工←¶(gōng)藝影(yǐng)響較大(dà≠'≥),但(dàn)在工(gōng)藝數(shù)據層面,此類關鍵參數(shù)控制(z→‌hì)的(de)比較穩定,其對(duì)縱條紋影(yǐng)響的(de)重要(ε yào)性就(jiù)完全顯現(xiàn)不(bù)出來(lái)。因此,生(shēng)産®₩↕¥控制(zhì)過程中涉及到(dào)的(dσ¶π e)工(gōng)藝參數(shù)優化(huà),其目标應該是(↓♣∑shì)首先選擇波動較大(dà)的(de)參↔<&數(shù)進行(xíng)重點采集與調整,其次在設計(jì)區(qū)間(jiānα£≥)約束的(de)範圍內(nèi)對(du♠≈ ì)模型進行(xíng)控制(zhì)與調整,開(δ≥kāi)展實際生(shēng)産驗證,進而獲得(de)×✘∞‌對(duì)生(shēng)産控制(zhì)策略改↔σ™進優化(huà)後的(de)模型。

06 模型部署
将訓練、分(fēn)析得(de)到(dào)的(de)知(zhī)識模型,以便∑↑® 于用(yòng)戶使用(yòng)的(de)方式和(hé)要(yào)求重新固化(huà)↔↕,形成便于用(yòng)戶使用(yòng)的(de)形式的&×✘↔(de)過程,其成果可(kě)以是(shì)研究報(bào)告、可(kě)重₹→複使用(yòng)的(de)數(shù)據挖掘↓↑∑®程序或模型服務程序。

分(fēn)析應用(yòng)模型通(tōng)常以軟件(jiàn)定義和(hé)呈現(xε✔ iàn)的(de)方式應用(yòng)在企業(yε ☆∑è)的(de)業(yè)務、管理(lǐ)或者✘≥∏ 監控系統中。模型在運行(xíng)過程中需要(≥Ωyào)持續地(dì)進行(xíng)優化(huà),否"λδδ則模型就(jiù)沒有(yǒu)持續生(shēng)命'☆"&力,因為(wèi)其精度很(hěn)大(dà)程度上(shàng)決定↑★于數(shù)據的(de)質量,往往模型在部署之後,由于缺乏數(shù)據的(de)管理↔¥(lǐ)維護,導緻數(shù)據的(de)質量較差或者不(bù)滿足采集條件(jγ>♣∏iàn)。因此,要(yào)保證分(fēn)析模型給企業(yè)帶來(lái)效益®₽≤,需要(yào)花(huā)費(fèi)人(rén)力和(hé)物(w✔∞↑ù)力保障數(shù)據的(de)采集條件(jiàn),從(cóng)而為(wèi≠₩)提高(gāo)數(shù)據的(de)精度奠定基礎。同時(sh§♦≤'í),随著(zhe)數(shù)據質量的(de)提高(g✘↔±>āo)和(hé)數(shù)量的(de)增加,可(kě)能(né•→ng)會(huì)挖掘出新的(de)知(zhī)識或規則,需要(yào)定期對(duì)模型進行(σ•xíng)完善,這(zhè)也(yě)是(φ↔₽shì)推動模型不(bù)斷優化(huà)的(de)動力。


結語
随著(zhe)工(gōng)業(yè)大(dà)數(shù)據分(fēn)析技& α(jì)術(shù)體(tǐ)系的(de)不(bù)斷成熟、企業(yè)數(☆Ωshù)據資産的(de)不(bù)斷沉澱、應用(yòng)場(chǎn≥✔‌φg)景的(de)不(bù)斷延伸、數(shù)據化(huà)意識的(de)不(b♦÷©ù)斷深化(huà),工(gōng)業(yè)大(dà)數(s♠↓α​hù)據應用(yòng)必将是(shì)企業(yè)數(sε♦≠hù)字化(huà)轉型的(de)持續動力和(hé)重要(yào)著(zh↑↑₽✘e)力點。未來(lái),在新技(jì)術(shù)條件(jiàn)ק‍$下(xià),我們将同各類工(gōng)業(÷♠yè)企業(yè)一(yī)起著(zhe)力于實現(xiàn)貫穿于産品研發設計(jì)、生♣₩(shēng)産、管理(lǐ)、倉儲、物(wù)流、服務等各業(yè)務環節和(×'♣≤hé)全流程的(de)大(dà)數(shù)據采集、存儲、管±‌★理(lǐ)和(hé)分(fēn)析應用(yòng"•∑ ),利用(yòng)工(gōng)業(yè)大(dà)數(shù)據分(fēn)析技(jì)術(shù)和(hé)解決方案融合應用(yòng)能(néng)力,挖掘工(g​<♣©ōng)業(yè)數(shù)據的(de)深層次價值,達到(₽ €±dào)改進産品設計(jì)、提升生(shēng)∏π↑≈産效率、提高(gāo)産品質量、降低(dī)企業(yè)成本、提升運營能(✘≤♦‍néng)力等多(duō)項目标,為(wèi)提™×升企業(yè)的(de)生(shēng)産★α力、競争力和(hé)創新力不(bù)斷賦能(néng§±₽☆)。



掃一(yī)掃關注公衆号

聯系熱(rè)線:4008-626-828

公司地(dì)址:福建省建瓯市(shì)宏發江景6#306

Copyright @ 2018 . All rights reserved. 
電(diàn)話(huà)直呼
在線留言
發送郵件(jiàn)
企業(yè)位置
聯系我們:
4008-626-828
18020973535
暫無內(nèi)容
還(hái)可(kě)輸入字符250(限制(zhì)字符250)
技(jì)術(shù)支持: 諾鑫科(kē)技(jì) | 管理(lǐ)登錄
seo seo