導讀(dú):工(gōng)業(yè)大(dà)數'☆(shù)據即工(gōng)業(yè)數(shù)¥↔據的(de)總和(hé),其來(lái)源主要(yào)包括企業≠♥(yè)信息化(huà)數(shù)據、工(gōng)業λα₹γ(yè)物(wù)聯網數(shù)據、“跨界”數(shù)據等,它是(shì)工(gō☆→ng)業(yè)互聯網的(de)核心,是(shì)智能(néng)制(φ←εzhì)造的(de)關鍵。工(gōng)業(yè)大(dà)數(shù)據分(fēn) ×π析作(zuò)為(wèi)工(gōng)業(δαγyè)大(dà)數(shù)據的(de)核心技(jì)術(shù)之一(yī₩β↓'),是(shì)工(gōng)業(yè)智δ∑¶能(néng)化(huà)發展的(de)重要(yào)基礎和(hé)關鍵支撐。
本文(wén)将結合作(zuò)者在工(gōng)業(yè)領域多(duō)年(niá∞n)的(de)實踐應用(yòng)經驗,力圖對(duì)工(gōng)業(yè)大(dà)數(shù)據分(fēn)析技(jì)術(shù)的(de)應用(yòng)思路(lù)、方法和(hé)∏流程進行(xíng)總結,旨在為(wèi)企業(yè)開(kāi)展大(d ✔>•à)數(shù)據分(fēn)析工(gōng)作(>♦↑÷zuò)提供技(jì)術(shù)和(hé)業(y≥★è)務上(shàng)的(de)借鑒。
在本文(wén)中我們将一(yī)起研討(tǎo)和(hé)思 < ↑考:
工(gōng)業(yè)大(dà)數(shù)據分(fēn)析的 σ(de)特殊性;
工(gōng)業(yè)大(dà)數(shù)據分(fēn)析的(de)困境及難點;
工(gōng)業(yè)大(dà)數(shùα¥)據分(fēn)析的(de)基本框架;
工(gōng)業(yè)大(dà)數(shù)據分(fēn)析該如(rú<✔ &)何開(kāi)展?

01 工(gōng)業(yè)大(dà)數(shù¥§)據分(fēn)析與傳統數(shù)據分(fēn)析的(de'✔ )差異性及特殊性
工(gōng)業(yè)大(dà)數(shù)據分(f ★÷ēn)析是(shì)利用(yòng)統計(jì)學分(fēn)析技(jì)術(shù)、機(j¥δ>★ī)器(qì)學習(xí)技(jì)術(shù)、信号處理(lǐ)技(jì)術(shù)等技(jìσ♠&£)術(shù)手段,結合業(yè)務知(zhī☆&&)識對(duì)工(gōng)業(yè)過程産生(shēng)的(de)數(s♣'♦hù)據進行(xíng)處理(lǐ)、計(jì)算(suàn)、分(fēn)析并提取其中有(y☆™ǒu)價值的(de)信息和(hé)規律的(de)過程。從(cóng)過程與目标角度看(k८✘n),工(gōng)業(yè)大(dà)數(shù)據分($®♠fēn)析和(hé)傳統統計(jì)分(fēn)析、商業(yè)智能(néng)分(fēn≠)析涉及的(de)學科(kē)和(hé)技(jì)術(shù$₩γ)大(dà)同小(xiǎo)異。但(dàn)從(cóng)分(fēn)析理(lǐ)✘£¥ 念和(hé)特點上(shàng)看(kàn),工(gōng)業(yè)大(dà)數♣₩☆<(shù)據分(fēn)析又(yòu)有(yǒu)其自☆"→₽(zì)身(shēn)的(de)特殊性。
首先,進入大(dà)數(shù)據時(shγπ ♦í)代,數(shù)據的(de)變化(huà)往• ←≠往引發工(gōng)作(zuò)方法和(hé)價值體(tǐ)現(xiàn)的(d¥ ₹e)改變。對(duì)于數(shù)據的(de)變化(huà),非工(gōng)業(yè)領域往♦✔•∞往強調數(shù)量上(shàng)的(de)變化(huà);但(dàn)在工 ★∏₽(gōng)業(yè)領域,則更注重數(shù)據完整性和(hé)質量的(γ¶de)提升。工(gōng)業(yè)現(xiàn)場(chǎng)往往對(>♥♠duì)分(fēn)析結果的(de)精度、可(kě)靠度要(yào)求高(gā ÷∞o),加之工(gōng)業(yè)對(duì)象和(hé)過程本身(shē★ ≤n)也(yě)很(hěn)複雜(zá)。因此,工(gōng)業(yè)大(dà)數(shù)據≥®↑分(fēn)析方法的(de)重點是(shì)通(tōng)過數(Ω¶'★shù)據條件(jiàn)的(de)改善,∑¥結合相(xiàng)關分(fēn)析技(jì)術(shù)的(de)有(yǒ✔€©™u)效應用(yòng),得(de)到(dào)質量高(gā×o)的(de)分(fēn)析結果。
此外(wài),工(gōng)業(yè)場(chǎng)景的(de)邊界往往都(dōu→♥$)有(yǒu)專業(yè)領域的(de)₹↕ε>機(jī)理(lǐ)來(lái)約束。對(dβδuì)于複雜(zá)的(de)工(gōng)業(yè)過程數(shù)★<←據分(fēn)析,往往不(bù)能(néng)僅局限于相(xiàng)關關系♠∏分(fēn)析,需要(yào)強調工(gōng)業(yè)領域業(y¶₩∏è)務知(zhī)識和(hé)數(shù)據分(fēn)析過程的π<(de)深度融合;強調複雜(zá)業(yè)務問(wèn)題簡化(huà)和 •ε(hé)分(fēn)析結果的(de)可(kě)解釋性,而不(bù)是(shì)簡單地(dì)追α✔求數(shù)據量大(dà)與分(fēn)析算(suàn)法的(de)複雜✘δ←(zá)和(hé)先進性。一(yī)言以蔽之,工(gōng)±€₽業(yè)大(dà)數(shù)據分(fēn)析需要(yào)在工(gōng)業(yè)具體(tǐ↕₩)業(yè)務要(yào)求的(de)邊界下(xià),用(yòng)數(shù)據思維π♦©和(hé)數(shù)理(lǐ)邏輯去(qù)嚴格地(dì)定©©€義問(wèn)題,采用(yòng)“數(shù)據驅動§™≤←+機(jī)理(lǐ)模型”的(de)雙輪驅動方式去(qù)精确表征、有(yǒu)效¥↕γ解決實際問(wèn)題。
02 工(gōng)業(yè)大(dà)數(shù)據分(fēn)析的(de)困境及難點¶'↔®
工(gōng)業(yè)大(dà)數(shù)據分(fēn)析的(de)困境及難點®∞λ主要(yào)體(tǐ)現(xiàn)在對(duì)工(gōng)業(yè)對(duì)象(過程αλ)理(lǐ)解和(hé)認知(zhī)要(yào)←↔≤求的(de)高(gāo)标準和(hé)一γ•(yī)緻性、工(gōng)業(yè)大(dà)數₽λ€α(shù)據建模的(de)複雜(zá)性和(♥ ☆hé)反複性、分(fēn)析結果的(de)可(kě)靠性•₹和(hé)确定性三個(gè)方面。
第一(yī). 工(gōng)業(yè)大(dà)數★•↓ (shù)據分(fēn)析對(duì)數(shù)據分(fēn)析人(rén)員(yuán)€β©"的(de)業(yè)務背景認知(zhī)能(néng)力要(yào₩±✘₹)求較高(gāo)
數(shù)據分(fēn)析師(shī)不(bù)能(néng)按照(zhào)以往思路(lù),€ 對(duì)業(yè)務相(xiàng)關對<$≠Ω(duì)象、數(shù)據情況初步摸底認知(zhī)後就(jiù)匆匆開(kāi)展具體(t±✘ǐ)分(fēn)析建模工(gōng)作(zuò)。而針對(duì)工(gōng)業(yèσ♦↑)對(duì)象和(hé)過程的(de)複雜(zá)系統,不(bù)同的(de)場(chǎng)××→→景下(xià)業(yè)務問(wèn)題•φ之間(jiān)的(de)關系往往會(huì)發生(shēng)改變,★ ₩加之數(shù)據缺失嚴重、噪聲大(dà)、業(yè)務含義代表性強等因素≈σ$↑,理(lǐ)論體(tǐ)系下(xià)的(de)數(shù)據分(fēn)析相(xiàng)關®±₹理(lǐ)念與技(jì)術(shù)很(hěn)難直接适用(yòng)于此類場∑&γ→(chǎng)景的(de)變化(huà)和(hé)複雜(zá)度要(yào)求。如(rú)若&§∏✘數(shù)據分(fēn)析團隊對(duì)研究工(gōng)業(yè)對Ω&™(duì)象認識不(bù)夠深入或“片面性”理(lǐ)解,往往會(huì)導緻≈× 分(fēn)析出來(lái)的(de)結果是(shì)隻是(shì)證明(míng)了(le☆§)領域內(nèi)業(yè)務機(jī)理(lǐ)/常識的(de)正确性或某一(yī)公認理(lǐ&&±¥)念,就(jiù)會(huì)經常出現(♠ xiàn)項目研究投入高(gāo)、産出低(dī)的(de)問(©✘wèn)題。
因此,工(gōng)業(yè)大(dà)數(sh ♦ù)據分(fēn)析需堅持的(de)原則是(shì)分(fēn)析和(hé)應用(yòng)都(d£×→λōu)要(yào)結合具體(tǐ)的(de)流程,分(fēn)析工(gōng)作(z☆☆≠✘uò)開(kāi)展前要(yào)保證數(shù)據條件←→(jiàn)符合業(yè)務場(chǎng)景要(y♦β Ωào)求。
第二. 工(gōng)業(yè)大(dà)數(shù)據建模算(suà∏♥∞n)法的(de)複雜(zá)性和(hé)過程的(de)反複性使得(♣↑de)整個(gè)實現(xiàn)過程較為(wèi)“繁瑣和(hé)曲折”
在開(kāi)展工(gōng)業(yè)建模時(shí ₹ ),雖然基礎算(suàn)法原理(lǐ)和(hé)應用(yòng)方式的(de©$÷)變化(huà)不(bù)大(dà),但(dàn)運用(yò'≈ng)此類算(suàn)法的(de)過程卻極大(dà)程± 度地(dì)“曲折”,往往需要(yào)結合業(yè)務知(zhī)識™∞φσ和(hé)數(shù)據情況将算(suàn ♠↑)法嵌入到(dào)實際的(de)工(gōng)業(yè)應用(yòn♦¶g)場(chǎng)景與邏輯中去(qù),需要(yào)模型♣¥ε"基于初次的(de)分(fēn)析結果不(bù)斷地(dì)修正、叠代和(hé)>"±完善,以此來(lái)提升模型的(de)魯棒性與準确性。此外(wài),工(gōng)業(y ↕è)過程數(shù)據形式的(de)複雜(zá)性、數(shù)據質量參差不(bù)齊等也®≥π↕(yě)使得(de)工(gōng)業(yè)大(dà)數(shù)據分(fēn)析建模¥₩×與有(yǒu)效應用(yòng)的(de)困難度加大(d↔♠à)。
第三. 工(gōng)業(yè)産業(yè)模式及™¥©應用(yòng)場(chǎng)景對(duì)工(gōng)業(y讣≈)大(dà)數(shù)據分(fēn)析結果的(de)可(kě)靠性和(hé)決策可(→☆¶kě)指導性要(yào)求高(gāo),導緻工πσ(gōng)業(yè)大(dà)數(shù)據分£↔ (fēn)析應用(yòng)的(de)成熟化(huà)落地(dì)變得₹→¥→(de)困難。
一(yī)般情況下(xià),大(dà)多(d♥uō)數(shù)企業(yè)的(de)工(gōng)業(yè)現(xiàn)場(chǎng)€δ ↑設備控制(zhì)、工(gōng)藝調整、質量管控等都(dōu)•<★已處在相(xiàng)對(duì)優良的(de)階段,而通(tōng)過工(gōn ✘g)業(yè)數(shù)據分(fēn)析得(de)到(dào)的(de)概率性結論和(hé☆β)現(xiàn)場(chǎng)實際有(yǒu)一(yī)定的(de)偏©φ©差。此偏差可(kě)能(néng)是(shìδδ™↔)生(shēng)産環節本身(shēn)引起的(de),也♠ (yě)有(yǒu)可(kě)能(néng)是(shì)數(shù)據采集環節的(de)數(s∏≥hù)據本身(shēn)失真引起的(de≠•→),單從(cóng)數(shù)據分(fēn)析結果角度往往很(hěn)難發現(xiàn)和(¶βhé)解釋具體(tǐ)差異引起的(de)原因,導緻大(dà)家(jiā≥₽÷)對(duì)于分(fēn)析結果的(de)可(kě)靠性存疑。另一(yī)方面,企業(↓™λyè)業(yè)務人(rén)員(yuán)對(duì)所從(cóng)事(s"¥∏£hì)的(de)工(gōng)業(yè)過程/經營管理(lǐ)等業(y♦♥è)務的(de)認識原本就(jiù)相(xiàng)對(duì)深刻,這(zhè)就(j₩α↑iù)要(yào)求工(gōng)業(yè)大(dà)數(shù)據分(fēn)析能(néng)剖 φ ≥析、給出更深層次的(de)業(yè)務實情信息或優化(huà)策略,隻有(↑αyǒu)分(fēn)析得(de)到(dà≥ε£₽o)的(de)知(zhī)識具有(yǒu)更高(gāo)精度和(γ£ hé)可(kě)靠性時(shí),從(cóng)業(yè)務決策>★£ 指導層面才具有(yǒu)實用(yòng)價值,這(↕±★φzhè)也(yě)是(shì)工(gōng)業(yè)大(dà)數(shù)據分(fē★πn)析價值落地(dì)應用(yòng)面臨的(de)挑戰之一(yī)。
因此,工(gōng)業(yè)領域的(de)數(shù↓±)據分(fēn)析重點強調數(shù)據分(fēn)析技(jì)術(shù)和≥♦(hé)領域知(zhī)識融合來(lái)獲取有(yǒu)價值的(de)知(₽©↓zhī)識。當模型涉及到(dào)的(de)因素很(hěn)∞'•多(duō)、形成真正的(de)複雜(zá)多(duō)維度問(wèn)題且機(jī)理(lǐ)±♣不(bù)清晰時(shí),且往往沒足夠的(de)數(s♦δhù)據來(lái)建立和(hé)驗證模型,這(zhè)™∏≤時(shí)就(jiù)需要(yào)充分(fēn)利用(yòng)←&專業(yè)領域知(zhī)識進行(xíng)“降££♣維”,力求從(cóng)有(yǒu)限的(de)數(shù)據中分(fē¥n)析出足夠可(kě)靠的(de)結果。
我們在實踐中認識到(dào)工(gōng)業(yè)大(dà)數(shù)據分(fēn)析的(de)瓶頸難點,往往不(bù)是(shì)計(jì)算(suàn)機(jī)存儲和(hé)®✔®♥處理(lǐ)數(shù)據的(de)能(néng)力,而是(shì)蘊含工(g≠£₽ōng)業(yè)機(jī)理(lǐ)的(de)數(shù)據關聯關系的♦•(de)複雜(zá)性。這(zhè)種複雜(zá)性使得(de)∑¶>λ傳統的(de)數(shù)據分(fēn)析方法難以奏效,無法從(cóngα∏×€)數(shù)據中獲得(de)質量更高(gāo)、價值更大(dà)的(de)知(zhī)識,↕☆如(rú)果沒有(yǒu)合适的(de)思想和(hé)技(jì)術(shù)手段,面對(du₹£→ì)工(gōng)業(yè)大(dà)數₩≥↑ (shù)據價值的(de)藍(lán)海(hǎi)時(shí),就(j'π§♣iù)會(huì)無從(cóng)下(xià)手。