CRISP-DM是一個數據挖掘項目規劃的開放標準流程框架模型,主要分為業務理解、數據理解、數據準備、建模、評估、部署六個階段。 ...
本文分享自天翼雲開發者社區《CRISP-DM的應用與理解》,作者:吳****嫄
CRISP-DM是一個數據挖掘項目規劃的開放標準流程框架模型,主要分為業務理解、數據理解、數據準備、建模、評估、部署六個階段。
業務理解
從業務的角度理解項目的目標和需求,將業務的目的轉換為一個數據挖掘的問題,制定一個初步的實現計劃計劃。
商業理解是明確要達到的業務目標,並將其轉化為數據挖掘主題。要從商業角度對業務部門的需求進行理解,並把業務需求的理解轉化為數據挖掘的定義,擬定達成業務目標的初步方案。具包括商業背景分析、商業成功標準的確定、形勢評估、獲得企業資源清單、獲得企業的要求和想、評估成本和收益、評估風險和意外、初步理解行業術語,並確定數據挖掘的目標和制定數挖掘計劃。
在整個CRISP-DM的過程當中,圍繞數據為核心,項目可能會在各個階段之間跳躍,因為數據分析一定是一個不斷迭代的過程。是否可以繼續進行下一個階段取決於是否有達到最初的業務目標,如果業務目標沒有達到,那麼就要考慮是否是數據不夠充分或演算法需要調整,一切都以業務目標為導向。
數據理解
初步收集數據,瞭解、熟悉數據。關註數據質量,進行探索性的分析。數據理解是找出可能的影響主題的因素,確定這些影響因素的數據載體、數據體現形式和數據存儲位置。數據理解從數據收集開始,然後熟悉數據,具體包括以下工作內容:檢測數據質量,對數據進行初步理解,簡單描述數據,探測數據意義,並對數據中潛藏的信息和知識提出擬用數據加以驗證的假設。
數據準備
準備最終輸入到模型中的數據,數據的選擇,數據清晰等。
數據準備是將前面找到的數據進行變換、組合,建立數據挖掘工具軟體要求格式和內容的寬表。數據準備階段要從原始數據中形成作為建模分析對象的最終數據集。數據準備階段的具體工作主要包括數據製表、記錄處理、變數選擇、數據轉換、數據格式化和數據清理等,各項工作並不需要預先規定好執行順序,而且數據準備工作還有可能多次執行。
建模
一般使用多種技術進行建模,將模型調整到最佳狀態。
建立模型是應用軟體工具,選擇合適的建模方法,處理準備好的數據寬表,找出數據中隱藏的規律。在建立模型階段,將選擇和使用各種建模方法,並將模型參數進行優化。對同樣的業務問和數據準備,可能有多種數據挖掘技術方法可供選用,此時可優選提升度高、置信度高、簡單而易於總結業務政策和建議的數據挖掘技術方法。在建模過程中,還可能會發現一些潛在的數據問題,要求回到數據準備階段。建立模型階段的具體工作包括:選擇合適的建模技術、進行檢驗設計、建造模型。
評估
到這個階段一般已經有從數據角度來看滿足要求的模型。重點是評估是否有業務問題還沒有考慮到,是否已經完全滿足業務要求。評估數據挖掘結果的使用可能性。
模型評估是要從業務角度和統計角度進行模型結論的評估。要求檢查建模的整個過程,以確保型沒有重大錯誤,並檢查是否遺漏重要的業務問題。當模型評估階段結束時,應對數據挖掘結果的發佈計劃達成一致。
部署
數據分析完成了但是還不是最後一步。最後一步的部署可能是生成一個報告,也可能是需要建立一個整個公司層面的新的系統,這是看業務的需求來定。要保證數據分析的結果被正確的使用。
模型發佈又稱為模型部署,建立模型本身並不是數據挖掘的目標,雖然模型使數據背後隱藏的作息和知識顯現出來,但數據挖掘的根本目標是將信息和知識以某種方式組織和呈現出來,並用來改善運營和提高效率。當然,在實際的數據挖掘工作中,根據不同的企業業務需求,模型發佈具體工作可能簡單到提交數據挖掘報告,也可能複雜到將模型集成到企業的核心運營系統中去。