數據分析入門-05-數據分析武器庫：模型空間概述·數據分析模型

來，先複習一下,什麼是建模昨天介紹了模型本質是對現實對象的抽象描述以及附帶的一整套抽象的方法;建模本質上就是建立現實對象和模型的一種映射關係. 今天我們走進模型空間,看看裡面最重要的是什麼我們先來看看我們平時接觸最多的感覺很高大上的商業模型是什麼? 比如拿我們都知道的swot分析來看. 百科 ...

來，先複習一下,什麼是建模

昨天介紹了模型本質是對現實對象的抽象描述以及附帶的一整套抽象的方法;建模本質上就是建立現實對象和模型的一種映射關係.

今天我們走進模型空間,看看裡面最重要的是什麼

我們先來看看我們平時接觸最多的

感覺很高大上的

商業模型是什麼?

比如拿我們都知道的swot分析來看. 百科定義:SWOT分析法，即態勢分析法，就是將與研究對象密切相關的各種主要內部優勢、劣勢和外部的機會和威脅等，通過調查列舉出來，並依照矩陣形式排列，然後用系統分析的思想，把各種因素相互匹配起來加以分析，從中得出一系列相應的結論，而結論通常帶有一定的決策性。運用這種方法，可以對研究對象所處的情景進行全面、系統、準確的研究，從而根據研究結果制定相應的發展戰略、計劃以及對策等。SWOT分析法常常被用於制定集團發展戰略和分析競爭對手情況，在戰略分析中，它是最常用的方法之一。

這種框架分析工具本質是一個分類方式;首先分類了內部和外部,其次分類了優勢/劣勢,機會和威脅，分類本是一種定類測量,相當於測量了倆個數字,一類叫做0,一類叫做1;

接下來,我們需要瞭解一些關於測量理論的基礎知識.有助於理解這類模型本質都是測量。

一般可以將數據類型的度量分為四種：定類，定序，定距，和定比，這四種類型是從低到高的遞進關係，高級的類型可以用低級類型的分析方法來分析，而反過來卻不行，理解下麵這些類型對於後面學習統計分析方法尤為重要。1、定類變數定類就是將給數據定義一個類別。這種數據類型將所研究的對象分類，也即只能決定研究對象是同類抑或不同類。

例如把性別分成男女兩類；把動物分成哺乳類和爬行類等等。

2、定序變數定序變數是將同一個類別下的對象分一個次序，即變數的值能把研究對象排列高低或大小，具有＞與＜的數學特質。它是比定類變數層次更高的變數，因此也具有定類變數的特質，即區分類別（＝，≠）。

例如文化程度可以分為大學、高中、初中、小學、文盲；工廠規模可以分為大、中、小；年齡可以分為老、中、青。這些變數的值，既可以區分異同，也可以區別研究對象的高低或大小。註意！各個定序變數的值之間沒有確切的間隔距離。比如大學究竟比高中高出多少，大學與高中之間的距離和初中與小學之間的距離是否相等，通常是沒有確切的尺度來測量的。

3、定距變數定距變數是區別同一類別下個案中等級次序及其距離的變數。它除了包括定序變數的特性外，還能確切測量同一類別各個案高低、大小次序之間的距離，因而具有加與減的數學特質。但是，定距變數沒有一個真正的零點。

，攝氏溫度這一定距變數說明，攝氏40度比30度高10度，攝氏30度比20度又高10度，它們之間高出的距離相等，而攝氏零度並不是沒有溫度。註意！定距變數各類別之間的距離，只能加減而不能乘除或倍數的形式來說明它們之間的關係。

4.、定比變數定比變數是區別同一類別個案中等級次序及其距離的變數。定比變數除了具有定距變數的特性外，還具有一個真正的零點，因而它具有乘與除（×、÷）的數學特質。例如年齡和收入這兩個變數，固然是定距變數，同時又是定比變數，因為其零點是絕對的，可以作乘除的運算。

如A月收入是60元，而B是30元，我們可以算出前者是後者的兩倍。智力商數這個變數是定距變數，但不是定比變數，因為其0分只具有相對的意義，不是絕對的或固定的，不能說某人的智商是0分就是沒有智力；

從這裡我們可以看出,很多學科所謂的模型只是對研究對象的定類測量,另外再加一些經驗性的描述而已.這些模型非常依賴主觀經驗,可重覆性和可操縱性都難以對我們的目標產生量級上的效率提升.大數據一部分很重要的意義就是讓過去一些無法精確測量的對象變得可精確測量,從而可以引入數學工具解決.這部分是我們今天的重點,關於數學模型空間.

接下進入正題,我們來看一下模型空間的具體內容

需要說明的是對模型空間的分類,是非常有主觀色彩的,我也是斟酌再三之後選取了這樣的角度,以期望不遺漏人類在大多數方面積累的智慧成果.

關於人類先天共識模型--圖像

在生活場景中,我們可以很容易被一幅生動的圖像打動,卻很難(也不願意)被邏輯說服.

這個模型空間內重要是最新的心理學和認知科學的一些研究成果。

所以我們在表達我們的成果的時候,往往還要進行一次映射,將抽象成果映射為圖形樣式,方便模型的傳播和理解. 從這個角度來看,關於可視化探索的一些工作也是格外有意義的

關於有助於認識對象的模型

這個模型空間內部主要是各種我們已知的系統和定義的概念。以生物學和物理學為主要內容。

這部分本質為了方便我們尋找同構問題

例如我們用生物的進化論類比的去理解人類社會的競爭. 我們用漏斗這個圖形,類比商品轉化的過程.

但是需要註意的是尋找同構對象,一方面方便了我們理解對象,也會引導我們忽略對象的一部分特征.

比如:我們拿人類社會的發展類比進化論的時候,忽略了一個重要事實,我們可以基因編輯,從而大大影響自然選擇.

關於價值探討的模型

這個類別里也沉澱了,人類的大量的思辨智慧,從柏拉圖到奧古斯丁,從阿圭那到康德,從笛卡爾到休謨,從加繆到沃格林等等,這些偉大如斯的人終其一生都一直在探索一個永恆的問題:人何以為人. 這部分也很值得我們去學習,但不是今天的重點,以後有機會可以給大家做一個簡單介紹.

關於方法論模型

這部分本質上可以概括為對因果關係的探索.分類問題和標記問題也可以理解為"果"單一的因果問題. 對因果關係的探索存在倆個極端. 1.科學:對正確/穩定可復現的極致追求 2.工程:以完成目標為核心,重視經驗的積累.這個時候出現了一種調和方案--數據分析,我們既不能全靠經驗,這樣太依賴個人和運氣.我們也不能什麼事情都做個科學實驗,等做完了黃花菜都涼了.

接下來主要給大家介紹數據分析對於探索因果關係的一些方式.這也是我們做數據分析主要進行的工作.

對因果關係的探索分為充分性和必要性倆個方向.充分性就是如果A,那麼一定B;必要性是說我們知道了B的很多特征C,有多大可能性認為A可以推斷出B. 主要通過三種方式:1 計算各種繫數 2 畫散點圖 3 畫散點圖矩陣 4 做線性回歸 5 概率估計 (關於相關性和因果性關係又可以寫7篇文章了,現實世界中，可以近似的認為相關性約等於因果關係，或者相關性至少可以為我們尋找因果關係提供一點啟發)

用Python進行相關性分析.

畫散點圖方法如下

畫散點圖矩陣的方法如下

計算繫數

pearson（皮爾遜）相關係數要求樣本滿足正態分佈

兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商，其值介於-1與1之間
Sperman秩相關係數皮爾森相關係數主要用於服從正太分佈的連續變數，對於不服從正太分佈的變數，分類關聯性可採用Sperman秩相關係數，也稱等級相關係數

通過機器學習的方式探索因果模型

這部分我們會介紹一些最流行的機器學習模型類型。這也是我們發現相關性的一種武器. 監督學習:監督學習演算法是基於一組標記數據進行預測的。

比如，歷史銷售數據可以來預測未來的銷售價格。應用監督學習演算法，我們需要一個包含標簽的訓練數據集。我們可以使用這個訓練數據集去訓練我們的模型，從而得到一個從輸入數據到輸出期望數據之間的映射函數。這個模型的推斷作用是從一個數據集中學習出一種模式，可以讓這個模型適應新的數據，也就是說去預測一些沒有看到過的數據。

分類：當數據被用於預測一個分類時，監督學習演算法也可以稱為是一種分類演算法。比如，我們的一張圖片可以被分類標記為狗或者貓。如果我們的分類標簽只有兩個類別，那麼我們也把這個分類稱之為二分類問題。當我們需要分類的東西超過兩個類別的時候，這個模型就是一個多分類模型了。回歸：當我們預測的值是一個連續值時，這個問題就變成了一個回歸問題。預測：這是根據過去和現在的一些歷史數據，來預測將來的數據。最常用的一個領域就是趨勢分析。比如，我們可以根現在和過去幾年的銷售額來預測下一年的銷售額。

關於機器學習的模型

　監督學習主要包括用於分類和用於回歸的模型：

分類：線性分類器（如LR)、支持向量機（SVM）、朴素貝葉斯（NB）、K近鄰（KNN）、決策樹（DT）、集成模型（RF/GDBT等）
回歸：線性回歸、支持向量機（SVM）、K近鄰（KNN）、回歸樹（DT）、集成模型（ExtraTrees/RF/GDBT）
關於各個模型的關係和選取原則可以參考下麵圖片.

最後總結一下

對模型空間做了一個綜述,著重介紹了因果關係探索的一些數學模型

講個小故事~關於測量~一米等於多少.

1791年，著名科學家拉格朗日，當選為法國度量衡委員會主席。在他全力推動下，一項影響了全世界的長度單位——米浮出水面。法國相關當局規定：把經過巴黎的地球子午線，也就是經線長的四千萬分之一定義為1米。通俗地說，l米是從地球北極到赤道距離的一千萬分之一，1791年3月25日（距今227年），法國國民議會決定採納了只基於一個長度基本單位“米”的計量制度。現在全球通用的國際長度單位米，則由此規定而來。