數據分析入門-05-數據分析武器庫:模型空間概述·數據分析模型

来源:https://www.cnblogs.com/data-analyst-qjj/archive/2019/01/03/10217311.html
-Advertisement-
Play Games

來,先複習一下,什麼是建模 昨天介紹了模型本質是對現實對象的抽象描述以及附帶的一整套抽象的方法;建模本質上就是建立現實對象和模型的一種映射關係. 今天我們走進模型空間,看看裡面最重要的是什麼 我們先來看看我們平時接觸最多的 感覺很高大上的 商業模型是什麼? 比如拿我們都知道的swot分析來看. 百科 ...


 

來,先複習一下,什麼是建模

昨天介紹了模型本質是對現實對象的抽象描述以及附帶的一整套抽象的方法;建模本質上就是建立現實對象和模型的一種映射關係.

今天我們走進模型空間,看看裡面最重要的是什麼

我們先來看看我們平時接觸最多的

感覺很高大上的

商業模型是什麼?

比如拿我們都知道的swot分析來看. 百科定義:SWOT分析法,即態勢分析法,就是將與研究對象密切相關的各種主要內部優勢、劣勢和外部的機會和威脅等,通過調查列舉出來,並依照矩陣形式排列,然後用系統分析的思想,把各種因素相互匹配起來加以分析,從中得出一系列相應的結論,而結論通常帶有一定的決策性。 運用這種方法,可以對研究對象所處的情景進行全面、系統、準確的研究,從而根據研究結果制定相應的發展戰略、計劃以及對策等。SWOT分析法常常被用於制定集團發展戰略和分析競爭對手情況,在戰略分析中,它是最常用的方法之一。

這種框架分析工具本質是一個分類方式;首先分類了內部和外部,其次分類了優勢/劣勢,機會和威脅, 分類本是一種定類測量,相當於測量了倆個數字,一類叫做0,一類叫做1;

接下來,我們需要瞭解一些關於測量理論的基礎知識.有助於理解這類模型本質都是測量。

一般可以將數據類型的度量分為四種:定類,定序,定距,和定比,這四種類型是從低到高的遞進關係,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行,理解下麵這些類型對於後面學習統計分析方法尤為重要。1、定類變數 定類就是將給數據定義一個類別。這種數據類型將所研究的對象分類,也即只能決定研究對象是同類抑或不同類。

例如把性別分成男女兩類;把動物分成哺乳類和爬行類等等。

2、 定序變數 定序變數是將同一個類別下的對象分一個次序,即變數的值能把研究對象排列高低或大小,具有>與<的數學特質。它是比定類變數層次更高的變數,因此也具有定類變數的特質,即區分類別(=,≠)。

例如文化程度可以分為大學、高中、初中、小學、文盲;工廠規模可以分為大、中、小;年齡可以分為老、中、青。這些變數的值,既可以區分異同,也可以區別研究對象的高低或大小。 註意!各個定序變數的值之間沒有確切的間隔距離。比如大學究竟比高中高出多少,大學與高中之間的距離和初中與小學之間的距離是否相等,通常是沒有確切的尺度來測量的。

3、 定距變數 定距變數是區別同一類別下個案中等級次序及其距離的變數。它除了包括定序變數的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數學特質。但是,定距變數沒有一個真正的零點。

,攝氏溫度這一定距變數說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度並不是沒有溫度。 註意!定距變數各類別之間的距離,只能加減而不能乘除或倍數的形式來說明它們之間的關係。

4.、定比變數 定比變數是區別同一類別個案中等級次序及其距離的變數。定比變數除了具有定距變數的特性外,還具有一個真正的零點,因而它具有乘與除(×、÷)的數學特質。例如年齡和收入這兩個變數,固然是定距變數,同時又是定比變數,因為其零點是絕對的,可以作乘除的運算。

如A月收入是60元,而B是30元,我們可以算出前者是後者的兩倍。智力商數這個變數是定距變數,但不是定比變數,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;

從這裡我們可以看出,很多學科所謂的模型 只是對研究對象的定類測量,另外再加一些經驗性的描述而已.這些模型非常依賴主觀經驗,可重覆性和可操縱性都難以對我們的目標產生量級上的效率提升.大數據一部分很重要的意義就是讓過去一些無法精確測量的對象變得可精確測量,從而可以引入數學工具解決.這部分是我們今天的重點,關於數學模型空間.

接下進入正題,我們來看一下模型空間的具體內容

需要說明的是對模型空間的分類,是非常有主觀色彩的,我也是斟酌再三之後選取了這樣的角度,以期望不遺漏人類在大多數方面積累的智慧成果.

關於人類先天共識模型--圖像

在生活場景中,我們可以很容易被一幅生動的圖像打動,卻很難(也不願意)被邏輯說服.

這個模型空間內重要是最新的心理學和認知科學的一些研究成果。

 所以我們在表達我們的成果的時候,往往還要進行一次映射,將抽象成果 映射為 圖形樣式,方便模型的傳播和理解. 從這個角度來看,關於可視化探索的一些工作也是格外有意義的

關於有助於認識對象的模型

這個模型空間內部主要是各種我們已知的系統和定義的概念。以生物學和物理學為主要內容。

這部分本質為了方便我們尋找同構問題

例如我們用生物的進化論 類比的去理解人類社會的競爭. 我們用漏斗這個圖形,類比商品轉化的過程.

但是需要註意的是 尋找同構對象,一方面方便了我們理解對象,也會引導我們忽略對象的一部分特征.

比如:我們拿人類社會的發展 類比進化論的時候,忽略了一個重要事實,我們可以基因編輯,從而大大影響自然選擇.

關於價值探討的模型

這個類別里也沉澱了,人類的大量的思辨智慧,從柏拉圖到奧古斯丁,從阿圭那到康德,從笛卡爾到休謨,從加繆到沃格林等等,這些偉大如斯的人終其一生都一直在探索一個永恆的問題:人何以為人. 這部分也很值得我們去學習,但不是今天的重點,以後有機會可以給大家做一個簡單介紹.

關於方法論模型

這部分本質上可以概括為對因果關係的探索.分類問題和標記問題也可以理解為"果"單一的因果問題. 對因果關係的探索存在倆個極端. 1.科學:對正確/穩定可復現的極致追求 2.工程:以完成目標為核心,重視經驗的積累.這個時候出現了一種調和方案--數據分析,我們既不能全靠經驗,這樣太依賴個人和運氣.我們也不能什麼事情都做個科學實驗,等做完了黃花菜都涼了.

接下來主要給大家介紹數據分析對於探索因果關係的一些方式.這也是我們做數據分析主要進行的工作.

對因果關係的探索分為充分性和必要性倆個方向.充分性就是如果A,那麼一定B;必要性是說我們知道了B的很多特征C,有多大可能性認為A可以推斷出B. 主要通過三種方式:1 計算各種繫數 2 畫散點圖 3 畫散點圖矩陣 4 做線性回歸 5 概率估計 (關於相關性和因果性關係又可以寫7篇文章了,現實世界中,可以近似的認為 相關性約等於因果關係,或者相關性至少可以為我們尋找因果關係提供一點啟發)

用Python進行相關性分析.

畫散點圖 方法如下

畫散點圖矩陣的方法 如下

計算繫數

pearson(皮爾遜)相關係數要求樣本滿足正態分佈

  • 兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商,其值介於-1與1之間

  •  Sperman秩相關係數 皮爾森相關係數主要用於服從正太分佈的連續變數,對於不服從正太分佈的變數,分類關聯性可採用Sperman秩相關係數,也稱 等級相關係數

通過機器學習的方式探索因果模型

這部分我們會介紹一些最流行的機器學習模型類型。這也是我們發現相關性的一種武器. 監督學習:監督學習演算法是基於一組標記數據進行預測的。

比如,歷史銷售數據可以來預測未來的銷售價格。應用監督學習演算法,我們需要一個包含標簽的訓練數據集。我們可以使用這個訓練數據集去訓練我們的模型,從而得到一個從輸入數據到輸出期望數據之間的映射函數。 這個模型的推斷作用是從一個數據集中學習出一種模式,可以讓這個模型適應新的數據,也就是說去預測一些沒有看到過的數據。

分類:當數據被用於預測一個分類時,監督學習演算法也可以稱為是一種分類演算法。比如,我們的一張圖片可以被分類標記為狗或者貓。如果我們的分類標簽只有兩個類別,那麼我們也把這個分類稱之為二分類問題。當我們需要分類的東西超過兩個類別的時候,這個模型就是一個多分類模型了。 回歸:當我們預測的值是一個連續值時,這個問題就變成了一個回歸問題。 預測:這是根據過去和現在的一些歷史數據,來預測將來的數據。最常用的一個領域就是趨勢分析。比如,我們可以根現在和過去幾年的銷售額來預測下一年的銷售額。

關於機器學習的模型

 監督學習主要包括用於分類和用於回歸的模型:

  • 分類:線性分類器(如LR)、支持向量機(SVM)、朴素貝葉斯(NB)、K近鄰(KNN)、決策樹(DT)、集成模型(RF/GDBT等)

  • 回歸:線性回歸、支持向量機(SVM)、K近鄰(KNN)、回歸樹(DT)、集成模型(ExtraTrees/RF/GDBT)

  • 關於各個模型的關係和選取原則可以參考下麵圖片.

最後總結一下

對模型空間做了一個綜述,著重介紹了因果關係探索的一些數學模型

講個小故事~關於測量~一米等於多少.

1791年,著名科學家拉格朗日,當選為法國度量衡委員會主席。在他全力推動下,一項影響了全世界的長度單位——米浮出水面。法國相關當局規定:把經過巴黎的地球子午線,也就是經線長的四千萬分之一定義為1米。通俗地說,l米是從地球北極到赤道距離的一千萬分之一,1791年3月25日(距今227年),法國國民議會決定採納了只基於一個長度基本單位“米”的計量制度。現在全球通用的國際長度單位米,則由此規定而來。

剩下的問題是如何測量地球子午線的長度了?那可是200年前,沒有飛機,沒有核動力航母,於是拿破侖真的派了倆隊人一隊去北極,一隊去秘魯.....開始了測赤道....7年之後倆隊人返回測得了結果是57422toise(法國當時長度單位).

人類為了量化一個對象,有多努力.....

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近使用 jmx 遇到一個問題,client/server 同在一臺機器上,jmx client能夠成功連接 server,如果把 server 移植到另一臺機器上192.168.134.128,拋出如下異常: 原因 :這個問題其實是由 rmi 伺服器端程式造成的。 客戶端程式向服務端請求一個對象的 ...
  • Mysql的主從複製至少是需要兩個Mysql的服務,當然Mysql的服務是可以分佈在不同的伺服器上,也可以在一臺伺服器上啟動多個服務,首先確保主從伺服器上的Mysql版本相同。 一、安裝部署mysql 二、設置密碼 三、開啟MySQL遠程登錄 #查看規則是否生效 iptables -L -n # 或 ...
  • 1. vmstat 參照《 "Linux CPU占用率監控工具小結 vmstat" 》 2. memstat memstat可以通過 安裝,安裝包括兩個文件memstat和memstat.conf。 其中memstat.conf是memstat配置文件,指定memstat檢索目錄,裡面應該包括主要的 ...
  • 一. nginx功能概述 nginx 提供的基本功能服務歸納為:基本HTTP服務、高級HTTTP服務、郵件代理服務、TCP/UDP 代理服務等四大類。 (1) Nginx提供基本HTTP服務,可以作為HTTP代理伺服器和反向代理伺服器,支持通過緩存加速訪問,可以完成簡單的負載均衡和容錯,支持包過濾功 ...
  • 版本 如下圖中的P、F、M代表什麼意思呢? P即 ,主鍵的意思 F即 ,外鍵的意思 M即 ,強制不可為空的意思 ...
  • 版本 操作步驟 打開 選中 將Value中的內容全部替換為如下 雙擊圖表,打開 編輯界面,如下 把註釋列 展示出來(該工具預設不顯示) 勾選註釋為空時以name填充覆選框 我的表設計如下: 而對應生成的表SQL如下: 即實現瞭如果註釋不為空,則優先取Comment作為列註釋;如果註釋為空,則將nam ...
  • 臟讀: 不可重覆讀: 幻讀: 鎖: 表級別的意向鎖為了提高效率, 我們能給一張表成功加上一個表鎖的前提是:沒有任何一個事務對這張表的某些行加了鎖。 如果沒有意向表鎖: 如果現在要給一個表加上表鎖。 如果這張表有一千萬行數據,需要全表掃描行,是否有事務鎖定了某行。 如果一張表不使用索引,那麼加一個排他 ...
  • 說明 個人認為,直接使用資料庫管理工具如Navicat直接建表,如果後期需要進行庫的遷移,不是那麼方便,不如直接在PowerDesigner裡面建表,更自由一些 版本:PowerDesigner15 建表步驟 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...