數據分析入門-導論-如何親手從0到1建立一個學科

来源:https://www.cnblogs.com/data-analyst-qjj/archive/2019/01/06/QJJ.html
-Advertisement-
Play Games

一個學科體系的關鍵:公理-演繹-模型-同構、語言的嚴謹/精確/抽象 ...


最近在學習數據分析,在這裡分享一下個人的學習經驗。希望對大家有所幫助。

我理想的學習效率是這樣的:

數據分析入門-導論-如何親手從0到1建立一個學科

實際上的學習效率是這樣的:

數據分析入門-導論-如何親手從0到1建立一個學科

電影里的改變都是一蹴而就,順利完美,而現實往往是走一步,退半步,跌跌撞撞,把事情做到60分就謝天謝地了.

不過,最後改變世界的也是這些跌跌撞撞,一步步前行的人。

數據分析是什麼

最近要準備寒假的實習,準備找數據分析相關的工作.學習了有一個學期,最近準備把學習的內容整理一下,寫給入門者,希望如果有人對這個職業方向感興趣,可以參考,說不定可以少走一點彎路.

根據學習的總結,我覺得這樣定義更加合適:

數據分析是以統計學 、科學方法論 、 商業分析框架、電腦軟體和語言為工具 ,通過將實際問題轉化為數據問題,並加以解決的一套知識體系。

數據分析入門-導論-如何親手從0到1建立一個學科

七天入門數據分析

這系列的文章,目前計劃寫7篇.

七篇的結構是這樣的:

  1. 數據科學世界觀
  2. 數據分析框架概述
  3. 框架詳解-數據分析的數據收集與預處理
  4. 框架詳解-數據分析的問題分析
  5. 框架詳解-數據分析的模型空間建立和模型選擇
  6. 框架詳解-數據分析的模型優化
  7. 數據分析邊界-數據分析不能解決什麼?

我現在想做的,不是寫幾篇談資性質的文章,讓大家看了之後,發現'哇,數據分析好難(^-^)V'或者'靠,數據科學也不過如此'我想做的是去梳理出一個框架體系,不一定完美,但是要對前人有一個交代,對後來人有一些長遠的意義.

太史公曰:著書立說 成一家之言.

雖然達不到太史公的水平,但是可以有一樣的心愿.

一個嚴謹的學科體系是如何建立的

那麼第一個問題來了,一個嚴謹學科的體系是怎樣建立的?我們只有知道了一個嚴謹的學科是怎麼來的,才知道如何去建立一個嚴謹的體系.我們不妨來看看,世界上最嚴謹的學科體系-數學是如何梳理自己的學科脈絡的.我們普通人可能覺得數學不過就是按照實際需要分類嗎?研究概率的叫做概率論,研究統計的叫數理統計,研究圖形的叫幾何,研究數字的叫做代數,等等.但是,這隻是我們的想象,真正的數學學科分類是基於集合論的.具體是這樣的:1.首先建立一個公理體系:數學的底層公理體系大多是描述運算律的,要儘可能抽象.舉幾個例子:比如像a+b=b+a,這算公理,axb=b×a,這也是公理,a+0=a,ax1=a,等等,這就叫代數公理。還有次序公理,比如像0<1,或者是a<b,b<c,那麼a<c,等等,還有各種其他的邏輯性的公理在裡面,咱們不具體說了.2.然後就根據數學對象具體滿足哪幾條公理,來給數學對象的結構分類。比如說:假如一部分數學知識滿足A1,A2,A3和B1公理,我們就叫它代數結構。假如滿足A1,A2,A3,C1,C2的,我們就叫它拓撲結構。而且有的時候,這種數學對象只有一種結構,有的時候是多種結構同時滿足,你比如質數,它就只有序的結構,而矩陣就只有代數結構,整數集合沒有拓撲結構,像實數集合就同時擁有三種結構,代數、順序、拓撲這三種結構,就這樣分類。

數據分析入門-導論-如何親手從0到1建立一個學科

3.研究一個具體問題的時候,先研究他的集合結構,然後找到他的對應領域,然後調用這個領域的知識解決他.數學上把這個過程叫做"尋找同構問題".到這裡,大家會問為什麼我們不直接解決呢?確非要建立同構解?因為往往數學難題,之所以叫做難題,就是因為在當下的知識背景下,實在是難以解決,就好像一把很難開的鎖,我們是不可能在鎖上面直接找到鑰匙吧?如果能找到我們就直接開了,我們必須要去別的地方尋找鑰匙.在新的視角下,從前完全不是一個領域的對象,就有可能出現在同一個結構中。比如線性代數跟初等幾何這兩個東西就屬於同一種結構,簡稱同構。比如下麵的這張圖,就是一張線性代數的典型運算和初等幾何的典型運算,你可以對比一下,在沒有集合論出現之前,你很難發現其實這兩個東西是同一種結構的。

數據分析入門-導論-如何親手從0到1建立一個學科

世紀難題,費馬大定理就是通過這樣的方式解決的.

最後我們總結一下,一個嚴謹的學科的建立過程

1 建立公理體系 2 根據公理體系演繹整個學科知識 3 面對具體問題,尋找符合的公理或者模型

其實這種方法也是現代科學的根基,源自歐幾裡得<幾何原本>.現代科學的另一個根基是實驗.

我們為什麼要如何清晰/抽象的定義一個概念

大家在現實生活一定會遇到這些時候:某某的本質是什麼?這個過程實際上就是我們在試圖清晰的定義一個概念.我們在建立一個學科體系的時候,另一個關鍵是要使用抽象語言描述對象,而不是自然語言.為什麼呢?好好的說人話不好嗎?為什麼要一堆符號,看著像天書?

我們需要從自然語言的誕生說起.舉個慄子,比如老師佈置作業,今天大家把練習冊上第998頁的第三題做一下,就是那道關於為什麼我最帥的題,大家一定要好好做,這道題很重要,不會做的話會影響世界和平,人們幸福,巴拉巴拉.

大家發現沒有,這一大段話,只需要用 一個公式表示就可以: 作業= 練習冊.p998.3

啊,那為什麼我們自然語言表達的時候,我們要說這麼多沒用的呢?這裡又涉及一個資訊理論的概念,信息冗餘=低損失的全面的傳播.我們通過說很多廢話,保證交流對象,儘可能的理解我們的意思.

但是這種習慣放到 科學知識上就非常尷尬了,科學追求的是凝練,概括,抽象,所以要儘可能用精確的語言描述規律.

所以我們在建立學科體系的時候,都儘可能重新定義語言使用的規範.

維特根斯坦在他的<哲學研究>里,描述過一個嚴密的語言系統,只應該包含倆類語句:X具有Y性質 (y=f(X))A,B屬於C({A,B}屬於C)

我們可以作為一個參考.

總結

這次,首先給大家預告了我的寫作計劃:7天入門數據分析

  1. 數據科學世界觀
  2. 數據分析框架概述
  3. 框架詳解-數據分析的數據收集與預處理
  4. 框架詳解-數據分析的問題分析
  5. 框架詳解-數據分析的模型空間建立和模型選擇
  6. 框架詳解-數據分析的模型優化
  7. 數據分析邊界-數據分析不能解決什麼?

其次,介紹了一下我接下來寫作的原則以及為什麼要這樣做

  1. 公理-演繹-模型-同構
  2. 語言的嚴謹/精確/抽象

最後講一個小故事-長使英雄淚滿襟

大家可能會問 是誰創立了數學集合論這樣的公理體系的?布爾巴基學團-數學歷史上,甚至是科學歷史上,最偉大的科學團體.

其實這是一組有情懷的法國年輕數學家的團體,他不是一個人,而是一個組織。1935年的時候,由9個差不多都是來自法國高等師範學校的數學家們組成的。

數據分析入門-導論-如何親手從0到1建立一個學科

那個時候的背景是這樣的,法國曾經在達朗貝爾、拉格朗日、拉普拉斯,到後來的柯西那個年代,在數學上輝煌燦爛過100多年,這咱們之前提過,數學也曾經是法國最優秀的人從事的事業,也是法國的國學,也是法國的傳統文化。

但是在一戰中損失太慘重了,也不知道法國軍隊是怎麼考慮的,其他國家的數學家就算是參軍,主要去的也是通訊部門,或者是至少跟數學能沾點邊的,能發揮出數學家優勢的部門,比如說去算算炮彈的彈道。但是,法國不一樣,法國年輕的數學家絕大多數去了前線,都是衝鋒陷陣計程車兵,在槍林彈雨中,子彈打中了軀幹差不多就是死,所以一場大戰之後,整個法國數學的生力軍就全被消滅了。

就在1935年,法國高校的數學家們,有這幾個人,亨利嘉當、讓·迪厄多內、安德列韋伊、克勞德·謝萊瓦、德瓦薩特等等等等,一共9個人,他們就商量,

你看,現在的教授根本就不瞭解最近30年的數學進展,教科書甚至都是100年前用過的,我們要復興法國的輝煌,那麼切入點就是我們一起動手編一套涵蓋所有數學基礎,尤其是包含了最近30年數學進展的教科書,這套書要儘量全面,照顧從學生到教學部門,到研究者這三方,而且一起步,大家的計劃就是巨集偉的,計劃這套教科書要用25年的時間寫完,大致把大綱列出來,總頁數超過1200頁。而且,我們這個組織一定不能公開身份,我們就以布爾巴基為署名。成員之間身份完全平等,誰也別打算從中出名漁利,這是一件重振法國輝煌的事,大家眾志成城地就開始了。

《數學原理》是一冊一冊地出版,數學界誰都不知道布爾巴基住在哪兒,到底長什麼樣。

數據分析入門-導論-如何親手從0到1建立一個學科

每次讀到這個故事,面對這樣的前人,長使英雄淚滿襟.我們一方面知道,我們之所以能走到今天是站在無數的這樣的前人的肩膀上.我們所能做的也不過是在這些偉人基礎上的修修補補,甚至連修修補補都算不上,只是把前人的智慧帶到人間而已.希望我們所做的這些,對這些前人有意義。

歡迎關註我的個人公眾號:小祁同學的成長故事。裡面還有很多這樣的文章哦。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、首先介紹一下 Crontab 命令 crontab -e // 編輯crontab的工作內容 crontab -l // 查閱crontab的工作內容 crontab -r // 刪除所有的crontab的工作內容,若僅要刪除一項,請用-e去編輯 二、書寫符號說明 說明:從左到右5個*號分別代表 ...
  • 背景 在做Web項目中,需要上傳頭像,資料庫表中自然存儲其相對路徑,然後就想應該存儲斜杠還是反斜杠呢?(當然好像也不需要特別關心,因為在程式中把路徑讀取到直接上傳保存就知道是斜杠還是反斜杠了,這裡僅簡單地想一下) 認識 1、首先網址是 ,如 2、Linux文件路徑是 3、Windows文件瀏覽器用的 ...
  • MongoDB Python官方驅動 PyMongo 的簡單封裝類 DBManager。主要特性:對資料庫和集合的操作確保其存在性;支持PyMongo的原生操作,包括基本的CRUD操作、批量操作、MapReduce、多線程和多進程等;支持因果一致性會話和事務的流水線操作,並給出簡單示例。 ...
  • 1.InnoDB的數據存儲結構 InnoDB中數據是通過段、簇、頁面構成的。 (1)段是表空間文件中的主要組織結構,它是一個邏輯概念,用來管理物理文件,是構成索引、表、回滾段的基本元素。創建一個索引(B+樹)時會同時創建兩個段,分別是內節點段和葉子段,內節點段用來管理(存儲)B+樹中非葉子節點(頁面 ...
  • 1、首先安裝 jave環境 jdk 下載地址 ,我用的是最新版本的,有時版本要跟elasticsearch對應 2、安裝elasticsearch 下載地址 3、安裝Laravel scout 全文搜索包,這裡我用的是5.0.3版本,tamayo/laravel-scout-elastic .這裡的 ...
  • 在Oracle中有關資料庫和資料庫實例的幾個重要概念,有時候如果理解不是很深或者對其疏忽、混淆了,還真容易搞錯或弄不清其概念,下麵就資料庫實例名、資料庫名、資料庫功能變數名稱、資料庫服務名、全局資料庫名幾個概念,我們來梳理一下概念,總結歸納一下這些知識,首先,我們來看看官方文檔對這幾者的概念介紹: INST... ...
  • 最近幾次比較鬱悶,碰到幾起伺服器硬體故障或者存儲故障,直接導致伺服器系統夯住,MySQL服務或多或少受到影響,有的影響是MySQL服務自動重啟,有的影響是整個Linux系統重啟的,這種硬體錯誤發生在6的系統居多。通常我們以為MySQL服務使用了高可用架構,類似於MMM/MHA這種能實現故障轉移的架構 ...
  • 版本 1、實例數據完全導出 即導出指定 下的所有數據 2、用戶數據導出 即導出指定 下指定 的數據,如下為導出用戶myoracle1和用戶myoracle2的數據 3、具體表數據導出 即導出指定 下指定 下的具體表的數據,如下即為導出實例orcl,用戶username下的t_user表和t_role ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...