一、為什麼要使用Python進行數據分析? python擁有一個巨大的活躍的科學計算社區,擁有不斷改良的庫,能夠輕鬆的集成C,C++,Fortran代碼(Cython項目),可以同時用於研究和原型的構建以及生產系統的構建。 二、Python的優勢與劣勢: 1.Python是一種解釋型語言,運行速度比 ...
一、為什麼要使用Python進行數據分析?
python擁有一個巨大的活躍的科學計算社區,擁有不斷改良的庫,能夠輕鬆的集成C,C++,Fortran代碼(Cython項目),可以同時用於研究和原型的構建以及生產系統的構建。
二、Python的優勢與劣勢:
1.Python是一種解釋型語言,運行速度比編譯型數據慢。 2.由於python有一個全局解釋器鎖(GIL),防止解釋器同時執行多條python位元組碼,所以python不適用於高併發、多線程的應用程式。 三、使用Python進行數據分析常用的擴展包。 目前初始階段的學習主要涉及4個包的安裝:numpy、scipy、pandas、matplotlib 我筆記本里安裝的是Python2.7版本,在安裝了pip和setuptools工具,關於pip和setuptools工具的安裝詳見相關筆記。 最初使用的安裝命令很簡單:pip install pandas
pip install numpy
pip install scipy
pip install matplotlib
但是只安裝成功了numpy和matplotlib兩個包,pandas和scipy安裝失敗,查閱了相關資料發現可能是版本問題或者包的依賴相關。
最終在stack overflow發現了一個很棒的Python包提供網址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy
--這裡要Mark一下,後邊爭取寫一個爬蟲,搞下來所有的包防止丟失。
以上網址是加州大學歐文分校提供的Python相關庫的下載地址,修改#後邊的名字可以進去其他包的下載頁面,此頁面中提供了安裝某個包需要依賴的前置包的說明,非常友好。
依賴包說明類似:
Pandas, a cross-section and time series data analysis toolkit. Requires numpy, dateutil, pytz, setuptools, and optionally numexpr, bottleneck, scipy, matplotlib, pytables, lxml, xarray, blosc, backports.lzma, statsmodels, sqlalchemy and other dependencies.
然後就是一堆的pandas下載地址。
最終根據各個包的相關性先安裝了numpy+mkl的whl文件,然後是安裝scipy最後是pandas。
安裝的方法如下:
1.下載對應的4個包放在D:\目錄下(很奇怪我筆記本是AMD64位的但是安裝amd64版本的包報不支持的platform的錯誤,安裝了32位的可以正常import)
2.cmd命令行進入D:\目錄執行:pip install <包的全名>進行安裝。(如果已安裝了其他錯誤的版本,使用pip uninstall卸載)
最後使用如下類似命令查看包的安裝位置: