小生今年研二,目前主要從事軟體工程數據挖掘與分析。之前一直苦於找不到一個從數據預處理、數據分析、數據可視化和軟體建模的統一平臺。因此,小生輾轉反轍學習了java,R語言,python,scala等等。最後忽然發現python正是小生苦苦尋覓的“稀世珍寶”。在這裡主要總結利用python分析數據的一些 ...
小生今年研二,目前主要從事軟體工程數據挖掘與分析。之前一直苦於找不到一個從數據預處理、數據分析、數據可視化和軟體建模的統一平臺。因此,小生輾轉反轍學習了java,R語言,python,scala等等。最後忽然發現python正是小生苦苦尋覓的“稀世珍寶”。在這裡主要總結利用python分析數據的一些工具包和相關資料,還望各位指正共同進步。
主要的工具包:
numpy: http://www.numpy.org/ 數組和矢量計算庫
scipy: www.scipy.org 數學計算庫
pandas: http://pandas.pydata.org/ 數據處理與挖掘庫
matplotlib: matplotlib.org 數據可視化工具庫
scikit-learn: http://scikit-learn.org/stable/ 機器學習庫
snownlp: https://pypi.python.org/pypi/snownlp/0.11.1 中文文本處理庫
nltk: http://www.nltk.org/ 英文文本處理
這些庫安裝起來比較麻煩,它們的依賴庫有很多,需要一一安裝。因此,小生建議直接安裝一個python解決方案包:https://www.enthought.com/。它支持各種操作系統(windows,linux,Mac OS等等),安裝起來特別簡單,此處不再累贅。
pyspark: http://spark.apache.org/docs/latest/api/python/pyspark.html 此外如果數據量真的特別大,單機無法滿足您的需求的話,小生推薦使用pyspark工具包替您解憂。
相關書籍:
《數學之美與浪潮之巔》
《python cookbook》
《Building Machine Learning Systems with Python, 2nd Edition》
《Machine Learning in Python》
《Python For Data Analysis》
《python自然語言處理》
歡迎大家補充資料,共同進步!謝謝~