Python是門很神奇的語言,歷經時間和實踐檢驗,受到開發者和數據科學家一致好評,目前已經是全世界發展最好的編程語言之一。簡單易用,完整而龐大的第三方庫生態圈,使得Python成為編程小白和高級工程師的首選。 在本文中,我們會分享不同於市面上的python數據科學庫(如numpy、padnas、sc ...
Python是門很神奇的語言,歷經時間和實踐檢驗,受到開發者和數據科學家一致好評,目前已經是全世界發展最好的編程語言之一。簡單易用,完整而龐大的第三方庫生態圈,使得Python成為編程小白和高級工程師的首選。
在本文中,我們會分享不同於市面上的python數據科學庫(如numpy、padnas、scikit-learn、matplotlib等),儘管這些庫很棒,但是其他還有一些不為人知,但同樣優秀的庫需要我們去探索去學習。
1. Wget
從網路上獲取數據被認為是數據科學家的必備基本技能,而Wget是一套非交互的基於命令行的文件下載庫。ta支持HTTP、HTTPS和FTP協議,也支持使用IP代理。因為ta是非交互的,即使用戶未登錄,ta也可以在後臺運行。所以下次如果你想從網路上下載一個頁面,Wget可以幫到你哦。
安裝
pip isntall wget
用例
import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'
filename = wget.download(url)
Run and output
100% [................................................] 3841532 / 3841532
filename
'razorback.mp3'
2. Pendulum
對於大多數python用戶來說處理時期(時間)數據是一件令人抓狂的事情,好在Pendulum專為你而來。它是python內置時間類的良好備選方案,更多內容可查看官方文檔 https://pendulum.eustace.io/docs/
安裝
pip install pendulum
用例
import pendulum
dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours())
Run and output
3
3.imbalanced-learn
常見的機器學習分類演算法都預設輸入的數據是均衡數據,即假設訓練集數據有A和B兩個類別,A和B數據量大體相當。如果A和B數據量差別巨大,那麼訓練的效果會不理想。在實際收集和整理的數據,其實絕大多數是非均衡數據,這對於機器學習分類演算法真的是個很大的問題。好在有imbalanced-learn庫可以很好的解決這個問題。該庫相容scikit-learn,並且是作為scikit-learn-contrib項目的一部分。當你再遇到非均衡數據,記得試試它哦!
安裝
pip install -U imbalanced-learn
#或者
conda install -c conda-forge imbalanced-learn
該庫有高質量的文檔 http://imbalanced-learn.org/en/stable
,目前該庫支持scikit-learn、keras、tensorflow庫
4. FlashText
在NLP任務重經常會遇到替換指代同一個意思的多個詞語,或者從句子中抽取關鍵詞。通常我們一般的做法是使用正則表達式來完成這些臟活累活,但如果要操作的詞語數量達到幾千上萬,使用正則這種方法就會變得很麻煩。FlashText庫是基於FlashText演算法,該庫的最強大之處在於程式運行時間不受操作詞語數量影響,即運行時間與操作的辭彙數量無關。 因此特別適合應用到 python文本分析 中去。
4.1 安裝
pip install flashtext
4.2 用例
4.2.1 抽取關鍵詞
我們都知道 Big Apple
指代紐約。所以抽取紐約這個城市詞時候,我們要考慮到相同意思的不同詞語。
from flashtext import KeywordProcessor
#設置關鍵詞處理器
keyword_processor = KeywordProcessor()
#設置關鍵詞及其近義詞
keyword_processor.add_keyword('Big Apple', 'New York') #遇到Big Apple就會識別為New York
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords("I love Big Apple and Bay Area.")
keywords_found
Run and output
['New York', 'Bay Area']
4.2.2 替換關鍵詞
我們也經常需要將原始文本進行處理,比如將New Delhi(新德里)替換為NCR region(國家首都區)
keyword_processor.add_keyword('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence
Run and output
'I love New York and NCR region.'
想瞭解更多,請查看FlastText官方文檔
https://flashtext.readthedocs.io/en/latest/#
5. Fuzzywuzzy
這個庫的名字就有點怪,但ta擁有強大的字元串匹配功能。可以輕鬆實現字元串比較比率(comparison ratios),分詞比率(token ratios)等操作。它還可以方便地匹配保存在不同資料庫中的記錄。
安裝
pip install fuzzywuzzy
用例
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# Simple Ratio
print(fuzz.ratio("this is a test", "this is a test!"))
# Partial Ratio
print(fuzz.partial_ratio("this is a test", "this is a test!"))
Run and output!
97
100
更多有趣的例子可見 fuzzywuzzy庫github賬號 https://github.com/seatgeek/fuzzywuzzy
6.PyFlux/PyFTS.
在機器學習領域中經常遇到時間序列分析這種問題。PyFlux是專門為解決時間序列問題而開發的python庫。這個庫提供了很多現代時間序列演算法,單不僅僅限於ARIMA、GARCH和VAR這三種模型。簡而言之,PyFlux為我們分析時間序列數據提供了可能,你值得擁有。
安裝
pip install pyflux
PyFlux用例可查看該庫的文檔 https://pyflux.readthedocs.io/en/latest/index.html
類似的時間序列庫還有PyFTS, 教程鏈接
https://towardsdatascience.com/a-short-tutorial-on-fuzzy-time-series-dcc6d4eb1b15
文檔鏈接
https://pyfts.github.io/pyFTS/.
7.Ipyvolume
數據科學中一個重要的部分就是分析結果的展示與交流,而良好的視覺傳達是很有優勢的。IPyvolume是3D可視化庫,可以以最小的初始化設置就能在jupyter notebook中使用。做一個恰當的類比:matplotlib的imshow是2d數組,而IPyvolume的volshow是3d數組。
安裝
pip install ipyvolume
#或者
conda install -c conda-forge ipyvolume
用例
8. Dash
Dash是用來為開發web應用的高生產率工具庫,該庫基於Flask、Plotly.js和React.js,不需要懂javascript只用python就能讓我們製作出美美的的UI元素,如下來列表、滑動條和圖表。這些應用可以在瀏覽器中渲染,具體文檔可查看 https://dash.plot.ly/
安裝
pip install dash==0.29.0
pip install dash-html-components==0.13.2 #Dash庫的HTML組件
pip install dash-core-components==0.36.0 #Dash庫核心組件
pip install dash-table==3.1.3 #交互資料庫表單(新)
用例
下麵是一個下拉式菜單,可以選擇股票代碼的pandas Dataframe數據類型作為輸入,渲染成動態交互的折線圖
9. Gym
Gym是一個可以開發強化學習演算法的工具包。 它相容數值計算庫,如TensorFlow或Theano。我們可以據此設計出強化學習演算法,這些環境(測試問題)有公開的介面,允許我們寫出通用的演算法。
安裝
pip install gym
用例
比如研究探月飛行器著落月球,科學家需要考慮如何才能準確著落到某個位置,並且保證安全降落。這就需要用到gym來做強化學習,學到規律