python中令人驚艷的小眾數據科學庫

来源:https://www.cnblogs.com/qingdeng123/archive/2019/03/21/10574619.html
-Advertisement-
Play Games

Python是門很神奇的語言,歷經時間和實踐檢驗,受到開發者和數據科學家一致好評,目前已經是全世界發展最好的編程語言之一。簡單易用,完整而龐大的第三方庫生態圈,使得Python成為編程小白和高級工程師的首選。 在本文中,我們會分享不同於市面上的python數據科學庫(如numpy、padnas、sc ...


Python是門很神奇的語言,歷經時間和實踐檢驗,受到開發者和數據科學家一致好評,目前已經是全世界發展最好的編程語言之一。簡單易用,完整而龐大的第三方庫生態圈,使得Python成為編程小白和高級工程師的首選。

在本文中,我們會分享不同於市面上的python數據科學庫(如numpy、padnas、scikit-learn、matplotlib等),儘管這些庫很棒,但是其他還有一些不為人知,但同樣優秀的庫需要我們去探索去學習。

1. Wget

從網路上獲取數據被認為是數據科學家的必備基本技能,而Wget是一套非交互的基於命令行的文件下載庫。ta支持HTTP、HTTPS和FTP協議,也支持使用IP代理。因為ta是非交互的,即使用戶未登錄,ta也可以在後臺運行。所以下次如果你想從網路上下載一個頁面,Wget可以幫到你哦。

安裝

pip isntall wget

用例

import wget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)

Run and output

100% [................................................] 3841532 / 3841532
filename
'razorback.mp3'

2. Pendulum

對於大多數python用戶來說處理時期(時間)數據是一件令人抓狂的事情,好在Pendulum專為你而來。它是python內置時間類的良好備選方案,更多內容可查看官方文檔 https://pendulum.eustace.io/docs/

安裝

pip install pendulum

用例

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')
print(dt_vancouver.diff(dt_toronto).in_hours())

Run and output

3

3.imbalanced-learn

常見的機器學習分類演算法都預設輸入的數據是均衡數據,即假設訓練集數據有A和B兩個類別,A和B數據量大體相當。如果A和B數據量差別巨大,那麼訓練的效果會不理想。在實際收集和整理的數據,其實絕大多數是非均衡數據,這對於機器學習分類演算法真的是個很大的問題。好在有imbalanced-learn庫可以很好的解決這個問題。該庫相容scikit-learn,並且是作為scikit-learn-contrib項目的一部分。當你再遇到非均衡數據,記得試試它哦!

安裝

pip install -U imbalanced-learn
#或者
conda install -c conda-forge imbalanced-learn

該庫有高質量的文檔 http://imbalanced-learn.org/en/stable,目前該庫支持scikit-learn、keras、tensorflow庫

4. FlashText

在NLP任務重經常會遇到替換指代同一個意思的多個詞語,或者從句子中抽取關鍵詞。通常我們一般的做法是使用正則表達式來完成這些臟活累活,但如果要操作的詞語數量達到幾千上萬,使用正則這種方法就會變得很麻煩。FlashText庫是基於FlashText演算法,該庫的最強大之處在於程式運行時間不受操作詞語數量影響,即運行時間與操作的辭彙數量無關。 因此特別適合應用到 python文本分析 中去。

4.1 安裝

pip install flashtext

4.2 用例

4.2.1 抽取關鍵詞

我們都知道 Big Apple 指代紐約。所以抽取紐約這個城市詞時候,我們要考慮到相同意思的不同詞語。

from flashtext import KeywordProcessor

#設置關鍵詞處理器
keyword_processor = KeywordProcessor()

#設置關鍵詞及其近義詞
keyword_processor.add_keyword('Big Apple', 'New York') #遇到Big Apple就會識別為New York
keyword_processor.add_keyword('Bay Area')

keywords_found = keyword_processor.extract_keywords("I love Big Apple and Bay Area.")

keywords_found

Run and output

['New York', 'Bay Area']

4.2.2 替換關鍵詞

我們也經常需要將原始文本進行處理,比如將New Delhi(新德里)替換為NCR region(國家首都區)

keyword_processor.add_keyword('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence

Run and output

'I love New York and NCR region.'

想瞭解更多,請查看FlastText官方文檔

https://flashtext.readthedocs.io/en/latest/#

5. Fuzzywuzzy

這個庫的名字就有點怪,但ta擁有強大的字元串匹配功能。可以輕鬆實現字元串比較比率(comparison ratios),分詞比率(token ratios)等操作。它還可以方便地匹配保存在不同資料庫中的記錄。

安裝

pip install fuzzywuzzy

用例

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Simple Ratio
print(fuzz.ratio("this is a test", "this is a test!"))
# Partial Ratio
print(fuzz.partial_ratio("this is a test", "this is a test!"))

Run and output!

97
100

更多有趣的例子可見 fuzzywuzzy庫github賬號 https://github.com/seatgeek/fuzzywuzzy

6.PyFlux/PyFTS.

在機器學習領域中經常遇到時間序列分析這種問題。PyFlux是專門為解決時間序列問題而開發的python庫。這個庫提供了很多現代時間序列演算法,單不僅僅限於ARIMA、GARCH和VAR這三種模型。簡而言之,PyFlux為我們分析時間序列數據提供了可能,你值得擁有。

安裝

pip install pyflux

PyFlux用例可查看該庫的文檔 https://pyflux.readthedocs.io/en/latest/index.html

類似的時間序列庫還有PyFTS, 教程鏈接

https://towardsdatascience.com/a-short-tutorial-on-fuzzy-time-series-dcc6d4eb1b15

文檔鏈接

.

7.Ipyvolume

數據科學中一個重要的部分就是分析結果的展示與交流,而良好的視覺傳達是很有優勢的。IPyvolume是3D可視化庫,可以以最小的初始化設置就能在jupyter notebook中使用。做一個恰當的類比:matplotlib的imshow是2d數組,而IPyvolume的volshow是3d數組。

安裝

pip install ipyvolume
#或者
conda install -c conda-forge ipyvolume

用例

 

 

 

 

8. Dash

Dash是用來為開發web應用的高生產率工具庫,該庫基於Flask、Plotly.js和React.js,不需要懂javascript只用python就能讓我們製作出美美的的UI元素,如下來列表、滑動條和圖表。這些應用可以在瀏覽器中渲染,具體文檔可查看 https://dash.plot.ly/

安裝

pip install dash==0.29.0  
pip install dash-html-components==0.13.2  #Dash庫的HTML組件
pip install dash-core-components==0.36.0  #Dash庫核心組件
pip install dash-table==3.1.3  #交互資料庫表單(新)

用例

下麵是一個下拉式菜單,可以選擇股票代碼的pandas Dataframe數據類型作為輸入,渲染成動態交互的折線圖

 

 

9. Gym

Gym是一個可以開發強化學習演算法的工具包。 它相容數值計算庫,如TensorFlow或Theano。我們可以據此設計出強化學習演算法,這些環境(測試問題)有公開的介面,允許我們寫出通用的演算法。

安裝

pip install gym

用例

比如研究探月飛行器著落月球,科學家需要考慮如何才能準確著落到某個位置,並且保證安全降落。這就需要用到gym來做強化學習,學到規律

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一,依賴註入:Dependency Injection(DI)與控制反轉(IoC),不同角度但是同一個概念。首先我們理解一點在傳統方式中我們使用new的方式來創建一個對象,這會造成對象與被實例化的對象之間的耦合性增加以致不利於維護代碼,這是很難受的。在spring框架中對象實例改由spring框架創 ...
  • 前面介紹的幾種異常,其實都存在這樣那樣的邏輯問題,屬於程式員的編碼手誤。還有一大類系統錯誤,錶面上看不出什麼問題,但是程式仍然運行不下去,茲舉二例說明。第一個例子且看下列的測試代碼: 執行測試代碼中的testUnlimitedString方法,一開始程式正常列印日誌,然而不一會兒就報錯退出了,錯誤信 ...
  • 一、if判斷 語法一: 二、while迴圈 三、for迴圈 ...
  • 要求: 用類實現學生的成績管理,要求實現如下功能: 1.能夠獲取學生的對應學科成績、總成績、平均成績; 2.能夠獲取某一個班級的某一科成績的最高分的學生 3.能夠獲取某一班級的總成績最高分的學生 演算法: 基於以上要求,設計學生類和班級類2個類來分別管理學生和班級信息,學生的信息包括姓名,班級,科目以 ...
  • ...
  • Kafka是一種高吞吐量的分散式發佈訂閱消息系統 1、優點:① 通過磁碟數據結構提供消息的持久化,這種結構對於即使數以TB的消息存儲也能夠保持長時間的穩定性能。② 高吞吐量:即使是非常普通的硬體Kafka也可以支持每秒數百萬的消息。③ 支持通過Kafka伺服器和消費機集群來分區消息。④ 支持Hado ...
  • 題目: 給定任一個各位數字不完全相同的 4 位正整數,如果我們先把 4 個數字按非遞增排序,再按非遞減排序,然後用第 1 個數字減第 2 個數字,將得到一個新的數字。一直重覆這樣做,我們很快會停在有“數字黑洞”之稱的 6174,這個神奇的數字也叫 Kaprekar 常數。 例如,我們從6767開始, ...
  • 在Java中參數的傳遞主要有兩種:值傳遞和參數傳遞; 下麵是對兩種傳遞方式在記憶體上的分析: 一:值傳遞 解釋:實參傳遞給形參的是值 形參和實參在記憶體上是兩個獨立的變數 對形參做任何修改不會影響實參 代碼示例如下: 結果:20 為什麼?看下麵分析: 通俗的講法就是:形參只是實參創建的一個副本,副本改變 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...