最近想學習一些python數據分析的內容,就弄了個爬蟲爬取了一些數據,並打算用Anaconda一套的工具(pandas, numpy, scipy, matplotlib, jupyter)等進行一些初步的數據挖掘和分析。 在使用matplotlib畫圖時,橫坐標為中文,但是畫出的條形圖橫坐標總是顯 ...
最近想學習一些python數據分析的內容,就弄了個爬蟲爬取了一些數據,並打算用Anaconda一套的工具(pandas, numpy, scipy, matplotlib, jupyter)等進行一些初步的數據挖掘和分析。
在使用matplotlib畫圖時,橫坐標為中文,但是畫出的條形圖橫坐標總是顯示“框框”,就去查資料解決。感覺這應該是個比較常見的問題,網上的中文資料也確實很多,但是沒有任何一個徹底解決了我遇到的問題。零零碎碎用了快3個小時的時間,才終於搞定。特此分享,希望能幫到有同樣問題的童鞋。
運行環境:
- python2.7
- Linux Centos7
- 用conda安裝的matplotlib和pandas
問題:
- matplotlib畫圖,無法顯示中文
問題原因:
- linux操作系統以及matplotlib的字體庫中,沒有可用的中文字體
- matplotlib包預設只支持ASCII碼,不支持unicode碼
網上資料總結:
- 修改matplotlib的資源配置文件,例如增加"Simhei"字體(這個字體並不是所有的linux系統都有的好嘛!修改了並沒有作用)
- 給linux安裝中文字體,並修改matplotlib的資源配置文件。(呵呵,並沒有作用)
解決方案:
其實也是綜合了網上的各種解決方案。總體說來有以下幾個步驟:
1. 獲取matplotlibrc文件所在路徑。在jupyter notebook中獲取:
1 import matplotlib 2 matplotlib.matplotlib_fname()
例如,我的這個文件在:
u'~/miniconda2/lib/python2.7/site-packages/matplotlib/mpl-data/matplotlibrc'
後續步驟會修改此文件中的font參數。
2. 看看系統中的所有字體,以及可用的中文字體。也是在jupyter nb中:
from matplotlib.font_manager import FontManager import subprocess fm = FontManager() mat_fonts = set(f.name for f in fm.ttflist) print mat_fonts output = subprocess.check_output( 'fc-list :lang=zh -f "%{family}\n"', shell=True) print '*' * 10, '系統可用的中文字體', '*' * 10 print output zh_fonts = set(f.split(',', 1)[0] for f in output.split('\n')) available = mat_fonts & zh_fonts print '*' * 10, '可用的字體', '*' * 10 for f in available: print f
做完上述操作,會發現“可用的字體”這裡為空。因為沒有中文字體給matplotlib用(所以才會中文都顯示“框框”)
3. 假設操作系統中沒有中文字體。此時下載一個ttf中文字體,併在cenos中安裝。要安裝那種系統能檢測font-family的,否則無效。我在這個網站下載的:http://font.chinaz.com/130130474870.htm
解壓rar文件。在 /usr/share/fonts 路徑下創建存放此字體的文件夾yourfontdir,並下載的ttf文件複製到yourfontdir中(可以給文件改個英文名,方便操作)
4. 給cenos安裝這個字體。
cd /usr/share/fonts/yourfontsdir #生成字體索引信息. 會顯示字體的font-family sudo mkfontscale sudo mkfontdir #更新字體緩存: fc-cache
5. 修改matplotlibrc文件
修改步驟1中獲取的matplotlibrc文件配置。
將font.family 部分註釋去掉,並且在font.serif 支持字體加上一個中文字體。這裡就加上剛纔下載的中文字體的font-family. 可以通過 fc-list 命令查找一下(所以前面最好記下來)。我這裡增加的是"WenQuanYi Zen Hei Mono"字體。
下麵這句註釋要去掉,不然中文減號也顯示方塊:
axes.unicode_minus : False
6. 這一步驟最重要!為matplotlib增加中文字體
完成步驟5後,再操作步驟2,會發現“可用的中文字體”已經有了剛纔安裝的字體,但是畫圖仍然不能顯示中文。這是因為你這個字體給centos安裝了、也告訴matplotlib要用這個字體了,但是,matplotlib找不到這個字體的ttf文件啊。。。。所以需要給它弄一個。
將下載的ttf字體複製一份到以下路徑:
~/miniconda2/lib/python2.7/site-packages/matplotlib/mpl-data/fonts/ttf
並刪除相關cache。在以下路徑:
~/.cache/matplotlib
刪除其中與字體有關的cache
7. 現在重新畫個圖試試。搞定。
參考資料:
https://www.joinquant.com/post/441https://segmentfault.com/a/1190000000621721 http://blog.csdn.net/love254443233/article/details/17082691 https://www.zhihu.com/question/25404709