一年之前,我做夢也想不到會來這裡寫技術總結。誤打誤撞來到了上海西南某高校,成為了文科專業的工科男,現在每天除了膜ha,就是惡補CS。導師是做計算語言學的,所以當務之急就是先自學電腦自然語言處理,打好底子準備做科研(認真臉)。 進入正題,從圖書館找了本“Natural Language Proces ...
一年之前,我做夢也想不到會來這裡寫技術總結。誤打誤撞來到了上海西南某高校,成為了文科專業的工科男,現在每天除了膜ha,就是惡補CS。導師是做計算語言學的,所以當務之急就是先自學電腦自然語言處理,打好底子準備做科研(認真臉)。
進入正題,從圖書館找了本“Natural Language Processing with Python” (影印版),書長這個樣子,作者是Steven Bird, Ewan Klein和Edward Loper。粘貼個豆瓣鏈接供參考:https://book.douban.com/subject/5336893/
對於本書,讀者大多將其定義為:NLTK的工具書(再加個“入門級”的定語或許更佳恰當),理論性還有待深入。但是對於小白來講先刷一遍再說,簡單、粗暴、實用、能迅速上手才是王道!
順便再說一下為什麼要選Python,其實對於小白來講,與其浪費時間去糾結學什麼編程語言,不如花時間去多敲幾行代碼。Python語言本身好不好小白我沒資格評價,但是這裡必須要說一句Python有很多功能強大的第三方工具包(package),這些工具包是解決具體學科具體問題的利器!比如在自然語言處理方面,NLTK(Natural Language Toolkit)功能及其強大。
好了,這次終於能進入正題了。Chapter 0可以視為學習前的準備工作,正所謂“工欲善其事,必先利其器”。
IDE: PyCharm IDE我選了PyCharm,據說很好用。下載及安裝方法如下: 1.Python官網下載Python,打開terminal,輸入python顯示版本信息 2.下載Python開發的IDE PyCharm,Professional版的激活碼可以求助度娘關於Python文件編碼聲明 1.位置:必須放在python文件的第一行或第二行 2.格式:a. 帶等於號的
1 #coding=<encoding name>
b. 帶冒號的,最常見,大多數編輯器都可以識別
1 #!/usr/bin/python 2 # -*- coding: <encoding name> -*-c. vim的:
1 #!/usr/bin/python 2 # vim: set fileencoding=<encoding name>3.作用:告訴python interpreter如何解釋字元串的編碼 如果沒有文件編碼類型聲明,則python預設以ASCII編碼去處理。 如果沒有聲明代碼,但是文件中又包含非ASCII編碼的字元的話,python解釋器去解釋python文件自然會報錯。 4.例子:第一行說明腳本語言是python的;第二行用來指定文件編碼為utf-8的 。
1 #!/usr/bin/python 2 # -*- coding: utf-8 -*-5.註意:單個python源碼文件中只允許用單一的編碼,不允許嵌入多種編碼,否則會報錯!!! 6.Python分詞器+編譯器工作邏輯: a. 讀取文件 b. 不同的文件,根據其聲明的編碼去解析為Unicode c. 轉換為UTF-8字元串 d. 針對UTF-8字元串去分詞 e. 編譯之,創建Unicode對象 7.UTF-8: 8-bit Unicode Transformation Format,是一種針對Unicode的可變長度字元編碼,又稱萬國碼。 總之,要想讓Python程式支持中文,就需要在Python源文件開頭加上這樣一段編碼聲明。
My First Python Program - Hello World! 1.File --> New Project --> 選擇Project的保存路徑(個人感覺很像R語言中working directory的設定) 2.右鍵剛剛建好的project --> New --> Python File --> 給File命個名(個人感覺這就是腳本文件,類似於R語言中的script) 3.敲入文件編碼聲明(其實並不必要,因為我們輸入英文"Hello World!",而不是中文) 4.Hello World
1 print ("Hello World!")5.這時會發現運行及調試按鈕(綠色三角形)是灰色的,因為我們還沒有設置控制台。
python設置控制台 1.點擊運行旁邊的黑色倒三角,進入Run/Debug Configurations配置界面(或者Run —> Edit Configurations) 2.點擊綠色加號,新建一個配置項,並選擇python(因為是用源代碼是python程式) 3.配置界面里Name一欄寫一個名字,點擊Script選項,找到剛纔寫的 .py 文件 4.點擊OK,自動返回編輯界面,這時運行及調試按鈕全部變綠 5.點擊運行,觀看輸出結果
Installing Packages in PyCharm - Mac 1.Pycharm —> preference —> project interpreter 2. + for adding packages - for deleting packages -> for updating packages
NLTK (Natural Language Toolkit) 通過輸入以下代碼,調用NLTK這個包,然後下載我們所需的data sets(實際上就是書中所用的語料)
1 import nltk 2 nltk.download()Run and you will get to the NLTK Downloader The Collections tab on the downloader shows how the packages are grouped into sets, and you should select the line labeled book to obtain all data required for the examples and exercises in this book. 我表示下載速度讓人捉雞,雖然MIT (Minhang Institute of Technology,譯作:閔行男子職業技術學院)的網速相當快,而且不用交網費!!!
吃飯前,還是要膜一下!遛了。