自然語言處理在很多APP中都有實際應用的場景,比如在電商軟體中,客服問答系統、評論情感分析、帶有語義識別的搜索、商品自動分類、用戶畫像等等。那麼本篇作為自然語言處理淺學的第一篇,就著重來講一下背景知識。 背景知識 自然語言處理,英文是natural language process, NLP,說白了 ...
自然語言處理在很多APP中都有實際應用的場景,比如在電商軟體中,客服問答系統、評論情感分析、帶有語義識別的搜索、商品自動分類、用戶畫像等等。那麼本篇作為自然語言處理淺學的第一篇,就著重來講一下背景知識。
背景知識
自然語言處理,英文是natural language process, NLP,說白了就是利用電腦去對文本進行分析的加工。
由於自然語言處理是一門交叉的學科,因此學習它的話,需要瞭解很多其他學科的知識。比如:
- 概率論:需要瞭解概率、條件概率、貝葉斯法則;二項分佈、期望、方差;最大似然估計、梯度下降等等
- 統計學:建模、數據稀疏問題、回退方法等
- 機器學習:分類、感知器、支持向量機
- 語言學:構詞、詞類、句法、語義;語料庫和知識庫等等
因此可以看到,想要瞭解自然語言處理,還是需要濃厚的背景基礎的。
應用場景
機器翻譯
這個是自然語言處理最為人知的場景,也是現在沒有什麼明確商業化的場景。一般都是拿這種機器翻譯來作為某個應用的組成部分,比入跨語言的搜索引流等等。
國內外對於機器翻譯都有比較成熟的產品,比如百度翻譯、有道翻譯、Google 翻譯等等。
機器翻譯由於涉及到語義分析、上下文環境等面臨很多挑戰。
體驗頻道:
情感分析
情感分析在一些評論機制的app中比較有用,比如某酒店網站,下麵會有居住過的客人的評價,如果評論有幾千條,滿滿的都是髒亂差,那誰還想住呢!
所以可以通過情感分析,分析用戶評論是積極的還是消極的,根據一定的排序規則和顯示比例,在評論區顯示。
同樣這個場景也適用於電商網站的商品評價。
智能問答
問答系統在一些電商網站也很有實際價值,比如充當客服角色。有很多基本的問題,其實並不需要真的聯繫人工客服來解決。通過這種智能的問答系統,就可以排除掉大量的用戶問題,比如商品的質量投訴啊、商品的基本信息查詢啊之類的。
這樣可以省去大量的人工成本。
體驗頻道:
- 圖靈機器人:http://www.tuling123.com/experience/exp_virtual_robot.jhtml?nav=exp
- 京東客服jimi:http://jimi1.jd.com/
信息提取
在很多搜索引擎的公司,都會採集各種數據,然後進行信息的提取分析。比如新聞的自動分類,就需要針對文本提取關鍵信息,然後應用一些tf-idf的演算法,進行主要的主題分析,從而進行自動的分類。
語音輸入
說到這個就不得不提科大訊飛了,前一陣新聞推廣了訊飛的翻譯器——他能根據的中文同聲傳譯翻譯成英文,也就是說習大大以後再也不需要帶著一名翻譯官出訪其他國家了(話說,這跟我們有什麼關係),以後可以去國外爽歪歪的旅游了(再也不用點餐的時候this this this ok了,咱們直接點宮保雞丁、麻婆豆腐)。
體驗頻道:
輿論分析
說到這個輿論分析,最著名的就是奧巴馬的總統競選了。比如通過數據分析籌集資金,改變廣告的投放策略,製作有效的拉票推薦等等。
參考:http://tech.qq.com/a/20121108/000182.htm
這個如果是那些明星的公關工作室,應該會很有用吧。比如最近《那年花開月正圓》挺火,孫儷成了輿論焦點,這個時候相關的明星發一些貼邊的新聞,就能炒作一下!
語言生成(新聞、籃球解說、文本摘要)
再語言生成方面目前也有很多的應用場景,比如體育類節目的ai解說:
http://www.techweb.com.cn/it/2016-08-17/2376291_4.shtml
由於這個在電商領域應用的方向比較少,因此就不太關註了。
知識圖譜(略)
知識圖譜不知道啥時候突然就火了,也許是因為它能夠描述複雜的關聯關係。看到知識圖譜的興起,我還是有一些興奮的,因為再讀研期間搞的就是偏複雜網路的方向。複雜網路是一種複雜的圖結構,圖的點與線都有複雜的描述關係。在知識圖譜中也是如此,不過知識圖譜是面向業務領域的,比如百度描述明星關係的案例。
http://tupu.baidu.com/xiaoyuan/
有了這種知識圖譜的基礎,隨便搜索黃曉明的老婆是誰? 就很容易回答出來了。
那麼再電商領域,也許可以根據商品的關係或者產地、供應商等建立知識圖譜,然後進行捆綁銷售、促銷活動、精準營銷等活動,帶動商品的曝光和銷量。
推薦書籍
《數學之美》
《自然語言處理綜論》
《統計自然語言處理》
《統計學習方法》
《機器學習實戰》
《集體智慧編程》
參考
1 百度在NLP領域都做了什麼?https://www.leiphone.com/news/201702/LDdGVnuiyP9HiPXa.html
2 機器翻譯原理:https://www.zhihu.com/question/24588198