自然語言處理掃盲·第一天——自然語言處理的背景、應用、推薦資料

来源:http://www.cnblogs.com/xing901022/archive/2017/09/05/7482328.html
-Advertisement-
Play Games

自然語言處理在很多APP中都有實際應用的場景,比如在電商軟體中,客服問答系統、評論情感分析、帶有語義識別的搜索、商品自動分類、用戶畫像等等。那麼本篇作為自然語言處理淺學的第一篇,就著重來講一下背景知識。 背景知識 自然語言處理,英文是natural language process, NLP,說白了 ...


自然語言處理在很多APP中都有實際應用的場景,比如在電商軟體中,客服問答系統、評論情感分析、帶有語義識別的搜索、商品自動分類、用戶畫像等等。那麼本篇作為自然語言處理淺學的第一篇,就著重來講一下背景知識。

背景知識

自然語言處理,英文是natural language process, NLP,說白了就是利用電腦去對文本進行分析的加工。

由於自然語言處理是一門交叉的學科,因此學習它的話,需要瞭解很多其他學科的知識。比如:

  • 概率論:需要瞭解概率、條件概率、貝葉斯法則;二項分佈、期望、方差;最大似然估計、梯度下降等等
  • 統計學:建模、數據稀疏問題、回退方法等
  • 機器學習:分類、感知器、支持向量機
  • 語言學:構詞、詞類、句法、語義;語料庫和知識庫等等

因此可以看到,想要瞭解自然語言處理,還是需要濃厚的背景基礎的。

應用場景

機器翻譯

這個是自然語言處理最為人知的場景,也是現在沒有什麼明確商業化的場景。一般都是拿這種機器翻譯來作為某個應用的組成部分,比入跨語言的搜索引流等等。

國內外對於機器翻譯都有比較成熟的產品,比如百度翻譯、有道翻譯、Google 翻譯等等。

機器翻譯由於涉及到語義分析、上下文環境等面臨很多挑戰。

體驗頻道:

情感分析

情感分析在一些評論機制的app中比較有用,比如某酒店網站,下麵會有居住過的客人的評價,如果評論有幾千條,滿滿的都是髒亂差,那誰還想住呢!

所以可以通過情感分析,分析用戶評論是積極的還是消極的,根據一定的排序規則和顯示比例,在評論區顯示。

同樣這個場景也適用於電商網站的商品評價。

智能問答

問答系統在一些電商網站也很有實際價值,比如充當客服角色。有很多基本的問題,其實並不需要真的聯繫人工客服來解決。通過這種智能的問答系統,就可以排除掉大量的用戶問題,比如商品的質量投訴啊、商品的基本信息查詢啊之類的。

這樣可以省去大量的人工成本。

體驗頻道:

信息提取

在很多搜索引擎的公司,都會採集各種數據,然後進行信息的提取分析。比如新聞的自動分類,就需要針對文本提取關鍵信息,然後應用一些tf-idf的演算法,進行主要的主題分析,從而進行自動的分類。

語音輸入

說到這個就不得不提科大訊飛了,前一陣新聞推廣了訊飛的翻譯器——他能根據的中文同聲傳譯翻譯成英文,也就是說習大大以後再也不需要帶著一名翻譯官出訪其他國家了(話說,這跟我們有什麼關係),以後可以去國外爽歪歪的旅游了(再也不用點餐的時候this this this ok了,咱們直接點宮保雞丁、麻婆豆腐)。

體驗頻道:

輿論分析

說到這個輿論分析,最著名的就是奧巴馬的總統競選了。比如通過數據分析籌集資金,改變廣告的投放策略,製作有效的拉票推薦等等。

參考:http://tech.qq.com/a/20121108/000182.htm

這個如果是那些明星的公關工作室,應該會很有用吧。比如最近《那年花開月正圓》挺火,孫儷成了輿論焦點,這個時候相關的明星發一些貼邊的新聞,就能炒作一下!

語言生成(新聞、籃球解說、文本摘要)

再語言生成方面目前也有很多的應用場景,比如體育類節目的ai解說:

http://www.techweb.com.cn/it/2016-08-17/2376291_4.shtml

由於這個在電商領域應用的方向比較少,因此就不太關註了。

知識圖譜(略)

知識圖譜不知道啥時候突然就火了,也許是因為它能夠描述複雜的關聯關係。看到知識圖譜的興起,我還是有一些興奮的,因為再讀研期間搞的就是偏複雜網路的方向。複雜網路是一種複雜的圖結構,圖的點與線都有複雜的描述關係。在知識圖譜中也是如此,不過知識圖譜是面向業務領域的,比如百度描述明星關係的案例。

http://tupu.baidu.com/xiaoyuan/

有了這種知識圖譜的基礎,隨便搜索黃曉明的老婆是誰? 就很容易回答出來了。

那麼再電商領域,也許可以根據商品的關係或者產地、供應商等建立知識圖譜,然後進行捆綁銷售、促銷活動、精準營銷等活動,帶動商品的曝光和銷量。

推薦書籍

《數學之美》

《自然語言處理綜論》

《統計自然語言處理》

《統計學習方法》

《機器學習實戰》

《集體智慧編程》

參考

1 百度在NLP領域都做了什麼?https://www.leiphone.com/news/201702/LDdGVnuiyP9HiPXa.html
2 機器翻譯原理:https://www.zhihu.com/question/24588198


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在react項目開發中有一個需求是,頁面滾動到tab所在位置時,tab要固定在頂部。 實現的思路其實很簡單,就是判斷當滾動距離scrollTop大於tab距離頁面頂部距離offsetTop時,將tab的position變為fixed。 在react中,我在state中設置一個navTop屬性,切換這 ...
  • vue組件化開發 將一個頁面分割成若幹個組件,一個頁面js+css+html,將自己類容分割出來,方便開發,更好了維護我們的代碼,每個組件封裝自己的js+html+css,樣式命名衝突 將一個頁面分割成若幹個組件,一個頁面js+css+html,將自己類容分割出來,方便開發,更好了維護我們的代碼,每 ...
  • box-shadow的配置陰影 ...
  • 當我們使用原型鏈繼承時,需要謹慎的定義原型上的方法和屬性,因為這可能帶來意外的結果。 一、謹慎的定義原型上的方法。當我們想為一個構造函數的原型上定義一個方法時,一定要在更改原型後再定義,否則新的原型對象上不會有定義的這個方法,導致與我們預期的結果不同。例: 正確操作如下 二、不要使用對象字面量給原型 ...
  • 背景,做一個前面圖片寬度固定,後面寬度自適應,使用到了flex佈局,但是想讓後面div里文字不換行,超出以點點表示時,這時佈局就亂了,查了下,原來flex佈局與white-space:nowrap有影響 解決辦法,父div設置min-width:0即可 ...
  • 你有沒有遇到過如下的場景。coding中當你要處理一個數組的時候,腦海裡只浮現出了forEach;面試中,當面試官讓你說說數組的方法的時候,腦海裡只浮現出了forEach;做夢時當一個數組追殺你,你能想到的只有用forEach來抵抗。如果是,那麼你一定要聽一聽今年數組舉辦的32場演唱會。只要聽完了這 ...
  • 調度工具taskctl雖然支持分散式調度,但是有的時候,不同重要程度的調度服務還是要區分開來,在區分開後,不同調度服務之間怎麼實現依賴啦, 其實有很多方式,比如寫文件,寫資料庫之類的,這些都可以根據用戶自己的設計來實現,但其實taskctl自帶的消息發送組件也是可以做到的,只是大家沒發現(已經向官方 ...
  • 這篇文章是我之前寫的博文 資料庫方面的面試技巧,如何從建表方面展示自己能力 和 面試技巧,如何通過索引說資料庫優化能力,內容來自Java web輕量級開發麵試教程是一個系列的,通過面試官的視角和大家分享在資料庫方面的面試經驗,這些內容都來摘自 java web輕量級開發麵試教程。 之前的兩篇文章點擊 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...