關鍵詞匹配優化（第0篇）—— 問題和思路

-Advertisement-

工作中遇到一個需求，規範人為輸入的特定辭彙，大概有100多個辭彙。類似下麵的情況（關鍵詞比地名複雜一些）之前是用if else處理的，偽代碼如下：因為我的工作是寫Excel插件的，這一百多個 else if 太影響運行效率了，而且維護起來也很不方便，增加辭彙也困難。這兩天找了一些相關的知識，打 ...

工作中遇到一個需求，規範人為輸入的特定辭彙，大概有100多個辭彙。類似下麵的情況（關鍵詞比地名複雜一些）

之前是用if else處理的，偽代碼如下：

string TempStr;
if(TempStr.Contains("海澱") && TempStr.Contains("北京") )
{
    return "北京市海澱區";
}
else if(TempStr.Contains("山東") && TempStr.Contains("威海") )
{
    return "山東省威海市";
}
……//等等一共兩百多個else，內容也比較複雜，甚至還有正則匹配之類的
else
{
    return "匹配失敗";
}

因為我的工作是寫Excel插件的，這一百多個 else if 太影響運行效率了，而且維護起來也很不方便，增加辭彙也困難。

這兩天找了一些相關的知識，打算對這部分進行優化，用nlp中的tf-idf方法進行關鍵詞相似度的計算。

整個流程大致是：在資料庫中建立關鍵詞映射表，在插件啟動時讀取為字典，在使用時如果查詢不到，就計算相似度並上傳到映射表。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

PHP web項目進行XSS漏洞測試中存在的問題

概念：跨站腳本攻擊（XSS）是指惡意攻擊者往Web頁面里插入惡意Script代碼，當用戶瀏覽該頁之時，嵌入其中Web裡面的Script代碼會被執行，從而達到惡意攻擊用戶的目的。XSS漏洞通常是通過php的輸出函數將javascript代碼輸出到html頁面中，通過用戶本地瀏覽器執行的，所以xss漏洞 ...
線程有幾種創建方式

這裡我就直接給出答案實現Runnanle介面，並實現它的run方法繼承Thread類，並重寫它的run方法為什麼說是兩種，可能有小伙伴在網上搜索，發現可能各種說法都有，但是在Oracle的官方文檔中明確的寫了，創建線程的方式是兩種，也就是我上面說的這兩種。我們來看看這兩種方式具體的用法Runnabl... ...
#項目練習# 個人銀行賬戶管理系統

需求分析1.賬戶包括活期儲蓄賬戶和信用卡儲蓄賬戶。2.將賬戶信息包括存取記錄等等保存至文件中。3.異常處理包括餘額不足，輸入信息不對等等。源代碼https://github.com/zhuifeng17/DBMSsystem ...
adb命令將抓包工具證書從用戶目錄移動至系統目錄,解決反爬對於本地證書認證

代碼和註釋 ...
架構系列必看：《大型網站系統與Java中間件實踐》PDF高清版

寫在前面從事互聯網系統開發的人員大多希望成為資深的架構師或領域專家。但大部分人員由於自身工作環境及條件的限制，缺少大型系統實踐經驗，或者對核心的案例缺乏真實的瞭解，因此很難有機會理解分散式設計中的關鍵問題及應對方案。如何才能找到有效的方法並早日成為資深系統架構師呢? 資料獲取方法內容簡介本書圍 ...
PHP web項目中用到的一些函數

1、strtoupper()函數把字元串轉換為大寫。 strtoupper(string) 2、file_get_contents file_get_contents() 把整個文件讀入一個字元串中。該函數是用於把文件的內容讀入到一個字元串中的首選方法。 3、sql中concat函數的使用（字元 ...
多線程之旅（Task 任務）

一、Task(任務)和ThreadPool（線程池）不同源碼 1、線程（Thread）是創建併發工具的底層類，但是在前幾篇文章中我們介紹了Thread的特點，和實例。可以很明顯發現局限性（返回值不好獲取（必須在一個作用域中）），當我們線程執行完之後不能很好的進行下一次任務的執行，需要多次銷毀和創建 ...
ASP.NET CORE WEBAPI文件下載

最近要使用ASP.NET CORE WEBAPI用來下載文件，使用的.NET CORE 3.1。考慮如下場景： 1. 文件是程式生成的。 2. 文件應該能相容各種格式。 3. 瀏覽器可以感知進行下載。準備經過簡單的調研，得到以下結論。 ASP.NET CORE 提供FileResult這種類型的 ...