關鍵詞匹配優化(第2篇)—— 用C#實現demo

来源:https://www.cnblogs.com/hewish/archive/2020/04/13/12694707.html
-Advertisement-
Play Games

上一篇文章用python實現了計算文本相似度計算的過程,這次用C 做個demo。 不得不說用python是真的方便,不懂計算過程也能實現結果。C 也有類似NumPy的庫: "NumSharp" 。經過測試還是有區別的,有些功能沒有(也可能是因為我沒看文檔)。最後還是自己研究計算過程去寫。 用C 寫E ...


上一篇文章用python實現了計算文本相似度計算的過程,這次用C#做個demo。

不得不說用python是真的方便,不懂計算過程也能實現結果。C#也有類似NumPy的庫:NumSharp。經過測試還是有區別的,有些功能沒有(也可能是因為我沒看文檔)。最後還是自己研究計算過程去寫。

用C#寫Excel公式有兩種開發方式:VSTO和ExcelDNA。看了一下VSTO的部署感覺比較麻煩,所以這裡用ExcelDNA的方式。

求兩個詞向量的餘弦相似度的C#代碼如下

        /// <summary>
        /// 求餘弦相似度,輸入兩個只有1行且列數相同的二維數組
        /// </summary>
        /// <param name="Vector_a">向量a</param>
        /// <param name="Vector_b">向量b</param>
        /// <returns>返回兩個向量的餘弦相似度</returns>
        public static double cos_sim(int[,] Vector_a, int[,] Vector_b)
        {
            double num = 0;
            //計算向量a和 向量b轉置 的乘積
            //python中的:float(vector_a * vector_b.T)
            for(int i = 0; i < Vector_a.GetLength(1); i++)
            {
                num += Vector_a[0, i] * Vector_b[0, i];
            }
            
            double denom =  norm(Vector_a) * norm(Vector_b);
            double sim = num / denom;
            return sim;
        }

        /// <summary>
        /// 求向量範數,輸入一個只有1行的二維數組
        /// </summary>
        /// <param name="Vector">輸入的向量</param>
        /// <returns>返迴向量的範數</returns>
        //類似NumPy中的np.linalg.norm
        public static double norm(int[,] Vector)
        {
            double SumI = 0;
            foreach(int i in Vector)
            {
                SumI += i * i;
            }

            return Math.Sqrt(SumI);
        }

這個只是初步實現了餘弦相似度計算,還有優化的空間。比如這裡輸入的向量是一行的二維數組,改成用一維數組或者list都可以,類型也可以不用int改成double。

輸入的部分先用Excel選區輸入,後面會改到資料庫中,實現效果如下:

返回的字元串後面跟的數字是兩個詞的相似度,後續刪掉即可。

前面的單元格區域“測試!A1:JH154”是目標關鍵詞和向量,之後會把這部分去掉,整理一下存儲到資料庫中。按照目前的one-hot編碼,後續增加關鍵詞時直接給每個關鍵詞後加一個值是0的維度即可,如果改成tf-idf編碼,就需要在增加關鍵詞後重新計算向量了。不過怎麼說也比維護100多個elseif要方便,後續優化還可以把拆分字換成分詞,減少計算量,提高準確度。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Mybatis框架學習筆記一 基礎mybatis註解配置 1.編寫jdbcConfig.properties配置文件 2.項目是基於maven創建的所以需要先導入依賴 3.編寫實體類,與資料庫中的表對應(變數名與資料庫表相對應) 註意:最好自動生成不然容易寫錯 4.編寫持久層介面 5.編寫SqlMa ...
  • PHP 工作中常用的字元串函數 一、關於字元串大小寫轉換的函數 1、strtoupper($string):將字元串$string中的字母轉換成大寫,並將轉化後的字元串返回; $str = '這是一個string'; echo strtoupper($str); //輸入結果: //這是一個STRI ...
  • 記錄 http://blog.sina.com.cn/s/blog_73b339390102yoio.html PE:市盈率 = 股價 / 每股盈利 PEG:(市盈率相對盈利增長比率/市盈增長比率) PEG=PE/(企業年盈利增長率*100) PB:市凈率=股價 / 每股凈資產 PS:市銷率=股價 ...
  • 準備工作 開啟PO3/SMTP服務 打開qq郵箱 賬戶 ==記住這串授權碼 會用到== 實現步驟 1. 創建一個Springboot項目 勾選web依賴 2. 導入QQ郵件所需依賴 3. 配置application.properties 4. 編寫controller 6. 編寫前端頁面 7. 啟動 ...
  • 函數式介面#第一章 函數式介面 ...
  • 前言 文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 作者:kwsy PS:如有需要Python學習資料的小伙伴可以加點擊下方鏈接自行獲取http://t.cn/A6Zvjdun 1. python 封包 將多個值賦值給一個變數時 ...
  • MD5加密很常用,比如資料庫中密碼等敏感欄位需要加密存儲,核對密碼時先以同樣的方式對用戶輸入的密碼進行加密,再與資料庫中存儲的密碼比較。 MD5加密有很多種實現方式,此處介紹2種。 1、使用JDK自帶MessageDigest public class MD5Util { public static ...
  • 估計很多人在網上看到各種各樣的DeepClone實現, 例如: 1. 通過BinaryFormatter進行二進位序列化 這玩意兒序列化出來的東西還帶namespace類型, 尺寸非常大, 調試一下就知道極其不靠譜 有些人又開始動歪腦筋了, 說我搞一個JSON序列化, 或者BSON序列化可不可以 2 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...