8.動態規劃(1)——字元串的編輯距離

来源:http://www.cnblogs.com/yulinfeng/archive/2017/06/29/7096882.html
-Advertisement-
Play Games

動態規劃的演算法題往往都是各大公司筆試題的常客。在不少演算法類的微信公眾號中,關於“動態規劃”的文章屢見不鮮,都在試圖用最淺顯易懂的文字來描述講解動態規劃,甚至有的用漫畫來解釋,認真讀每一篇公眾號推送的文章實際上都能讀得懂,都能對動態規劃有一個大概瞭解。 什麼是動態規劃?通俗地理解來說,一個問題的解決辦 ...


  動態規劃的演算法題往往都是各大公司筆試題的常客。在不少演算法類的微信公眾號中,關於“動態規劃”的文章屢見不鮮,都在試圖用最淺顯易懂的文字來描述講解動態規劃,甚至有的用漫畫來解釋,認真讀每一篇公眾號推送的文章實際上都能讀得懂,都能對動態規劃有一個大概瞭解。

  什麼是動態規劃?通俗地理解來說,一個問題的解決辦法一看就知道(窮舉),但不能一個一個數啊,你得找到最優的解決辦法,換句話說題目中就會出現類似“最多”、“最少”,“一共有多少種”等提法,這些題理論上都能使用動態規劃的思想來求解。動態規劃與分治方法類似,都是通過組合子問題的解來求解原問題,但它對每個子問題只求解一次,將其保存在表格中,無需重新計算,通常用於求解最優化問題——《演算法導論》

  編輯距離(Edit Distance),在本文指的是Levenshtein距離,也就是字元串S1通過插入、修改、刪除三種操作最少能變換成字元串S2的次數。例如:S1 = abcS2 = abf,編輯距離d = 1(只需將c修改為f)。在本文中將利用動態規劃的演算法思想對字元串的編輯距離求解。

  定義:S1、S2表示兩個字元串S1(i)表示S1的第一個字元d[i, j]表示S1i個首碼到S2的第j個首碼(例如:S1 = ”abc”,S2 = ”def”,求解S1S2的編輯距離d[3, 3])。

  1.   若S1 = ”abc”, S2 = ”dec”,此時它們的編輯距離為d[3, 3] = 2,觀察兩個字元串的最後一個字元是相同的,也就是說S1(3) = S2(3)不需要做任何變換,故S1 = ”abc”, S2 = ”dec” <= > S1’ = ”ab”, S2’ = ”de”,即當S1[i] = S[j]d[i, j] = d[i-1,j -1]。得到公式:d[i, j] = d[i - 1, j - 1] (S1[i] = S2[j])
  2.   上面一條得出了當S1[i] = S2[j]的計算公式,顯然還有另一種情況就是S1[i] ≠ S2[j],若S1 = ”abc”, S2 = ”def”。S1變換到S2的過程可以修改,但還可以通過插入刪除使得S1變換為S2

    1)在S1字元串末位插入字元“f”,此時S1 = ”abcf”,S2 = ”def”,此時即S1[i] = S2[j]的情況S1變換為S2的編輯距離為d[4, 3] = d[3, 2]。所以得出d[i, j]=d[i, j - 1] + 1。(+1是因為S1新增了”f”

    2)在S2字元串末位插入字元“c”,此時S1 = ”abc”S2 = ”defc”,此時即S1[i] = S[j]的情況,S1變換為S2的編輯距離為d[3, 4] = d[2, 3]。所以得出d[i, j]=d[i - 1, j] + 1,實際上這是對S1做了刪除。(+1是因為S2新增了”c”

    3)將S1字元串末位字元修改”f”,此時S1 = ”abf”S2 = ”def”,此時即S1[i] = S[j]的情況,S1變換為S2的編輯距離為d[3, 3] = d[2, 2]。所以得出d[i, j] = d[i – 1, j - 1] + 1。(+1是因為S1修改了“c”

  綜上,得出遞推公式:

=>

  不妨用表格表示出動態規劃對S1=”abc”S2=“def”的求解過程。

  可以看出紅色方塊即是最終所求的編輯距離,整個求解過程就是填滿這個表——二維數組。下麵是JavaPython分別對字元串編輯距離的動態規劃求解。

  Java

 

  1 package com.algorithm.dynamicprogramming;
  2 
  3 /**
  4  * 動態規劃——字元串的編輯距離
  5  * s1 = "abc", s2 = "def"
  6  * 計算公式:
  7  *          | 0                                           i = 0, j = 0
  8  *          | j                                           i = 0, j > 0
  9  * d[i,j] = | i                                           i > 0, j = 0
 10  *          | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1])    s1(i) = s2(j)
 11  *          | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1]+1)  s1(i) ≠ s2(j)
 12  * 定義二維數組[4][4]:
 13  *      d e f            d e f
 14  *   |x|x|x|x|        |0|1|2|3|
 15  * a |x|x|x|x|  =>  a |1|1|2|3|  => 編輯距離d = [3][3] = 3
 16  * b |x|x|x|x|      b |2|2|2|3|
 17  * c |x|x|x|x|      c |3|3|3|3|
 18  *
 19  * Created by yulinfeng on 6/29/17.
 20  */
 21 public class Levenshtein {
 22 
 23     public static void main(String[] args) {
 24         String s1 = "abc";
 25         String s2 = "def";
 26         int editDistance = levenshtein(s1, s2);
 27         System.out.println("s1=" + s1 + "與s2=" + s2 + "的編輯距離為:" + editDistance);
 28     }
 29 
 30     /**
 31      * 編輯距離求解
 32      * @param s1 字元串s1
 33      * @param s2 字元串s2
 34      * @return 編輯距離
 35      */
 36     private static int levenshtein(String s1, String s2) {
 37         int i = 0;  //s1字元串中的字元下標
 38         int j = 0;  //s2字元串中的字元下標
 39         char s1i = 0;   //s1字元串第i個字元
 40         char s2j = 0;   //s2字元串第j個字元
 41         int m = s1.length();    //s1字元串長度
 42         int n = s2.length();    //s2字元串長度
 43         if (m == 0) {   //s1字元串長度為0,此時的編輯距離就是s2字元串長度
 44             return n;
 45         }
 46         if (n == 0) {
 47             return m;   //s2字元串長度為0,此時的編輯距離就是s1字元串長度
 48         }
 49         int[][] solutionMatrix = new int[m + 1][n + 1];     //求解矩陣
 50         /**
 51          *      d e f
 52          *   |0|x|x|x|
 53          * a |1|x|x|x|
 54          * b |2|x|x|x|
 55          * c |3|x|x|x|
 56          */
 57         for (i = 0; i < m + 1; i++) {
 58             solutionMatrix[i][0] = i;
 59         }
 60         /**
 61          *      d e f
 62          *   |0|1|2|3|
 63          * a |x|x|x|x|
 64          * b |x|x|x|x|
 65          * c |x|x|x|x|
 66          */
 67         for (j = 0; j < n + 1; j++) {
 68             solutionMatrix[0][j] = j;
 69         }
 70         /**
 71          * 上面兩個操作後,求解矩陣變為
 72          *      d e f
 73          *   |0|1|2|3|
 74          * a |1|x|x|x|
 75          * b |2|x|x|x|
 76          * c |3|x|x|x|
 77          * 接下來就是填充剩餘表格
 78          */
 79         for (i = 1; i < m + 1; i++) {   //i = 1,j = 1, 2, 3,以行開始填充
 80             s1i = s1.charAt(i - 1);
 81             for (j = 1; j < n + 1; j++) {
 82                 s2j = s2.charAt(j - 1);
 83                 int flag = (s1i == s2j) ? 0 : 1;    //根據公式,如果s1[i] = s2[j],則d[i,j]=d[i-1,j-1],如果s1[i] ≠ s2[j],則其中一個公式為d[i,j]=d[i-1,j-1]+1
 84                 solutionMatrix[i][j] = min(solutionMatrix[i][j-1] + 1, solutionMatrix[i-1][j] + 1, solutionMatrix[i-1][j-1] + flag);
 85             }
 86         }
 87         return solutionMatrix[m][n];
 88     }
 89 
 90     /**
 91      * 根據公式求解編輯距離
 92      * @param insert s1插入操作
 93      * @param delete s1刪除操作
 94      * @param edit s1修改操作
 95      * @return 編輯距離
 96      */
 97     private static int min(int insert, int delete, int edit) {
 98         int tmp = insert < delete ? insert : delete;
 99         return tmp < edit ? tmp : edit;
100     }
101 }

  Python3

 1 '''
 2     動態規劃——字元串的編輯距離
 3     s1 = "abc", s2 = "def"
 4     計算公式:
 5              | 0                                           i = 0, j = 0
 6              | j                                           i = 0, j > 0
 7     d[i,j] = | i                                           i > 0, j = 0
 8              | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1])    s1(i) = s2(j)
 9              | min(d[i,j-1]+1, d[i-1,j]+1, d[i-1,j-1]+1)  s1(i) ≠ s2(j)
10     定義二維數組[4][4]:
11         d e f            d e f
12     |x|x|x|x|        |0|1|2|3|
13     a |x|x|x|x|  =>  a |1|1|2|3|  => 編輯距離d = [4][4] = 3
14     b |x|x|x|x|      b |2|2|2|3|
15     c |x|x|x|x|      c |3|3|3|3|
16 '''
17 def levenshtein(s1, s2):
18     i = 0   #s1字元串中的字元下標
19     j = 0   #s2字元串中的字元下標
20     s1i = ""    #s1字元串第i個字元
21     s2j = ""    #s2字元串第j個字元
22     m = len(s1) #s1字元串長度
23     n = len(s2) #s2字元串長度
24     if m == 0:
25         return n    #s1字元串長度為0,此時的編輯距離就是s2字元串長度
26     if n == 0:
27         return m    #s2字元串長度為0,此時的編輯距離就是s1字元串長度
28     solutionMatrix = [[0 for col in range(n + 1)] for row in range(m + 1)]  #長為m+1,寬為n+1的矩陣
29     '''
30              d e f
31           |0|x|x|x|
32         a |1|x|x|x|
33         b |2|x|x|x|
34         c |3|x|x|x|
35     '''
36     for i in range(m + 1):
37         solutionMatrix[i][0] = i
38     '''
39              d e f
40           |0|1|2|3|
41         a |x|x|x|x|
42         b |x|x|x|x|
43         c |x|x|x|x|
44         
45     '''
46     for j in range(n + 1):
47         solutionMatrix[0][j] = j
48     '''
49         上面兩個操作後,求解矩陣變為
50              d e f
51           |0|1|2|3|
52         a |1|x|x|x|
53         b |2|x|x|x|
54         c |3|x|x|x|
55         接下來就是填充剩餘表格
56     '''
57     for x in range(1, m + 1):
58         s1i = s1[x - 1]
59         for y in range(1, n + 1):
60             s2j = s2[y - 1]
61             flag = 0 if s1i == s2j  else 1
62             solutionMatrix[x][y] = min(solutionMatrix[x][y-1] + 1, solutionMatrix[x-1][y] + 1, solutionMatrix[x-1][y-1] + flag)
63 
64     return solutionMatrix[m][n]
65 
66 def min(insert, delete, edit):
67     tmp = insert if insert < delete else delete
68     return tmp if tmp < edit else edit
69 
70 s1 = "abc"
71 s2 = "def"
72 distance = levenshtein(s1, s2)
73 print(distance) 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ResourcePath屬性 ResourcePath屬性 一、屬性介紹 獲取或設置圖像存儲路徑,預設設置為“image”,表示的ResourcePath是在程式運行路徑下的Image文件夾(bin\Debug\Image); 該屬性可以設置為Resources參數,也可以是實際路徑。使用Resou ...
  • 【增加一條新的數據】 因為使用資料庫先行的模式,所以將數據保存到資料庫的操作變得非常簡單,你只需要寫簡單的幾行代碼就能將對象的實例保存到資料庫中 你也可以使用下麵的方式,將數據保存到資料庫中 當然保存數據也是支持非同步的 【批量數據插入】 Entity Framework提供了AddRange方法,可 ...
  • 在mvvm模式的wpf項目中有個需求需要去載入解決方案的程式集,並且根據程式集去動態載入當前程式集的類,做成下拉框形式。 效果: wpf窗體: ...
  • 本期來討論下,jupyter notebook中怎樣同時安裝python2.7 和python3.x。 ...
  • 介面是什麼,抽象類又是什麼,有了抽象類,我們為什麼還要有介面呢? 抽象類 抽象類的概念: 抽象類是相對於普通類而言的,普通類是一個完善的功能類,可以直接產生實例化對象,並且在普通類中可以包含有構造方法、普通方法、static方法、常量和變數等內容。而抽象類是指在普通類的結構裡面增加抽象方法的組成部分 ...
  • 一、說明 與@Component註解功能相同,但意義不同的註解還有三個: 1)@Repository:註解在Dao實現類上 2)@Service:註解在Service實現類上 3)@Controller:註解在SpringMVC的處理器上 Bean作用域: @Scope("prototype"):用 ...
  • Python中的可變對象和不可變對象 什麼是可變/不可變對象 不可變對象,該對象所指向的記憶體中的值不能被改變。 當改變某個變數時候,由於其所指的值不能被改變,相當於把原來的值複製一份後再改變,這會開闢一個新的地址,變數再指向這個新的地址。 可變對象,該對象所指向的記憶體中的值可以被改變。 變數(準確的 ...
  • /* 選擇工廠和更新工廠模式,這個模式的類(UpdateFactory和SelectionFactory類)就是用來創建SQL語句的. 因為涉及到之前學習的內容比較多,這裡就儘量將之前相關模式的示例代碼放在一起來進行學習和回顧了。 以下的代碼都是代碼片段而且涉及到連接資料庫,無法進行整體的調試(某些... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...