_markupbase.py if not match: UnboundLocalError: local variable 'match' referenced before assignment,分析Python 庫 html.parser 中存在的一個解析BUG

来源:https://www.cnblogs.com/gebilaowangpython/archive/2019/02/20/10409249.html
-Advertisement-
Play Games

BUG觸發時的完整報錯內容(本地無關路徑用已經用 隱去): 在解析HTML時,標簽開始部分使用形如 的瀏覽器判斷標識符,結束時結束標簽 (正確的開始和結束標簽應該為 和 )無法正常匹配關閉即可觸發。 觸發BUG的示例代碼如下: 在 Python 3.7.0 版本中,觸發BUG部分的代碼存在於 中的 ...


BUG觸發時的完整報錯內容(本地無關路徑用已經用 **** 隱去):

**************\lib\site-packages\bs4\builder\_htmlparser.py:78: UserWarning: unknown status keyword 'end ' in marked section
  warnings.warn(msg)
Traceback (most recent call last):
  File "**************/test.py", line 5, in <module>
    bs = BeautifulSoup(html, 'html.parser')
  File "**************\lib\site-packages\bs4\__init__.py", line 281, in __init__
    self._feed()
  File "**************\lib\site-packages\bs4\__init__.py", line 342, in _feed
    self.builder.feed(self.markup)
  File "**************\lib\site-packages\bs4\builder\_htmlparser.py", line 247, in feed
    parser.feed(markup)
  File "D:\Program Files\Python37\lib\html\parser.py", line 111, in feed
    self.goahead(0)
  File "D:\Program Files\Python37\lib\html\parser.py", line 179, in goahead
    k = self.parse_html_declaration(i)
  File "D:\Program Files\Python37\lib\html\parser.py", line 264, in parse_html_declaration
    return self.parse_marked_section(i)
  File "D:\Program Files\Python37\lib\_markupbase.py", line 160, in parse_marked_section
    if not match:
UnboundLocalError: local variable 'match' referenced before assignment

在解析HTML時,標簽開始部分使用形如 <!-[if IE eq 9]> 的瀏覽器判斷標識符,結束時結束標簽<![end if]->(正確的開始和結束標簽應該為<!--[if IE 9]><![endif]-->)無法正常匹配關閉即可觸發。
觸發BUG的示例代碼如下:

from bs4 import BeautifulSoup

html = """
<!-[if IE eq 9]>
    <a href="https://www.shwww.net/">https://www.shwww.net/</a>
<![end if]->
"""

bs = BeautifulSoup(html, 'html.parser')

在 Python 3.7.0 版本中,觸發BUG部分的代碼存在於 \Lib\_markupbase.py 中的 146 行的 parse_marked_section 方法,該方法代碼如下:
https://github.com/python/cpython/blob/bb9ddee3d4e293f0717f8c167afdf5749ebf843d/Lib/_markupbase.py#L160

    def parse_marked_section(self, i, report=1):
        rawdata= self.rawdata
        assert rawdata[i:i+3] == '<![', "unexpected call to parse_marked_section()"
        sectName, j = self._scan_name( i+3, i )
        if j < 0:
            return j
        if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}:
            # look for standard ]]> ending
            match= _markedsectionclose.search(rawdata, i+3)
        elif sectName in {"if", "else", "endif"}:
            # look for MS Office ]> ending
            match= _msmarkedsectionclose.search(rawdata, i+3)
        else:
            self.error('unknown status keyword %r in marked section' % rawdata[i+3:j])
        if not match:
            return -1
        if report:
            j = match.start(0)
            self.unknown_decl(rawdata[i+3: j])
        return match.end(0)

由於錯誤的HTML代碼未正確關閉,使得流程判斷既沒有進入 if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}:
elif sectName in {"if", "else", "endif"}: ,而是報出一個錯誤 UserWarning: unknown status keyword 'end ' in marked section warnings.warn(msg) 後執行到 if not match ,而此時 match 未申明,故而觸發錯誤。

此BUG存在於多個Python版本中,修複方法,在 if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}: 之前預定義一個match變數即可:
https://github.com/python/cpython/blob/bb9ddee3d4e293f0717f8c167afdf5749ebf843d/Lib/_markupbase.py#L152

    def parse_marked_section(self, i, report=1):
        rawdata= self.rawdata
        assert rawdata[i:i+3] == '<![', "unexpected call to parse_marked_section()"
        sectName, j = self._scan_name( i+3, i )
        if j < 0:
            return j
        match = None
        if sectName in {"temp", "cdata", "ignore", "include", "rcdata"}:
            # look for standard ]]> ending
            match= _markedsectionclose.search(rawdata, i+3)
        elif sectName in {"if", "else", "endif"}:
            # look for MS Office ]> ending
            match= _msmarkedsectionclose.search(rawdata, i+3)
        else:
            self.error('unknown status keyword %r in marked section' % rawdata[i+3:j])
        if not match:
            return -1
        if report:
            j = match.start(0)
            self.unknown_decl(rawdata[i+3: j])
        return match.end(0)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在腳本中如何進行Django的運行 if __name__ == '__main__': import os import django os.environ.setdefault("DJANGO_SETTINGS_MODULE","orm69.settings") django.setup() #... ...
  • SpringBoot自定義異常以及異常處理 在web項目中,我們可能需要給前端返回不同的提示碼。例如:401表示沒有許可權,500代表位置異常,200代表請求成功等。但是這些提示碼遠遠不能滿足我們返回給前端的提示,可能還需要我們自定義錯誤碼給前端,前端獲取相應的錯誤碼以及錯誤信息,展示到頁面中。 使用 ...
  • 實現一個函數,使其能將字元串轉換成整數。 首先,該函數會根據需要丟棄無用的開頭空格字元,直到尋找到第一個非空格的字元為止。 當我們尋找到的第一個非空字元為正或者負號時,則將該符號與之後面儘可能多的連續數字組合起來,作為該整數的正負號;假如第一個非空字元是數字,則直接將其與之後連續的數字字元組合起來, ...
  • 1 搭建springboot 2 配置pom依賴(springboot版本為2.1.3) 3 寫一個controller類 4 SpringBootApplication中增加註解ComponentScan,並啟動 5 啟動測試 http://localhost:8080/index 5.1 開啟驗 ...
  • 在寫代碼過程中,我們修改代碼中寄存器的值,但是有時寄存器的數據較多,手動修改容易出現錯誤而且花費的時間長 這是一段寄存器的配置值: 0x00, 0x34 0x35, 0x25 0x10, 0xd4 0xf5, 0xa5 0x00, 0x34 0x3a, 0xff 0x00, 0x00 0x34, 0 ...
  • 我一直都有一個疑問,豐巢業務服務的生產環境jvm參數設置是禁止system.gc的,也就是開啟設置:-XX:+DisableExplicitGC,但是生產環境卻從來沒有出現過堆外記憶體溢出的情況。說明一下,豐巢使用了阿裡開源的dubbo,而dubbo底層通信預設情況下使用了3.2.5.Final版本的 ...
  • 在實際開發過程中,我們有時候會遇到主線程調用子線程,要等待子線程返回的結果來進行下一步動作的業務。 那麼怎麼獲取子線程返回的值呢,我這裡總結了三種方式: Entity類 主線程等待(這個一看代碼便知曉,沒什麼問題) Join方法阻塞當前線程以等待子線程執行完畢 通過實現Callable介面 這裡又分 ...
  • 一、冒泡排序 冒泡排序(Bubble Sort)是一種交換排序,它的基本思想是:兩兩比較相鄰記錄的關鍵字,如果反序則交換,直到沒有反序的記錄為止。 進一步理解為(假設由小到大排序):對於給定的n個記錄,從第一個記錄開始依次對相鄰的兩個記錄進行比較,當前面的記錄大於後面的記錄時,交換位置,進行一輪比較 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...