“GIS DICTIONARY A-Z” 查詢頁面開發(1)——bs4與詞典數據處理

来源:https://www.cnblogs.com/hsh17/archive/2019/10/19/11701686.html
-Advertisement-
Play Games

第一天的工作:找到數據源,數據下載,數據處理。 數據源:"http://webhelp.esri.com/arcgisserver/9.3/java/geodatabases/definition_frame.htm"。 數據下載:右擊網頁另存為。 數據處理:bs4 + 對比觀察 + chrome檢 ...


第一天的工作:找到數據源,數據下載,數據處理。

數據源:"http://webhelp.esri.com/arcgisserver/9.3/java/geodatabases/definition_frame.htm"。

數據下載:右擊網頁另存為。

數據處理:bs4 + 對比觀察 + chrome檢查元素 + 寫function寫方法

 一、bs4部分

from bs4 import BeautifulSoup
soup = BeautifulSoup(open('GIS_dictionary.html','r',encoding='UTF-8'),features="lxml")
#tag標簽
GlossaryTerm_list = soup.find_all(attrs={'class':'GlossaryTerm'})#完整,1729個
Definition_list = soup.find_all(attrs={'class':'Definition'})#缺<ol>

二、對比觀察 + 檢查元素

在準備GlossaryTerm和Definition的一一對應時發現二者的數量對不上。觀察分析後確定是網站的前端代碼對不同形式的Definition有不同的處理方法:對有多項釋義的辭彙使用了<ol>有序列表,它不能直接被bs4的屬性查找選擇到。

三、寫方法

第一塊:因為片語和解釋在同一前端代碼段內,故使用".text"和".a.attrs['name']"完成第一部分的對應。

'''
    完成Definition_list中已有的1610個解釋的文本獲取和詞語對應
'''
defList = []
for i in Definition_list:
    defi = i.text.strip('\n')#修飾definition
    word = i.a.attrs['name'].replace('_',' ')#修飾glossary
    defList.append([defi,word])  #抓取所有解釋和詞語在小列表,再存入大列表
    if (i.text==''):                #確保沒有definition為空
        print(i.a.attrs['name'])
#defList示例[["defi",'word'],["",''],["",''],["",'']...]

第二塊:定義函數func_n(),清洗<ol>標簽內的數據。其中使用了通過中間媒介list修改string的技巧和if篩查的方法。最後對應片語和相應的解釋,完成項目的數據準備工作。明日計劃:資料庫。

'''
    <ol>標簽,將defList補充完整,從Ctrl+F得到共有119個<ol>標簽
    "1610+119=1729",成功!1729 == len(GlossaryTerm_list)
'''
#定義函數func_n
#格式化<ol>的definition:首位加"1.";將多個連續的"\n"收為一個;在"\n"後添加"2."等序號
def func_n(txt):
    lstTxt = list(txt)  #因為不能直接修改string,故將其打碎為list進行操作
    n = len(lstTxt)
    newlstTxt = ["1."]  #添加首位的"1."
    count = 2
    for i in range(n-1):
        if lstTxt[i]=='\n' and lstTxt[i]!=lstTxt[i+1] and lstTxt[i+1]!=' ':  #保留單獨的"\n",在其後添加序號;排除'\n'+' '的組合
            newlstTxt.append('\n')
            newlstTxt.append(str(count))
            newlstTxt.append('.')
            count += 1
        if lstTxt[i]!='\n' and lstTxt[i]!=lstTxt[i+1] and lstTxt[i]!='\t':  #放棄連續多個的"\n"、放棄所有的'\t'
            newlstTxt.append(lstTxt[i])
    newlstTxt.append(lstTxt[-1])    #添加for迴圈里沒有的最後一位
    strTxt = ''.join(newlstTxt)     #''.join()函數將list變為string
    return strTxt
#實操
ol_list = soup.find_all('ol')
for j in ol_list:
    defi_ol = j.text.strip('\n')
    defi_ol = func_n(defi_ol)
    word_ol = j.a.attrs['name'].replace('_',' ')
    defList.append([defi_ol,word_ol])

 詞典數據效果:

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • url編碼本質 其實url本質就是將中文字元串進行 ,然後得到編碼後的對象轉換字元串去掉開頭的 以及末尾的 ,然後再將 轉換成 ,再將裡面內容 變成 最後將字元串 變成 舉例 python中調用庫進行url編碼和解碼 編碼 解碼 ...
  • 數組迭代方法對每個數組項進行操作,聽著挺高深,其實,就是對數組對象一次性逐一進行一種操作的一種叫法。(文章來源:www.sysoft.net.cn,加v:15844800162深度交流) Array.forEach() forEach() 方法為每個數組元素調用一次函數(回調函數)。 實例 var ...
  • 所有瀏覽器支持的顏色名稱,所有現代瀏覽器都支持以下140種顏色名稱(單擊顏色名稱或十六進位值,以將顏色視為背景顏色以及不同的文本顏色): 有關HTML顏色的完整概述,請訪問我們的顏色教程。 ...
  • 定義和用法 animation屬性是下列屬性的一個縮寫屬性: animation-name animation-duration animation-timing-function animation-delay animation-iteration-count animation-directi ...
  • 第1步 New 菜單 Other.. -> Maven -> Maven Project ,然後單擊 Next 。如下圖所示 第2步 在New Maven Project嚮導中,選擇Create a simple project並指定項目保存的目錄(如:F:\worksp\Maven\webproj ...
  • 在互聯網高速發展的今天,緩存技術被廣泛地應用。無論業內還是業外,只要是提到性能問題,大家都會脫口而出“用緩存解決”。 這種說法帶有片面性,甚至是一知半解,但是作為專業人士的我們,需要對緩存有更深、更廣的瞭解。 緩存技術存在於應用場景的方方面面。從瀏覽器請求,到反向代理伺服器,從進程內緩存到分散式緩存 ...
  • 1、繼承帶來的擴展和復用問題 繼承作為面向對象的三大要素(封裝、繼承、多態)之一為什麼會帶來問題,問題如何解決然後形成一種設計模式,head frist設計模式書中以鴨子作為例子講解什麼情況下繼承的方式會帶來問題。首先有各種各樣的鴨子,那麼自然想到各種鴨子繼承自一個父類:父類為Duck,現有綠頭鴨G ...
  • 場景 在使用SVN進行版本管理時,有時一些自動生成的文件比如證書等,在每臺電腦上都會不同,如果將其提交,則會衝突。 怎樣將指定的文件或者指定文件尾碼的文件忽略提交。 註: 博客主頁: https://blog.csdn.net/badao_liumang_qizhi 關註公眾號霸道的程式猿 獲取編程 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...