“GIS DICTIONARY A-Z” 查詢頁面開發（1）——bs4與詞典數據處理

-Advertisement-

第一天的工作：找到數據源，數據下載，數據處理。數據源："http://webhelp.esri.com/arcgisserver/9.3/java/geodatabases/definition_frame.htm"。數據下載：右擊網頁另存為。數據處理：bs4 + 對比觀察 + chrome檢 ...

第一天的工作：找到數據源，數據下載，數據處理。

數據源："http://webhelp.esri.com/arcgisserver/9.3/java/geodatabases/definition_frame.htm"。

數據下載：右擊網頁另存為。

數據處理：bs4 + 對比觀察 + chrome檢查元素 + 寫function寫方法

一、bs4部分

from bs4 import BeautifulSoup
soup = BeautifulSoup(open('GIS_dictionary.html','r',encoding='UTF-8'),features="lxml")
#tag標簽
GlossaryTerm_list = soup.find_all(attrs={'class':'GlossaryTerm'})#完整，1729個
Definition_list = soup.find_all(attrs={'class':'Definition'})#缺<ol>

二、對比觀察 + 檢查元素

在準備GlossaryTerm和Definition的一一對應時發現二者的數量對不上。觀察分析後確定是網站的前端代碼對不同形式的Definition有不同的處理方法：對有多項釋義的辭彙使用了<ol>有序列表，它不能直接被bs4的屬性查找選擇到。

三、寫方法

第一塊：因為片語和解釋在同一前端代碼段內，故使用".text"和".a.attrs['name']"完成第一部分的對應。

'''
    完成Definition_list中已有的1610個解釋的文本獲取和詞語對應
'''
defList = []
for i in Definition_list:
    defi = i.text.strip('\n')#修飾definition
    word = i.a.attrs['name'].replace('_',' ')#修飾glossary
    defList.append([defi,word])  #抓取所有解釋和詞語在小列表，再存入大列表
    if (i.text==''):                #確保沒有definition為空
        print(i.a.attrs['name'])
#defList示例[["defi",'word'],["",''],["",''],["",'']...]

第二塊：定義函數func_n()，清洗<ol>標簽內的數據。其中使用了通過中間媒介list修改string的技巧和if篩查的方法。最後對應片語和相應的解釋，完成項目的數據準備工作。明日計劃：資料庫。

'''
    <ol>標簽，將defList補充完整，從Ctrl+F得到共有119個<ol>標簽
    "1610+119=1729",成功！1729 == len(GlossaryTerm_list)
'''
#定義函數func_n
#格式化<ol>的definition：首位加"1."；將多個連續的"\n"收為一個；在"\n"後添加"2."等序號
def func_n(txt):
    lstTxt = list(txt)  #因為不能直接修改string，故將其打碎為list進行操作
    n = len(lstTxt)
    newlstTxt = ["1."]  #添加首位的"1."
    count = 2
    for i in range(n-1):
        if lstTxt[i]=='\n' and lstTxt[i]!=lstTxt[i+1] and lstTxt[i+1]!=' ':  #保留單獨的"\n"，在其後添加序號；排除'\n'+' '的組合
            newlstTxt.append('\n')
            newlstTxt.append(str(count))
            newlstTxt.append('.')
            count += 1
        if lstTxt[i]!='\n' and lstTxt[i]!=lstTxt[i+1] and lstTxt[i]!='\t':  #放棄連續多個的"\n"、放棄所有的'\t'
            newlstTxt.append(lstTxt[i])
    newlstTxt.append(lstTxt[-1])    #添加for迴圈里沒有的最後一位
    strTxt = ''.join(newlstTxt)     #''.join()函數將list變為string
    return strTxt
#實操
ol_list = soup.find_all('ol')
for j in ol_list:
    defi_ol = j.text.strip('\n')
    defi_ol = func_n(defi_ol)
    word_ol = j.a.attrs['name'].replace('_',' ')
    defList.append([defi_ol,word_ol])

詞典數據效果：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

url編碼本質

url編碼本質其實url本質就是將中文字元串進行 ,然後得到編碼後的對象轉換字元串去掉開頭的以及末尾的 ,然後再將轉換成 ,再將裡面內容變成最後將字元串變成舉例 python中調用庫進行url編碼和解碼編碼解碼 ...
鬆軟科技web課堂:JavaScript 數組迭代方法

數組迭代方法對每個數組項進行操作，聽著挺高深，其實，就是對數組對象一次性逐一進行一種操作的一種叫法。（文章來源:www.sysoft.net.cn,加v:15844800162深度交流） Array.forEach() forEach() 方法為每個數組元素調用一次函數（回調函數）。實例 var ...
HTML顏色名稱大全

所有瀏覽器支持的顏色名稱，所有現代瀏覽器都支持以下140種顏色名稱（單擊顏色名稱或十六進位值，以將顏色視為背景顏色以及不同的文本顏色）：有關HTML顏色的完整概述，請訪問我們的顏色教程。 ...
CSS animation屬性

定義和用法 animation屬性是下列屬性的一個縮寫屬性： animation-name animation-duration animation-timing-function animation-delay animation-iteration-count animation-directi ...
Maven 項目在 Eclipse 的創建配置

第1步 New 菜單 Other.. -> Maven -> Maven Project ，然後單擊 Next 。如下圖所示第2步在New Maven Project嚮導中，選擇Create a simple project並指定項目保存的目錄(如：F:\worksp\Maven\webproj ...
大型網站多級緩存的分層架構

在互聯網高速發展的今天，緩存技術被廣泛地應用。無論業內還是業外，只要是提到性能問題，大家都會脫口而出“用緩存解決”。這種說法帶有片面性，甚至是一知半解，但是作為專業人士的我們，需要對緩存有更深、更廣的瞭解。緩存技術存在於應用場景的方方面面。從瀏覽器請求，到反向代理伺服器，從進程內緩存到分散式緩存 ...
Head First設計模式——策略模式

1、繼承帶來的擴展和復用問題繼承作為面向對象的三大要素(封裝、繼承、多態)之一為什麼會帶來問題，問題如何解決然後形成一種設計模式，head frist設計模式書中以鴨子作為例子講解什麼情況下繼承的方式會帶來問題。首先有各種各樣的鴨子，那麼自然想到各種鴨子繼承自一個父類：父類為Duck，現有綠頭鴨G ...
SVN中怎樣忽略當前文件不提交

場景在使用SVN進行版本管理時，有時一些自動生成的文件比如證書等，在每臺電腦上都會不同，如果將其提交，則會衝突。怎樣將指定的文件或者指定文件尾碼的文件忽略提交。註：博客主頁： https://blog.csdn.net/badao_liumang_qizhi 關註公眾號霸道的程式猿獲取編程 ...