爬取w3c課程—Urllib庫使用_ZenDei技術網路在線

爬取w3c課程—Urllib庫使用

-Advertisement-

爬蟲原理瀏覽器獲取網頁內容的步驟：瀏覽器提交請求、下載網頁代碼、解析成頁面，爬蟲要做的就是：簡單例子：利用Urllib庫爬取w3c網站教程 1、urllib的request模塊可以非常方便地抓取URL內容，也就是發送一個GET請求到指定的頁面，然後返回HTTP的響應：例如，對百度的一個w3c發送 ...

爬蟲原理

瀏覽器獲取網頁內容的步驟：瀏覽器提交請求、下載網頁代碼、解析成頁面，爬蟲要做的就是：

模擬瀏覽器發送請求：通過HTTP庫向目標站點發起請求Request，請求可以包含額外的header等信息，等待伺服器響應
獲取響應內容：如果伺服器正常響應，會得到一個響應Response，響應的內容便是所要獲取的頁面內容，類型可能是HTML,Json字元串，二進位數據（圖片或者視頻）等
解析響應內容：獲取響應內容後，解析各種數據，如：解析html數據：正則表達式，第三方解析庫，解析json數據：json模塊，解析二進位數據:進一步處理或以wb的方式寫入文件
保存數據：保存為文本，資料庫，或者保存特定格式的文件

簡單例子：利用Urllib庫爬取w3c網站教程

1、urllib的request模塊可以非常方便地抓取URL內容，也就是發送一個GET請求到指定的頁面，然後返回HTTP的響應：例如，對百度的一個w3c發送一個GET請求，並返迴響應：

# coding:utf-8
import urllib.request

my_url='https://www.w3cschool.cn/tutorial'#要獲取課程的網址
page = urllib.request.urlopen(my_url)
html = page.read().decode('utf-8')
print(html)

把發送一個GET請求到指定的頁面，返回HTTP的響應寫成一個函數：

def get_html(url):#訪問url
    page = urllib.request.urlopen(url)
    html = page.read().decode('utf-8')
    return html

將返回如下內容，這與在瀏覽器查看源碼看到的是一樣的，接下來可以根據返回的內容進行解析：

2、利用正則表達式的分組提取課程名稱、課程簡介、課程鏈接，導入python裡面的re庫

reg = r'<a href="([\s\S]*?)" title=[\s\S]*?<h4>(.+)</h4>\n<p>([\s\S]*?)</p>'#運用正則表達式，分組提取數據
reg_tutorial = re.compile(reg)#編譯一下正則表達式，運行更快
tutorial_list = reg_tutorial.findall(get_html(my_url))#進行匹配，

到現在代碼如下：

# coding:utf-8
import urllib.request
import re


my_url='https://www.w3cschool.cn/tutorial'#要獲取課程的網址


def get_html(url):#訪問url
    page = urllib.request.urlopen(url)
    html = page.read().decode('utf-8')
    return html

reg = r'<a href="([\s\S]*?)" title=[\s\S]*?<h4>(.+)</h4>\n<p>([\s\S]*?)</p>'#運用正則表達式，分組提取數據
reg_tutorial = re.compile(reg)#編譯一下正則表達式，運行更快
tutorial_list = reg_tutorial.findall(get_html(my_url))#進行匹配

print("一共有課程數：" + str(len(tutorial_list)))#列印出有多少課程

for i in range(len(tutorial_list)):#把課程名稱、課程簡介、課程鏈接寫到excel，python裡面excel從0開始計算
    print (tutorial_list[i])

運行，列印結果：

3、保存數據，保存數據到excel裡面，用到excel第三方庫xlwt，也可以只用openpyxl，庫的使用可以參照官網：http://www.python-excel.org/

本次需要新建一個Excel，把課程名稱、課程簡介、課程鏈接寫到Excel裡面，課程鏈接用xlwt.Formula設置超鏈接，Excel第一行設置為宋體，加粗，寫一些課程內容外的東西

import xlwt
excel_path=r'tutorial.xlsx'#excel的路徑
book = xlwt.Workbook(encoding='utf-8', style_compression=0)# 創建一個Workbook對象，這就相當於創建了一個Excel文件
sheet = book.add_sheet('課程',cell_overwrite_ok=True)# 添加表
style = xlwt.XFStyle()#初始化樣式
font = xlwt.Font()#創建字體
font.name = '宋體'#指定字體名字
font.bold = True#字體加粗
style.font = font#將該font設定為style的字體
sheet.write(0, 0, '序號',style)#用之前的style格式寫第一行，行、列從0開始計算
sheet.write(0, 1, '課程',style)
sheet.write(0, 2, '簡介',style)
sheet.write(0, 3, '課程鏈接',style)

寫課程內容到Excel

for i in range(len(tutorial_list)):#把課程名稱、課程簡介、課程鏈接寫到excel，python裡面excel從0開始計算
    print (tutorial_list[i])
    sheet.write(i+1, 0, i+1)
    sheet.write(i+1, 1, tutorial_list[i][1])
    sheet.write(i+1, 2, tutorial_list[i][2])
    sheet.write(i+1, 3, xlwt.Formula("HYPERLINK(" +'"'+"https:" + tutorial_list[i][0]+'"'+')'))#把鏈接寫進去，並用xlwt.Formula設置超鏈接
    
book.save(excel_path)#保存到excel

Excel內容：

全部代碼如下：

# coding:utf-8
import urllib.request
import re
import xlwt
excel_path=r'tutorial.xlsx'#excel的路徑
my_url='https://www.w3cschool.cn/tutorial'#要獲取課程的網址
book = xlwt.Workbook(encoding='utf-8', style_compression=0)# 創建一個Workbook對象，這就相當於創建了一個Excel文件
sheet = book.add_sheet('課程',cell_overwrite_ok=True)# 添加表
style = xlwt.XFStyle()#初始化樣式
font = xlwt.Font()#創建字體
font.name = '宋體'#指定字體名字
font.bold = True#字體加粗
style.font = font#將該font設定為style的字體
sheet.write(0, 0, '序號',style)#用之前的style格式寫第一行，行、列從0開始計算
sheet.write(0, 1, '課程',style)
sheet.write(0, 2, '簡介',style)
sheet.write(0, 3, '課程鏈接',style)

def get_html(url):#訪問url
    page = urllib.request.urlopen(url)
    html = page.read().decode('utf-8')
    return html

reg = r'<a href="([\s\S]*?)" title=[\s\S]*?<h4>(.+)</h4>\n<p>([\s\S]*?)</p>'#運用正則表達式，分組提取數據
reg_tutorial = re.compile(reg)#編譯一下正則表達式，運行更快
tutorial_list = reg_tutorial.findall(get_html(my_url))#進行匹配

print("一共有課程數：" + str(len(tutorial_list)))#列印出有多少課程

for i in range(len(tutorial_list)):#把課程名稱、課程簡介、課程鏈接寫到excel，python裡面excel從0開始計算
    print (tutorial_list[i])
    sheet.write(i+1, 0, i+1)
    sheet.write(i+1, 1, tutorial_list[i][1])
    sheet.write(i+1, 2, tutorial_list[i][2])
    sheet.write(i+1, 3, xlwt.Formula("HYPERLINK(" +'"'+"https:" + tutorial_list[i][0]+'"'+')'))#把鏈接寫進去，並用xlwt.Formula設置超鏈接
    
book.save(excel_path)#保存到excel

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

原型鏈以及繼承的幾種方式

學習原型鏈前需要瞭解使用構造函數模式創建的對象實例，都有一個constructor(構造函數) 屬性，該屬性指向構造函數。 function Person (name, age, job) { this.name = name; this.age = age; this.job = job; th ...
js 任意元素解綁任意事件的相容代碼

hmtl代碼： <input type="button" value="按鈕" id="btn"/> <input type="button" value="幹掉第一個按鈕的事件" id="btn2"/> 解綁事件有三種: 註意:用什麼方式綁定事件,就應該用對應的方式解綁事件 1.解綁事件（IE 谷 ...
redux

redux 記錄一下 redux 的一些用法，如果想學習 redux，建議看 "官方文檔" ，另外推薦一本 "huzidaha" 寫的 "react小書" ，裡面講解了一些 react 和 redux 的原理。 start 運行如下命令，不瞭解 npx 的，可以看一下 "阮一峰的文章" 。然後安裝 ...
[VUE ERROR] Invalid default value for prop "slides": Props with type Object/Array must use a factory function to return the default value

錯誤原因：當給子組件設置 props 屬性時，如果參數類型是 Array 或 Object ，它的預設值必須是由工場函數返回，不能直接賦值錯誤代碼：正確代碼：註意事項：當是 Object 類型時，而且又使用箭頭函數時，如果設置預設值為空對象，必須加上括弧錯誤代碼：正確代碼： ...
node.js解析微信消息推送xml格式加密的消息

之前寫過一個解密json格式加密的，我以為xml的和json的差不多，是上上個星期五吧，我的同事也是在做微信公眾號裡面的消息推送解密，發現好像只能使用xml加密格式的發送到伺服器，我們去年也做過企業微信的那個消息推送的解密，真的是，感覺雖然都差不多，但是三者如果使用同樣的代碼的話完全不能復用，只是你 ...
淺談javascript和python語言的深拷貝

深拷貝：之前在開發中我遇到一個很大的bug，經過我多次調試之後我發現原本應該有保存數據的地方數據全部被清空，仔細一看發現原來是被人為刪除，明明操作的是一個副本，為什麼原本也會跟著一起被刪除呢？經過瞭解我發現深拷貝這個說法。深拷貝和淺拷貝在js以及python中都是存在的，指定一個數組然後 ...
不會python?那就換一種姿勢爬蟲！Java爬蟲技術總結

—本博客為原創內容，轉載需註明本人— 前幾天有個師妹將要畢業，需要準備畢業論文，但是論文調研需要數據資料，上知網一查，十幾萬條數據！指導老師讓她手動copy收集，十幾萬的數據手動copy要浪費多少時間啊，然後她就找我幫忙。我想了一下，寫個爬蟲程式去爬下來或許是個不錯的解決方案呢！之前一直聽其他人說爬 ...
漫漫優化路，總會錯幾步（記一次介面優化）

最近做了一個搜索介面的優化，反覆壓測了四次，終於達到要求了，記錄一下，晚上加個雞腿🍗 業務邏輯從OpenSearch中檢索出數據，然後各種填充組裝數據，最後返回邏輯看似很簡單，當初我也是這樣認為的，於是預估5天完成，最後前前後後開發、聯調、改bug直到上線差不多花了10天（當然這10天並不是只 ...