本文使用簡單的面向過程的編程思想,更容易理解。 說明: 本文使用了簡單的模塊:requests和re模塊,當然也可以使用urlib模塊。 開發環境是:Python3.5 開發工具:VsCode 代碼如下: vscode結果如下圖所示: 本地文件如圖所示: ...
本文使用簡單的面向過程的編程思想,更容易理解。
說明:
本文使用了簡單的模塊:requests和re模塊,當然也可以使用urlib模塊。
開發環境是:Python3.5
開發工具:VsCode
代碼如下:
1 import requests 2 import re 3 #Python學習交流群:548377875 4 #迴圈製造網頁 5 for page in range(1,2): #這裡預設爬取了一頁,爬取多頁修改此處即可 6 url='http://www.ygdy8.net/html/gndy/oumei/list_7_'+str(page)+'.html' 7 html=requests.get(url) #請求網頁 8 html.encoding='gb2312' #修改編碼格式,根據網頁上的要求修改 9 dyData=re.findall('<a href="(.*?)" class=',html.text) #使用re表達式獲取網頁代碼 10 11 for m in dyData: 12 xqUrl='http://www.ygdy8.net'+m 13 #獲取網頁源代碼 14 html2=requests.get(xqUrl) 15 html2.encoding='gb2312' 16 try: 17 dyLink=re.findall('<a href="(.*?)">.*?</a></td>',html2.text)[0] 18 print(dyLink) 19 except: 20 print('沒有匹配到信息') 21 22 with open('X:\\Users\\zhaomeng\\Desktop\\1234\\111.txt','a+')as ff: #寫入本地文件夾 23 ff.write(dyLink+'\n')
vscode結果如下圖所示:
本地文件如圖所示: