python批量爬取文檔_ZenDei技術網路在線

python批量爬取文檔

-Advertisement-

最近項目需要將批量鏈接中的pdf文檔爬下來處理，根據以下步驟完成了任務：參考資料： https://blog.csdn.net/zhrq95/article/details/79300411 https://blog.csdn.net/yllifesong/article/details/8104 ...

　　最近項目需要將批量鏈接中的pdf文檔爬下來處理，根據以下步驟完成了任務：

將批量下載鏈接copy到text中，每行1個鏈接；
再讀txt文檔構造url_list列表，利用readlines返回以行為單位的列表；
利用str的rstrip方法，刪除 string 字元串末尾的指定字元（預設為空格）；
調用getFile函數：
1. 通過指定分隔符‘/’對字元串進行切片，取list的最後一列即鏈接文檔名作為下載文件名。
2. 調用urlopen,調用read、write方法完成下載

　　參考資料：

https://blog.csdn.net/zhrq95/article/details/79300411
https://blog.csdn.net/yllifesong/article/details/81044619

 1 import urllib.request
 2 import os
 3 
 4 def getFile(url):
 5     file_name = url.split('/')[-1]
 6     u = urllib.request.urlopen(url)
 7     f = open(file_name, 'wb')
 8     block_sz = 8192
 9     while True:
10         buffer = u.read(block_sz)
11         if not buffer:
12             break
13         f.write(buffer)
14     f.close()
15     print("Sucessful to download" + " " + file_name)
16 
17 os.chdir(os.path.join(os.getcwd(), 'pdf_download'))
18 
19 f=open('E:/VGID_Text/url_list.txt')
20 url_list=f.readlines()
21 url_lst=[]
22 for line in url_list:
23     line=line.rstrip("\n")
24     getFile(line)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

九九乘法表，全js編寫，放入table表格帶入頁面渲染出來

就是把自己做出來的東西分享給大家 ...
js數組對象去重

轉: https://www.cnblogs.com/gaoht/p/9850449.html 在數組對象中去掉重覆的對象: eg: ...
Html5 Canvas介紹

1. 獲取繪圖上下文 var mycanvas = document.getElementById('mycanvas'); var context = mycanvas.getContext('2d'); 2. 繪圖函數註：x = positionX y= position Y w = widt ...
python世界中形影不離的一對情侶！你知道是哪對嗎？

input函數 input()是從控制台獲取用戶輸入的信息，不論用戶輸入的是什麼，input()都會返回字元串類型。 <變數> = input(<提示性文字>) a = input("請輸入你的年齡:") print(type(a)) Run and output! 請輸入你的年齡:25 <clas ...
springboot activiti 整合項目框架源碼 shiro 安全框架 druid 資料庫連接池

官網：www.fhadmin.org 工作流模塊 1.模型管理：web線上流程設計器、預覽流程xml、導出xml、部署流程 2.流程管理：導入導出流程資源文件、查看流程圖、根據流程實例反射出流程模型、激活掛起 3.運行中流程：查看流程信息、當前任務節點、當前流程圖、作廢暫停流程、指派待辦人 4. ...
2019-02-10 擴展Python控制台實現中文反饋信息

"中文編程"知乎專欄 "原文地址" 參考了周蟒的實現, 運行效果如下: 完整源碼在: "解釋器.py" 相關源碼如下, 即改寫方法. 僅為演示之用, 直接用了字元串替換.: 定製貌似更為合適, 還需研究如何實現. 參考資料 "周蟒 zhpy" ...
c++讀取ini的Section節名

// ConsoleApplication1.cpp : 定義控制台應用程式的入口點。// #include "stdafx.h"#include "iostream" using namespace std; const short int max_Section= 20;const short ...
Python中的那些“坑”

1.哪個是True，哪個是False？這裡要看三組代碼： # 第一組： >>>a=256 >>>b = 256 >>>a is b # 第二組： >>>a = 257 >>>b = 257 >>>a is b # 第三組： >>>a = 256, b = 256 >>>a is b 問題來了，這三 ...