線上上閱讀文檔的時候,有沒有想將它抓取到本地,以備沒有網的時候閱讀只需? 先上指令: 你會看到如下的頁面: 過段時間,就會抓取完成,併在本地生成了一個相關聯的目錄。 這個命令就是 wget。它是開發者在Linux下麵非常喜歡使用的下載指令。經常,我們會看到一些技術文檔在指導你下載安裝包的時候,也會用 ...
線上上閱讀文檔的時候,有沒有想將它抓取到本地,以備沒有網的時候閱讀只需?
先上指令:
$ wget --user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/53.0.2785.143 Chrome/53.0.2785.143 Safari/537.36" -p -np -k -r --wait=1 http://www.tornadoweb.org/en/stable/
你會看到如下的頁面:
過段時間,就會抓取完成,併在本地生成了一個相關聯的目錄。
這個命令就是 wget。它是開發者在Linux下麵非常喜歡使用的下載指令。經常,我們會看到一些技術文檔在指導你下載安裝包的時候,也會用到,比如: wget xxx.tar.gz 之類的。
我們可以通過 man wget 或 wget -h 來查閱 wget 的參數。下麵挑出幾個常用的參數介紹下。
HTTP 相關的:
--http-user=USER 設置 http 用戶名為 USER。
--http-password=PASS 設置 http 密碼為 PASS。
--no-cache 不在伺服器上緩存數據。
-U, --user-agent=AGENT 標識為 AGENT 而不是 Wget/VERSION。
--no-http-keep-alive 禁用 HTTP keep-alive (永久連接)。
--no-cookies 不使用 cookies。
--load-cookies=FILE 會話開始前從 FILE 中載入 cookies。
--save-cookies=FILE 會話結束後保存 cookies 至 FILE。
--keep-session-cookies 載入並保存會話 (非永久) cookies。
--post-data=STRING 使用 POST 方式;把 STRING 作為數據發送。
--post-file=FILE 使用 POST 方式;發送 FILE 內容。
--content-disposition 當選中本地文件名時
允許 Content-Disposition 頭部 (尚在實驗)。
--auth-no-challenge 發送不含伺服器詢問的首次等待
的基本 HTTP 驗證信息。
下載相關的:
-w, --wait=SECONDS 等待間隔為 SECONDS 秒。
--waitretry=SECONDS 在獲取文件的重試期間等待 1..SECONDS 秒。
--random-wait 獲取多個文件時,每次隨機等待間隔
0.5*WAIT...1.5*WAIT 秒。
-O --output-document=FILE 將文檔寫入 FILE。
遞歸下載:
-r, --recursive 指定遞歸下載。
-p, --page-requisites 下載所有用於顯示 HTML 頁面的圖片之類的元素。
-k, --convert-links 讓下載得到的 HTML 或 CSS 中的鏈接指向本地文件。
-np, --no-parent 不追溯至父目錄。
參考文檔:
http://linux.51yip.com/search/wget