想入門Python爬蟲？三步到位，輕鬆入門

-Advertisement-

是不是很想知道那三步？其實很簡單！ 1、打開網頁，獲取源碼 2、獲取圖片 3、保存圖片地址與下載圖片打開網頁，獲取源碼 *由於多人同時爬蟲某個網站時候，會造成數據冗餘，網站崩潰，所以一些網站是禁止爬蟲的，會返回403拒絕訪問的錯誤信息。獲取不到想要的內容/請求失敗/IP容易被封……..等 *解 ...

是不是很想知道那三步？

其實很簡單！

1、打開網頁，獲取源碼

2、獲取圖片

3、保存圖片地址與下載圖片

打開網頁，獲取源碼

*由於多人同時爬蟲某個網站時候，會造成數據冗餘，網站崩潰，所以一些網站是禁止爬蟲的，會返回403拒絕訪問的錯誤信息。----獲取不到想要的內容/請求失敗/IP容易被封……..等

*解決辦法：偽裝——不告訴網站我是一個腳本，告訴它我是一個瀏覽器。（加上隨便一個瀏覽器的頭部信息，偽裝成瀏覽器），由於是簡單例子，那我們就不搞這些騷操作了。

獲取圖片

*Find函數：只去找第一個目標，查詢一次

*Find_all函數：找到所有的相同的目標。

這裡可能有一個解析器的問題，我們也不說了，出問題的同學百度一堆解決辦法。

保存圖片地址與下載圖片

a.使用urlib---urlretrieve下載（保存位置：如果保存在跟*.py文件同一個地方，那麼只需要文件夾名稱即可，如果是其他地方，那麼得寫絕對路徑。）

算了，不說那麼多廢話，既然是個簡單例子，那我就直接貼代碼吧。相信也沒多少人呢看不懂。

提一句：用BeautifulSoup就可以不用正則；爬蟲用正則，Bs4, xpath三種選擇一個就好。當然也可以混合使用，也還有其他種。

掌握上面的爬蟲三步驟，一些簡單的網站都可以直接搞定！

下麵用一個小案例吧！

環境

需求：python3x pycharm

模塊：urllib 、urllib2、bs4、re

代碼：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python Django框架筆記（六）：模板

（一）{%%}和{{ }} {%%}：裡面的是模板標簽，{{}}裡面的是變數 {%%}標簽：只有模板變數、字元串、整數和小數可以作為 {% ifequal %} 標簽的參數,像字典、列表、布爾類型的是不能用在 {% ifequal %}中的，例如{% ifequal test [1,2,3] %} ...
tomcat中如何讀取properties文件

最近正在努力學習中。。。我會把我每天學到的知識上傳到我的博客中，希望和大家交流，勿噴》、首先要明白普通java項目跟伺服器中的路徑是不同的，普通java項目尋找路徑直接寫絕對路徑就可以，但是伺服器上的路徑不能直接寫你的eclips中的路徑。當你的servlet類編譯以後，它會編譯到你的tomca ...
Python書單推薦一波【內含PDF下載地址】

Python 之所以這麼流行得益於它適用於很多不同領域，目前 Python 使用最廣泛的領域包括有 Python Web（後端）開發、數據分析挖掘、網路爬蟲、機器學習人工智慧、運維開發等等。不管你選擇哪個方向，把Python基礎學牢有利於你在該領域更好的施展拳腳。入門系列《Python編程：從入 ...
Java 隨心筆記5

1.修改 list.get(i).name = name_1;一、封裝 1.成員變數增加private，在其他類訪問成員變數，無法訪問 2.無關成員方法，因為方法還用public來修飾作用： 1、提高了代碼的復用性。 2、隱藏了實現細節，還要對外提供可以訪問的方式。便於調用者的使用。這是核心之一， ...
二分搜索樹的深度優先遍歷和廣度優先遍歷

二分搜索樹的特點二分搜索樹首先是一個二叉樹，其次其必須滿足的條件是：每個節點的鍵值必須大於其左子節點，每個節點的鍵值必須小於其右子節點，這樣以左右孩子為根的子樹仍為二分搜索樹，需要註意的是，二分搜索樹不一定是一顆完全二叉樹。深度優先遍歷深度優先遍歷的基本思想：對每一個可能的分支路徑深入到不能再 ...
《R數據挖掘入門》一書的部分彩色插圖

有色彩的圖更加令人振奮。第8章圖8.4 圖8.5 圖8.6 圖8.7 ...
python重要模塊之subprocess模塊

python重要模塊之subprocess模塊我們經常要通過python去執行系統的命令或者腳本，系統的shell命令是獨立於你的python進程之外的，每執行一條命令，就相當於發起了一個新的進程，通過python調用系統命令或腳本的模塊。之前我們也學到過和系統交互的模塊 os模塊除了so.s ...
python__基礎 : 類屬性,類方法,靜態方法

類屬性定義在類裡面,方法外面的屬性,一般屬於這個類,如下麵的 num 就是類屬性: 類屬性用實例.類屬性或者類.類屬性都可以訪問, 如 a = Test() 用 a.num 可以訪問 ,但是如果這個實例有一個實例屬性 self.num 那麼這樣訪問的其實是 self.num , 所以一般用 ...