Python爬蟲初學者學習筆記(帶註釋)

来源:http://www.cnblogs.com/mrht/archive/2017/05/23/6896315.html
-Advertisement-
Play Games

一,安裝編程工具併進入編程界面 首先去https://www.continuum.io/downloads/網站下載Anaconda工具並安裝;打開cmd,輸入jupyter notebook並回車(win7),他會自動幫你打開編輯界面(基於瀏覽器的);點擊new按鈕新建一個Python3的編輯框, ...


一,安裝編程工具併進入編程界面

首先去https://www.continuum.io/downloads/網站下載Anaconda工具並安裝;打開cmd,輸入jupyter notebook並回車(win7),他會自動幫你打開編輯界面(基於瀏覽器的);點擊new按鈕新建一個Python3的編輯框,他會彈出一個新視窗,好了現在可以敲代碼了。

二,爬取整個頁面

  1. import requests          #導入requests模塊
  2. res = requests.get('http://study.163.com/')        #調用模塊中的get方法,以網易雲課堂為例
  3. print(res.text);          #列印整個頁面內容

三,爬取指定標簽的文本from bs4 import BeautifulSoup         #導入BeautifulSoup模塊

  1. html_sample = '<!DOCTYPE html><html><head><meta charset="utf-8">\
  2. <title>文檔標題</title></head><body><a id="a1" class="c" href="#">測試數據1</a>\
  3. <a id="a2" class="c" href="##">測試數據2</a>\
  4. </body></html>'        #html_sample變數模擬你讀取的整個頁面內容,“\”符號在編輯框換行時鏈接字元串
  5. soup = BeautifulSoup(html_sample,'html.parser')        #爬取頁面的所有文本
  6. a=soup.select('a')      #篩選出所有的a標簽和對應內容,返回的是個數組
  7. b=soup.select('#a1')      #篩選id為a1的標簽和對應內容
  8. c=soup.select('.c')      #篩選class為c的標簽和對應內容,返回的是個數組
  9. print(a)         #列印a標簽文本,帶標簽
  10. print(a[0])         #列印第一條a標簽文本,帶標簽
  11. print(a[0].text)         #列印第一條a標簽文本,不帶標簽
  12. for aa in a:
  13.     print(aa.text)        #逐條列印a中的文本,不帶標簽
  14.     print(aa['href'])       #逐條列印a中的鏈接

持續更新中……


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 第一部份:一般指令模式可用的按鈕說明,游標移動、複製粘貼、搜尋取代等 一、移動游標的方法h 或 向左方向鍵(←) 游標向左移動一個位元組j 或 向下方向鍵(↓) 游標向下移動一個位元組k 或 向上方向鍵(↑) 游標向上移動一個位元組l 或 向右方向鍵(→) 游標向右移動一個位元組 [Ctrl] + [f] ...
  • ———————————————————————————————————————————— 設計要求: 在8位8端的數位管上動態顯示76543210,快速顯示時人眼看到的效果為同時亮起 ———————————————————————————————————————————— 實現目標: ——————— ...
  • Linux基礎 學習目標 1、瞭解Linux的簡介與安裝 2、掌握Linux常用的命令 3、掌握Linux系統上JDK、Mysql、Tomcat的安裝 學習目標 1、瞭解Linux的簡介與安裝 2、掌握Linux常用的命令 3、掌握Linux系統上JDK、Mysql、Tomcat的安裝 一、Linu ...
  • 本教程會講解兩種方法,第一種方法較為簡單,且中文不容易出現亂碼。第二種方法,較為複雜,和java的jdbc連接資料庫操作類似。 操作環境: 系統:windows10 64位 資料庫:Oracle11g 用戶名:testuser 案例用表:emp R語言版本:3.4.0 64位 RStudio版本:1 ...
  • 題目 native關鍵字的作用是什麼? 解答 首先,需瞭解JNI(Java Native Interface),它是連接Java平臺與本地C代碼的一個API。 其次,用native關鍵字聲明的方法,是告訴JVM調用的方法是一個外部定義的方法,也就是本地C代碼定義的一個方法。 總結來說,native關 ...
  • 我們都知道,由於linux的穩定性,通常被作為伺服器系統,要想稱為一個PHP的高手,linux是必修之課。那麼linux系統從開機到啟動,中間到底都發生了什麼?本文來簡單探討一下中間的神秘過程。 1、 BIOS加電自檢 BIOS是英文"Basic Input Output System"的縮略詞 其 ...
  • 問題:一般我們要交換兩個變數的值,多會採取一個額外變數來實現,比如temp=a,a=b,b=temp,現在我們能不利用temp來實現交換a,b兩個變數值的目的嗎? 解決方案:^異或運算符,而且我們會發現a^a=0,還有0^a=a,依據這兩條理論,我們可以實現之前提出的問題。 代碼如下: #inclu ...
  • 基礎知識: 一、人機交互方式: 圖形化界面(GUI) 命令行方式(CLI) 二、常用的DOS命令: dir:列出當前目錄下的所有文件以及文件夾; md:創建目錄; rd:刪除目錄; cd:進入指定的目錄; cd..:返回到上一級目錄; cd/:退回到根目錄; del:刪除文件; exit:退出dos ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...