web scraper 抓取網頁數據的幾個常見問題

来源:https://www.cnblogs.com/fengzheng/archive/2019/02/20/10404445.html
-Advertisement-
Play Games

如果你想抓取數據,又懶得寫代碼了,可以試試 web scraper 抓取數據。 相關文章: "最簡單的數據抓取教程,人人都用得上" "web scraper 進階教程,人人都用得上" 如果你在使用 web scraper 抓取數據,很有可能碰到如下問題中的一個或者多個,而這些問題可能直接將你計劃打亂 ...


如果你想抓取數據,又懶得寫代碼了,可以試試 web scraper 抓取數據。

相關文章:
最簡單的數據抓取教程,人人都用得上
web scraper 進階教程,人人都用得上

如果你在使用 web scraper 抓取數據,很有可能碰到如下問題中的一個或者多個,而這些問題可能直接將你計劃打亂,甚至讓你放棄 web scraper 。

下麵列出幾種你可能會碰到的問題,並說明解決方案。

1、有時候我們想選擇某個鏈接,但是滑鼠點擊就出觸發頁面跳轉,如何處理?

在我們選擇頁面元素的時候,勾選 “Enable key”,然後滑鼠滑到要選擇的元素上,按下 S 鍵。

另外,勾選“Enable key” 後會出現三個字母,分別是 S、P、C,按 S 就是選擇當前元素,按 P 就是選擇當前元素的父元素,按 C 就是選擇當前元素的子元素,當前元素指的是滑鼠所在的元素。

2、分頁數據或者滾動載入的數據,不能完全抓取,例如知乎和 twitter 等?

出現這種問題大部分是因為網路問題,數據還沒來得及載入,web scraper 就開始解析數據,但是因為沒有及時載入,導致 web scrpaer 誤認為已經抓取完畢。

所以適當的調大 delay 的大小,延長等待時間,讓數據有足夠的時間載入。預設的 delay 是 2000,也就是 2 秒,可以根據網速調整。

但是,當數據量比較大的時候,出現數據抓取不完全的情況也是常有的。因為只要有一次翻頁或者一次下拉載入沒有在 delay 的時間內載入完成,那麼抓取就結束了。

3、抓取的數據順序和網頁上的順序不一致?

web scraper 預設就是無序的,可以安裝 CouchDB 來保證數據的有序性。

或者採用其他變通的方式,我們最後會將數據導出到 CSV 格式,CSV 用 Excel 打開之後,可以按照某一列來排序,例如我們抓取微博數據的時候將發佈時間抓取下來,然後再 Excel 中按照發佈時間排序,或者知乎上的數據按照點贊數排序。

4、有些頁面元素通過 web scraper 提供的 selector 選擇器沒辦法選中?

造成這種情況的原因可能是因為網站頁面本身不符合網頁佈局規範,或者你想要的數據是動態的,例如滑鼠滑過才會顯示的元素等,遇到這些情況就要藉助其他方法了。

其實通過滑鼠操作選擇元素,最後就是為了找到元素對應的 xpath。xpath 對應到網頁上來解釋,就是定位某元素的路徑,通過元素的種類、唯一標識、樣式名稱,配合上下級關係來找到某個元素或某一類元素。

如果你沒有遇到這個問題,那就沒有必要瞭解 xpath,等到遇到了問題再動手去學一下就可以。

這裡只是說了幾個使用 web scraper 的過程中常見的問題,如果你還遇到了其他的問題,可以在文章下麵留言。

原文地址:web scraper 抓取網頁數據的幾個常見問題

還可以加我個人微信號 fengdezitai001,添加請說明來意以便備註。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近我們的項目在考慮使用Gateway,考慮使用Spring Cloud Gateway,發現網關的異常處理和spring boot 單體應用異常處理還是有很大區別的。讓我們來回顧一下異常。 ...
  • Semaphore用於管理信號量,在併發編程中,可以控制返訪問同步代碼的線程數量。Semaphore在實例化時傳入一個int值,也就是指明信號數量。主要方法有兩個:acquire()和release()。acquire()用於請求信號,每調用一次,信號量便少一個。release()用於釋放信號,調用 ...
  • 最近在學樹剖,看到了這題就做了 [ZJOI2008]樹的統計 思路 從題面可以知道,這題是樹剖題(要求的和模板沒什麼區別呀喂 就是在普通的樹剖上加了一個最大值 所以可以知道就是樹剖+特殊的線段樹 線段樹要可以求區間最大值和區間和 那麼就很好做了,基本上就是到樹剖模板題 只需要給線段樹加個最大值就行了 ...
  • 對於經常調用的函數,特別是遞歸函數或計算密集的函數,記憶(緩存)返回值可以顯著提高性能。 ...
  • 前言 由於Activiti 預設使用的資料庫是H2資料庫,重啟服務後相關數據會丟失。為了永久保存,所以要配置關係型資料庫,這裡我們選擇 SqlServer ,有錢任性。 環境 Activiti6,SqlServer 2008 配置 文件 修改 然後,引入 lib下引入 sqljdbc4 4.0.ja ...
  • sys模塊 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 import sys 4 ''' 5 sys.argv : 在命令行參數是一個空列表,在其他中第一個列表元素程式本身的路徑 6 sys.exit(n) :退出程式,正常退出時exit(0 ...
  • des加密演算法有如下幾個要素: DES加密模式:這裡選ECB 填充:java是pkcs5padding,.net是pkcs7padding。網上說PKCS5Padding與PKCS7Padding基本上是可以通用的。 字元集:utf-8 輸出:base64、hex 密碼/Key:8個字元(共64位... ...
  • https://www.luogu.org/problemnew/show/P1020 (原題鏈接) 第一問就是求最長不上升子序列的長度,自然就想到了c++一本通里動態規劃里O(n^2)的演算法,但題目明確說明“為了讓大家更好地測試n方演算法,本題開啟spj,n方100分,nlogn200分每點兩問,按 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...