GoldData學習實例-採集官網新聞數據

来源:https://www.cnblogs.com/golddata/archive/2019/03/16/10543254.html
-Advertisement-
Play Games

在本節中,我們將講述抓取政府官網地方新聞。並將抓取的新聞數據融入到以下兩張數據表news_site和news中。 ...


概述

 

在本節中,我們將講述抓取政府官網地方新聞。並將抓取的新聞數據融入到以下兩張數據表news_site和news中。

source1

news_site(新聞來源)

欄位類型說明
id bigint 主鍵,自動增長
name varchar(128) 來源名稱

news(新聞)

欄位類型說明
id bigint 主鍵,自動增長
title varchar(128) 標題
site_id bigint 外鍵,指向表news_site的id欄位
content text 內容
pub_date datetime 發佈時間
date_created datetime 加入時間

我們很容易看到這兩張表存在關聯,那是怎樣將數據寫入關聯呢,我們將再此一一介紹。

定義站點、數據集

define_site

define_dataset

定義抓取和抽取規則

在這裡我們需要填入口地址。入口地址如果有多個,那麼要以英文逗號相隔。如下圖所示:

entry

接下來我們編寫規則時,首先是匹配URL,這裡需要填寫正則表達式。旁邊的“?”號,點擊後就會彈出相應的幫助文檔。如下圖所示:

url_match

然後數據集選擇則我們要註意,如果抓取的僅需要的是鏈接,那麼是否數據集選擇否,且數據集欄位必須要有一個名為href的欄位。如下圖所示:

dataset_href

否則是否數據集應該選擇是,且數據集欄位必須要有一個名為sn的欄位。sn欄位存放的數據一般是唯一值,相當於數據表裡的id欄位。如下圖所示:

dataset_sn

完整的規則內容顯示如下:

[
  {
    __sample: http://sousuo.gov.cn/column/40520/0.htm
    match0: http\:\/\/sousuo\.gov\.cn\/column\/40520/\d+\.htm
    fields0:
    {
      __model: false
      __node: .news_box a
      href:
      {
        expr: a
        attr: abs:href
        js: ""
        __label: 鏈接
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
    }
  }
  {
    __sample: http://www.gov.cn/xinwen/2019-02/26/content_5368539.htm
    match0: http\:\/\/www\.gov\.cn/xinwen/2019-\d{2}/\d{2}/content_\d+.htm
    fields0:
    {
      __model: true
      __dataset: news
      __node: ".article "
      sn:
      {
        expr: ""
        attr: ""
        js:
          '''
          var xx=md5(baseUri)
          xx
          '''
        __label: 編號
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      title:
      {
        expr: .article >h1
        attr: ""
        js: ""
        __label: 標題
        __showOnList: true
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      pubdate:
      {
        expr: .pages-date:matchText
        attr: ""
        js: ""
        __label: 發佈時間
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      source:
      {
        expr: .pages-date > span.font:contains(來源)
        attr: ""
        js:
          '''
          var xx=source.replace("來源:",'');
          xx
          '''
        __label: 來源
        __showOnList: true
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
      content:
      {
        expr: .pages_content
        attr: ""
        js: ""
        __label: 新聞內容
        __showOnList: false
        __type: ""
        down: "0"
        accessPathJs: ""
        uploadConf: ""
      }
    }
  }
]

配製和啟動抓取器

config_spider

一個抓取器可以配製抓取多個站點,一個站點也可以配製多個抓取器抓取。

然後點擊“開始”,則會啟動抓取器。

查看和導出數據

navigate

可以按照搜索條件進行導出數據。選擇“導出”按扭後,還將提示導出哪些數據段,最後導出文件。 如果數據少量,將會導出為excel文件,否則下載的打包之後的zip文件。如下圖所示:

data_export

本節內容描述到這裡,下一篇將講述如何通過金色數據如何將數據融合到數據表當中去。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 執行查看幫助命令 man:獲取幫助信息 空格鍵:向下翻一頁 PgGe down:向下翻一頁 PaGe up:向上翻一頁 home:直接前往首頁 end:直接前往尾頁 /:從上至下搜索關鍵詞 ?:從下至上搜索關鍵詞 n:定位搜索到的關鍵詞 q:退出幫助文檔 2 常用系統工作命令 echo [字元串 ...
  • 今天在進行項目聯繫的時候,啟動在待機的虛擬機,發現虛擬機的網路設置又出現了問題。 我以為像往常一樣重啟網卡服務就能成功,但是它卻報了Job for iptables.service failed because the control process exited with error code。 ...
  • Node Exporter 1. Node Exporter Scrape Time type: GraphUnit: secondsLabel: Seconds{{collector}} - 各個收集器持續時間metrics: node_scrape_collector_duration_seco ...
  • "Learn Tmux in Ten Minutes" "Layouts 佈局" "Window 視窗" "Pane 窗格" "CONFIGURATION" Learn Tmux in Ten Minutes Layouts 佈局 1. Server 服務 2. Session 會話 3. Wind ...
  • 本節內容主要介紹Linux操作系統的主要特性,包括Linux與Windows操作系統的主要區別;Linux系統的分類;開發環境的推薦;Linux操作系統的安裝;Linux系統下開發環境的安裝和配置。 1、Linux和Windows的主要不同點: 1)開放性的不同。Linux系統自從1991年10月5 ...
  • 人工智慧下智能家居解決方案 今天先到這兒,希望對您技術領導力, 企業管理,物聯網, 系統架構設計與評估,團隊管理, 項目管理, 產品管理,團隊建設 有參考作用 , 您可能感興趣的文章: 2017-2018年Scrum狀態調查報告2016年測試狀態調查2017年IT行業測試調查報告項目管理-習慣發生範... ...
  • 初識MakefIle 在學習Linux過程中,我越發的覺得Linux系統給了使用者更大的自由,同時也就增加了學習的成本。在gcc下去調試代碼,沒有了熟悉的VS,沒有的人性話的錯誤提示(當然Makefile是有錯誤提示和警告的),也沒有一鍵編譯。全得自己來,但是在這個過程中,你將會熟悉系統的整個編譯過 ...
  • crontab: * * * * * [user] command分 時 日 月 周 [用戶] 命令 第1列表示分鐘0~59 每分鐘用*或者 */1表示第2列表示小時0~23(0表示0點)第3列表示日期1~31第4列表示月份1~12第5列標識號星期0~7(0或7表示星期天)第6列要運行的命令 -e ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...