學會了這項技能,你就能獲得任何想要的信息!

来源:https://www.cnblogs.com/qcloud1001/archive/2018/08/22/9518838.html
-Advertisement-
Play Games

歡迎大家前往 "騰訊雲+社區" ,獲取更多騰訊海量技術實踐乾貨哦~ 本文由 "騰訊雲實驗室" 發表於 "雲+社區專欄" 騰訊雲提供了 "開發者實驗室" 教你搭建 PySpider 爬蟲服務,教程內容如下,用戶可以點擊 "開發者實驗室" 快速上機完成實驗。 環境準備 任務時間:5min ~ 10min ...


歡迎大家前往騰訊雲+社區,獲取更多騰訊海量技術實踐乾貨哦~

本文由騰訊雲實驗室發表於雲+社區專欄

騰訊雲提供了開發者實驗室教你搭建 PySpider 爬蟲服務,教程內容如下,用戶可以點擊開發者實驗室快速上機完成實驗。

環境準備

任務時間:5min ~ 10min

前置環境部署

在開始部署前,我們需要做一些前置準備。

yum 更新

yum update -y

安裝開發編譯工具

yum install gcc gcc-c++ -y

安裝依賴庫

yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y

升級pip

pip install --upgrade pip

該步驟可選,但為了部署的穩定性,推薦執行

該步驟耗時可能較長(5~10min),請耐心等待

部署 mariadb

任務時間:10min ~ 20min

由於 CentOS 7 中 MySQL 資料庫已從預設的程式列表中移除,我們使用 mariadb 代替。

安裝 mariadb

yum install mariadb-server mariadb -y

啟動 mariadb 服務

systemctl start mariadb

設置 root 密碼

預設的root用戶密碼為空,你可以使用以下命令來創建 root 用戶的密碼:

(該步驟也可以跳過,password 後的 Password 可以改為任何你希望設置的密碼)

mysqladmin -u root password "Password"

檢查是否安裝成功

現在你可以嘗試通過以下命令來連接到 Mysql 伺服器

mysql -u root -p

然後輸入您剛纔設置的密碼 ( 預設:Password ),如果一切正常,您應該可以在命令行看到以 MariaDB [(none)]>mysql> 開頭的提示了,說明連接成功。

此時輸入 SHOW DATABASES; 並回車,應該可以看到類似下麵這樣的輸出,說明一切正常。

mysql> SHOW DATABASES;
+----------+
| Database |
+----------+
| mysql    |
| test     |
+----------+
2 rows in set (0.13 sec)

完成後,可以通過快捷鍵 Ctrl+C 或命令行鍵入 exit 來退出,進入下一步。

如果您未設置密碼,直接使用 mysql 即可

部署 redis

任務時間:10min ~ 20min

下載、解壓安裝包

下載安裝包

wget http://download.redis.io/redis-stable.tar.gz

解壓安裝包

tar -xzvf redis-stable.tar.gz

移動解壓包到 /usr/local 內

mv redis-stable /usr/local/redis

編譯安裝

cd /usr/local/redis
make
make install

設置 redis 配置

設置配置文件路徑

mkdir -p /etc/redis
cp /usr/local/redis/redis.conf /etc/redis/redis.conf

修改 /etc/redis/redis.conf 文件的 daemonize 配置項為如下:

daemonize yes

啟動 redis 服務

/usr/local/bin/redis-server /etc/redis/redis.conf

部署 pyspider

任務時間:10min ~ 20min

安裝依賴

pip install --upgrade chardet
easy_install mysql-connector==2.1.3
easy_install redis

安裝 pyspider

pip install pyspider

配置 pyspider

首先創建配置目錄

mkdir /etc/pyspider

然後 /etc/pyspider 目錄下創建 pyspider.conf.json,參考下麵的內容。

具體配置的說明文檔請參考 官方文檔

示例代碼:/etc/pyspider/pyspider.conf.json
{
  "taskdb": "mysql+taskdb://root:[email protected]:3306/taskdb",
  "projectdb": "mysql+projectdb://root:[email protected]:3306/projectdb",
  "resultdb": "mysql+resultdb://root:[email protected]:3306/resultdb",
  "message_queue": "redis://127.0.0.1:6379/db",
  "webui": {
    "username": "root",
    "password": "Password",
    "need-auth": true
  }
}

其中 mysql 配置中的 root 為您 mysql 的用戶名, root: 後面的 Password 為您剛設置的密碼。

webui 配置中的 username 及 password 為您訪問 WebUI 時候需要的用戶名,你也可以不設置用戶名密碼,直接將 need-auth 設為 false 即可。

啟動服務

pyspider -c /etc/pyspider/pyspider.conf.json

如果一切正常,現在訪問 http://<您的 CVM IP 地址>:5000,您應該可以看到 pyspider dashboard 的首頁了。

服務能夠正常啟動後,我們需要讓它能夠在後臺運行,您可以通過以下命令讓服務在後臺運行

nohup pyspider -c /etc/pyspider/pyspider.conf.json &

也可以使用官方推薦的 Supervisor 來啟動,這裡就不詳細介紹了,具體用法可以參考 Supervisor 的文檔

部署完成

任務時間:1min ~ 2min

訪問服務

此時您可以訪問 http://<您的 CVM IP 地址>:5000 使用您的爬蟲來搜集數據了,具體 pyspider 爬蟲腳本的編寫及使用教程可以參考 網上資料

問答
BeautifulSoup和Scrapy爬蟲之間的區別?
相關閱讀
騰訊雲資料庫回檔解決方案
大數據在教育行業的研究與應用
看看上下文映射的清晰視圖
雲學院 · 課程推薦 | 知乎KOL,與你分享機器學習中如何做選擇

此文已由作者授權騰訊雲+社區發佈,原文鏈接:https://cloud.tencent.com/developer/article/1151513?fromSource=waitui

歡迎大家前往騰訊雲+社區或關註雲加社區微信公眾號(QcloudCommunity),第一時間獲取更多海量技術實踐乾貨哦~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一個好的項目需要一個好的Makefile,分享一個萬能的模板。 ...
  • mysql按id的指定順序進行排序,以前解決過一次,後來忘了,記錄一下 SELECT * FROM `table` WHERE id<6 order by field(id,3,5,1,2,4) ...
  • Preface Today I'm gonna export some test data to another server.The source server is Windows Server 2012 R2 and the tartget server is CentOS 7.2.Event ...
  • 修改數據列 在開發和生產過程中,列名的拼寫錯誤或者列名的更改是需要操作數據表的,大多數情況下都是不需要修改的. 以下幾種情況下我們並不能直接修改數據列: 1、用於索引的列。 2、用於 CHECK、FOREIGN KEY、UNIQUE 或 PRIMARY KEY 約束的列。 3、與預設值(由 DEFA ...
  • [20180823]IMU與db link.txt--//當使用db link查看遠程表時,實際上會產生小小的日誌.--//當時如果與IMU結合在一起,可以導致IMU的失效.1.環境:SCOTT@book> @ ver1PORT_STRING VERSION BANNER x86_64/Linux ...
  • [20180819]關於父子游標問題(11g).txt--//sql語句存在父子游標,子游標堆6在父游標堆0裡面.--//如果存在許多子游標的情況下,父游標堆0是否大小是發生變化呢.測試看看.--//另外11g引入參數_cursor_obsolete_threshold限制子游標的數量,測試它的一些 ...
  • 我們都知道日常在面對數據需求時需要導出數據,比較少量的數據導出我們一般是通過查詢後另存即可,當面對數據量比較大的時候我們應該怎麼處理?我搜索總結一些幾個方法:1、bcp 導出。2、資料庫本身自帶的導入導出。3、如果更大的話,直接把備份庫直接拷貝出來,導出整個庫方法1:(少數量導入和導出)select ...
  • 在安裝完資料庫後,使用漢字插入到表中,會報錯,需要修改字元集類型,如下圖所示: 如下圖所示: character_set_database=iatin1 需要改成utf8或gbk 打開my.cnf文件,修改參數,再重啟 重啟後,再查看SHOW VARIABLES LIKE 'character%'。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...