scrapy配置參數(settings.py)

来源:https://www.cnblogs.com/kanadeblisst/archive/2020/05/18/12913864.html
-Advertisement-
Play Games

導入配置 如何優雅的導入scrapy中settings.py的配置參數呢?總不能用 吧,或者 吧。這看起來一點逼格都沒有。 scrapy提供了導入設置的方法:from_crawler 接著,只要在__init__接收這些參數就可以了。 而在一些官方的組件的源碼中會這樣使用,不過這看起來有點多此一舉 ...


導入配置

如何優雅的導入scrapy中settings.py的配置參數呢?總不能用from scrapy import settings吧,或者from scrapy.settings import XXX吧。這看起來一點逼格都沒有。

scrapy提供了導入設置的方法:from_crawler

@classmethod
def from_crawler(cls, crawler):
  server = crawler.settings.get('SERVER')
  # FIXME: for now, stats are only supported from this constructor
  return cls(server)

接著,只要在__init__接收這些參數就可以了。

def __init__(self, server):
	self.server = server

而在一些官方的組件的源碼中會這樣使用,不過這看起來有點多此一舉

@classmethod
def from_settings(cls, settings):
	server = settings.get('SERVER')
	return cls(server)

@classmethod
def from_crawler(cls, crawler):
  # FIXME: for now, stats are only supported from this constructor
  return cls.from_settings(crawler.settings)

另外,並不是所有的類都可以使用這個類方法。只有像插件,中間件,信號管理器和項目管道等這些組件才能使用這個類方法來導入配置,如果是自己寫的spider或者自定義文件並沒有,需要使用如下方法導入:

from scrapy.utils.project import get_project_settings
settings = get_project_settings()

這裡的settings就是包含settings.py的所有配置的字典了。

主要配置參數

scrapy中的有很多配置,說一下比較常用的幾個:

  • CONCURRENT_ITEMS:項目管道最大併發數
  • CONCURRENT_REQUESTS: scrapy下載器最大併發數
  • DOWNLOAD_DELAY:訪問同一個網站的間隔時間,單位秒。一般預設為0.5*DOWNLOAD_DELAY到1.5 *DOWNLOAD_DELAY之間的隨機值。也可以設置為固定值,由RANDOMIZE_DOWNLOAD_DELAY指定是否固定,預設True隨機。這裡的同一個網站可以是功能變數名稱也可以是IP,由CONCURRENT_REQUESTS_PER_IP的值決定。
  • CONCURRENT_REQUESTS_PER_DOMAIN:對單個功能變數名稱的最大併發
  • CONCURRENT_REQUESTS_PER_IP:對單個IP的最大併發,如果值不為0,則CONCURRENT_REQUESTS_PER_DOMAIN參數被忽略,而且DOWNLOAD_DELAY這個參數的同一網站指的是IP
  • DEFAULT_ITEM_CLASS:執行scrapy shell 命令的預設item類,預設scrapy.item.Item
  • DEPTH_LIMIT:爬取的最大深度
  • DEPTH_PRIORITY:正值為廣度優先(BFO),負值為深度優先(DFO),計算公式:request.priority = request.priority - ( depth * DEPTH_PRIORITY )
  • COOKIES_ENABLED: 是否啟用cookie中間件,也就是自動cookie管理
  • COOKIES_DEBUG:將請求cookie和響應包含Set-Cookie的寫入日誌
  • DOWNLOADER_MIDDLEWARE:下載器中間件和優先順序的字典
  • DEFAULT_REQUEST_HEADERS:用於Scrapy HTTP請求的預設標頭
  • DUPEFILTER_CLASS:去重的類,可以改成使用布隆過濾器,而不使用預設的
  • LOG_ENABLED:是否啟用日誌
  • LOG_FILE:日誌文件路徑,預設為None
  • LOG_FORMAT:日誌格式化表達式
  • LOG_DATEFORMAT:LOG_FORMAT中的時間格式化表達式
  • LOG_LEVEL:最低日誌級別,預設DEBUG,可用:CRITICAL, ERROR, WARNING, INFO, DEBUG
  • LOG_STDOUT:是否將所有標準輸出(和錯誤)將被重定向到日誌,例如print也會被記錄在日誌
  • LOG_SHORT_NAMES:如果為True,則日誌將僅包含根路徑;如果設置為False,則顯示負責日誌輸出的組件
  • LOGSTATS_INTERVAL:每次統計記錄列印輸出之間的間隔
  • MEMDEBUG_ENABLED:是否啟用記憶體調試
  • REDIRECT_MAX_TIMES:定義可以重定向請求的最長時間
  • REDIRECT_PRIORITY_ADJUST:調整重定向請求的優先順序,為正值時優先順序高
  • RETRY_PRIORITY_ADJUST:調整重試請求的優先順序
  • ROBOTSTXT_OBEY:是否遵循robot協議
  • SCRAPER_SLOT_MAX_ACTIVE_SIZE:正在處理響應數據的軟限制(以位元組為單位),如果所有正在處理的響應的大小總和高於此值,Scrapy不會處理新的請求。
  • SPIDER_MIDDLEWARES:蜘蛛中間件
  • USER_AGENT:預設使用的User-Agent

我也是新手,並沒有系統性的使用scrapy,只是用來練習過一些小項目,所以如果有錯誤還請指出。

面對這麼多的設置總不能用一次就查一次吧,所以我們需要修改scrapy startproject命令預設創建的模板文件中的settings.py的內容,將以上的註釋和參數都保存在這個文件中,每當我們創建一個新的工程,我們只需要看一下settings.py中哪個參數需要更改就行了。模板文件在Anaconda\Lib\site-packages\scrapy\templates\project\module(如果是anaconda的話)

settings.py中大部分配置的註釋:

# 項目名稱
BOT_NAME = '$project_name'

SPIDER_MODULES = ['$project_name.spiders']
NEWSPIDER_MODULE = '$project_name.spiders'

# 在項目處理器(也稱為“ 項目管道”)中並行處理的最大併發項目數(每個響應),預設100。
#CONCURRENT_ITEMS = 100

# Scrapy下載器將執行的併發(即,併發)請求的最大數量,預設16
CONCURRENT_REQUESTS = 8

# 從同一網站下載連續頁面之前,下載程式應等待的時間(以秒為單位)。
# 這可以用來限制爬網速度,以避免對伺服器造成太大的衝擊。支持小數。
# 預設情況下,Scrapy不會在請求之間等待固定的時間,而是使用0.5 * DOWNLOAD_DELAY和1.5 * DOWNLOAD_DELAY之間的隨機間隔。
#DOWNLOAD_DELAY = 0

# 將對任何單個域執行的併發(即,併發)請求的最大數量,預設8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16

# 將對任何單個IP執行的併發(即,併發)請求的最大數量,預設0。
# 如果非0,CONCURRENT_REQUESTS_PER_DOMAIN這個參數會被忽略,即按IP不按功能變數名稱。DOWNLOAD_DELAY也是按IP
#CONCURRENT_REQUESTS_PER_IP = 16

# 將用於實例化Scrapy shell中的項目的預設類
#DEFAULT_ITEM_CLASS = 'scrapy.item.Item'

# 對於任何站點,將允許爬網的最大深度。如果為零,則不施加限制
#DEPTH_LIMIT = 0

# 根據DEPTH_PRIORITY的值取決於深度優先或廣度優先,即正值為廣度優先(BFO),負值為深度優先(DFO)
# 計算公式:request.priority = request.priority - ( depth * DEPTH_PRIORITY )
#DEPTH_PRIORITY = 0

# 是否啟用cookie
COOKIES_ENABLED = False

# 如果啟用,Scrapy將記錄請求中發送的所有cookie(即Cookie 標頭)和響應中接收的所有cookie(即Set-Cookie標頭)
#COOKIES_DEBUG = False

# 是否收集詳細的深度統計信息。如果啟用此功能,則在統計信息中收集每個深度的請求數
#DEPTH_STATS_VERBOSE = False

# 是否啟用DNS記憶體緩存
#DNSCACHE_ENABLED = True

# DNS記憶體緩存大小
#DNSCACHE_SIZE = 10000

# 處理DNS查詢的超時時間(以秒為單位)。支持浮動
#DNS_TIMEOUT = 60

# 用於爬網的下載器
#DOWNLOADER = 'scrapy.core.downloader.Downloader'

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# 包含您的項目中啟用的下載器中間件及其命令的字典
#DOWNLOADER_MIDDLEWARE = {}

# 用於Scrapy HTTP請求的預設標頭。它們被填充在 DefaultHeadersMiddleware
DEFAULT_REQUEST_HEADERS = {
}

# Scrapy中預設啟用的下載程式中間件的字典。低值更接近引擎,高值更接近下載器,
# 不要試圖修改此設置,請修改DOWNLOADER_MIDDLEWARE
#DOWNLOADER_MIDDLEWARES_BASE = {
#     'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
#     'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
#     'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
#     'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
#     'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
#     'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
#     'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
#     'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
#     'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
#     'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
#     'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
#     'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
#     'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
#     'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
# }

# 是否啟用下載器統計信息收集
#DOWNLOADER_STATS = True

# 包含在項目中啟用的請求下載處理程式的字典
#DOWNLOAD_HANDLERS = {}

# 包含請求下載處理程式的預設字典
# 如果要禁用FTP處理程式,請設置DOWNLOAD_HANDLERS = {'ftp': None}
#DOWNLOAD_HANDLERS_BASE = {
#     'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
#     'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
#     'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
#     's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
#     'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
# }

# 下載程式的超時時間(以秒為單位)
#DOWNLOAD_TIMEOUT = 180

# 載程式將下載的最大響應大小(以位元組為單位,預設1024MB),為0則不限制
#DOWNLOAD_MAXSIZE = 1073741824

# 下載程式將開始警告的響應大小(以位元組為單位,預設32MB)
#DOWNLOAD_WARNSIZE = 33554432

# 聲明的Content-Length與伺服器發送的內容不匹配,是否觸發異常ResponseFailed([_DataLoss]) 
# 如果為False,可以在爬蟲文件中判斷並處理 if 'dataloss' in response.flags: 
#DOWNLOAD_FAIL_ON_DATALOSS = True

# 用於檢測和過濾重覆請求的類
#DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

# 預設情況下,RFPDupeFilter僅記錄第一個重覆的請求。設置DUPEFILTER_DEBUG為True它將記錄所有重覆的請求。
#DUPEFILTER_DEBUG = False

# 包含您的項目中啟用的擴展及其順序的字典
#EXTENSIONS = {}

# 包含預設情況下在Scrapy中可用的擴展程式及其順序的字典
#EXTENSIONS_BASE = {
#     'scrapy.extensions.corestats.CoreStats': 0,
#     'scrapy.extensions.telnet.TelnetConsole': 0,
#     'scrapy.extensions.memusage.MemoryUsage': 0,
#     'scrapy.extensions.memdebug.MemoryDebugger': 0,
#     'scrapy.extensions.closespider.CloseSpider': 0,
#     'scrapy.extensions.feedexport.FeedExporter': 0,
#     'scrapy.extensions.logstats.LogStats': 0,
#     'scrapy.extensions.spiderstate.SpiderState': 0,
#     'scrapy.extensions.throttle.AutoThrottle': 0,
# }

# 包含要使用的項目管道及其順序的字典。值是任意的,但是習慣上將它們定義在0-1000範圍內。低值優先於高值
#ITEM_PIPELINES = {}

# 是否啟用日誌記錄
#LOG_ENABLED = True

# 用於日誌記錄的編碼
#LOG_ENCODING = 'utf-8'

# 用於記錄輸出的文件名
#LOG_FILE = None

# 用於格式化日誌消息的字元串
#LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

# 用於格式化日期/時間的字元串,用於改變LOG_FORMAT 中的asctime占位符
#LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S'

# 用於格式化不同操作的日誌消息的類
#LOG_FORMATTER = "scrapy.logformatter.LogFormatter"

# 最低記錄級別, 可用:CRITICAL, ERROR, WARNING, INFO, DEBUG
#LOG_LEVEL = 'DEBUG'

# 如果為True,所有標準輸出(和錯誤)將被重定向到日誌,例如print也會被記錄在日誌
#LOG_STDOUT = False

# 如果為True,則日誌將僅包含根路徑;如果設置為False,則顯示負責日誌輸出的組件
#LOG_SHORT_NAMES = False

# 每次統計記錄列印輸出之間的間隔(以秒為單位)
#LOGSTATS_INTERVAL = 60.0

# 是否啟用記憶體調試
#MEMDEBUG_ENABLED = False

# 啟用記憶體調試後,如果此設置不為空,則會將記憶體報告發送到指定的郵箱地址,否則該報告將被寫入日誌。
# 例如:MEMDEBUG_NOTIFY = ['[email protected]']
#MEMDEBUG_NOTIFY = []

# 是否啟用記憶體使用擴展。此擴展跟蹤該進程使用的峰值記憶體(將其寫入統計信息)。
# 當超過記憶體限制時,它還可以選擇關閉Scrapy進程,併在發生這種情況時通過電子郵件通知
#MEMUSAGE_ENABLED = True

# 關閉Scrapy之前允許的最大記憶體量
#MEMUSAGE_LIMIT_MB = 0

#MEMUSAGE_CHECK_INTERVAL_SECONDS = 60.0

# 電子郵件列表,用於通知是否已達到記憶體限制
#MEMUSAGE_NOTIFY_MAIL = False

# 發送警告電子郵件通知最大記憶體之前允許的最大記憶體量(以兆位元組為單位)。如果為零,則不會發出警告
#MEMUSAGE_WARNING_MB = 0

# 使用genspider命令創建爬蟲的模板
#NEWSPIDER_MODULE = ""

# 如果啟用,Scrapy將在從同一網站獲取請求的同時等待隨機的時間(介於0.5 * DOWNLOAD_DELAY和1.5 *之間DOWNLOAD_DELAY)
#RANDOMIZE_DOWNLOAD_DELAY = True

# Twisted Reactor線程池大小的最大限制。這是各種Scrapy組件使用的通用多用途線程池。
# 線程DNS解析器,BlockingFeedStorage,S3FilesStore僅舉幾例。
# 如果遇到阻塞IO不足的問題,請增加此值。
#REACTOR_THREADPOOL_MAXSIZE = 10

# 定義可以重定向請求的最長時間。超過此最大值後,將按原樣返回請求的響應
#REDIRECT_MAX_TIMES = 20

# 調整重定向請求的優先順序,為正則優先順序高
#REDIRECT_PRIORITY_ADJUST = 2

# 調整重試請求的優先順序
#RETRY_PRIORITY_ADJUST = -1

# 是否遵循robot協議
ROBOTSTXT_OBEY = False

# 用於解析robots.txt文件的解析器後端
#ROBOTSTXT_PARSER = 'scrapy.robotstxt.ProtegoRobotParser'

#ROBOTSTXT_USER_AGENT = None

# 用於爬網的調度程式
#SCHEDULER = 'scrapy.core.scheduler.Scheduler'

# 設置為True將記錄有關請求調度程式的調試信息
#SCHEDULER_DEBUG = False

# 調度程式將使用的磁碟隊列的類型。其他可用類型:scrapy.squeues.PickleFifoDiskQueue,
# scrapy.squeues.MarshalFifoDiskQueue, scrapy.squeues.MarshalLifoDiskQueue
#SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'

# 調度程式使用的記憶體隊列的類型。其他可用類型: scrapy.squeues.FifoMemoryQueue
#SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'

# 調度程式使用的優先順序隊列的類型。另一種可用的類型是 scrapy.pqueues.DownloaderAwarePriorityQueue
#SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.ScrapyPriorityQueue'

# 正在處理響應數據的軟限制(以位元組為單位)。
# 如果所有正在處理的響應的大小總和高於此值,Scrapy不會處理新的請求
#SCRAPER_SLOT_MAX_ACTIVE_SIZE  = 5_000_000

# 包含您的項目中啟用的蜘蛛合約的字典,用於測試蜘蛛
#SPIDER_CONTRACTS = {}

# 包含Scrapy合同中預設啟用的Scrapy合同的字典
#SPIDER_CONTRACTS_BASE  = {
#     'scrapy.contracts.default.UrlContract' : 1,
#     'scrapy.contracts.default.ReturnsContract': 2,
#     'scrapy.contracts.default.ScrapesContract': 3,
# }

# 將用於載入蜘蛛的類
#SPIDER_LOADER_CLASS = 'scrapy.spiderloader.SpiderLoader'

# 包含您的項目中啟用的蜘蛛中間件及其命令的字典
#SPIDER_MIDDLEWARES = {}

#SPIDER_MIDDLEWARES_BASE = {
#     'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
#     'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
#     'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
#     'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
#     'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
# }

# Scrapy將在其中尋找蜘蛛的模板列表
#SPIDER_MODULES  = {}

# 用於收集統計信息的類
#STATS_CLASS = 'scrapy.statscollectors.MemoryStatsCollector'

# 蜘蛛完成後,將Scrapy統計信息轉儲到Scrapy日誌中
#STATS_DUMP = True

# 蜘蛛抓取完畢後發送Scrapy統計信息的郵箱列表
#STATSMAILER_RCPTS = []

# 指定是否 將啟用telnet控制台
#TELNETCONSOLE_ENABLED = True

# 用於telnet控制台的埠範圍。如果設置為None或0,則使用動態分配的埠
#TELNETCONSOLE_PORT = [6023, 6073]

# 使用startproject命令創建新項目和使用 genspider命令創建新的Spider時要在其中查找模板的目錄
#TEMPLATES_DIR = "templates"

# 允許抓取的URL的最大URL長度
#URLLENGTH_LIMIT = 2083

# 爬網時使用的預設User-Agent
#USER_AGENT = "Scrapy/VERSION (+https://scrapy.org)"

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天給大家整理出來了web前端工程師初級階段需要掌握的內容,很全面,希望大家好好閱讀,看看自己掌握的知識點和文章裡面寫的還相差多少。 什麼是初級web前端工程師? 初級前端工程師:首先要知道的就是如何處理各種瀏覽器的相容處理(比如說在IE瀏覽器中的createElement有什麼不同等等內容),現在 ...
  • 一、ajax 輪詢實現原理:ajax 輪詢指客戶端每間隔一段時間向服務端發起請求,保持數據的同步。 優點:可實現基礎(指間隔時間較短)的數據更新。 缺點:這種方法也只是儘量的模擬即時傳輸,但並非真正意義上的即時通訊,很有可能出現客戶端請求時,服務端數據並未更新。或者服務端數據已更新,但客戶端未發起請 ...
  • 一、發展由來 POP OOP AOP DDD POP:(面向過程編程) 描述:考慮問題是1234步驟 特點:簡單,無法應對複雜需求 舉例子:把食物放冰箱 第一步:打開冰箱 第二步:塞進去食物 第三步:關冰箱 OOP:面向對象編程 特點:把事物作為對象考慮 特性:封裝、繼承、多態 描述:對象交互,完成 ...
  • 使用CLion替換VSCode,開發 chromium kernel(for Linux) VSCode 不適合開發像chromium 這樣的巨型c++工程,Microsoft的cpptools和mono(.net移植,被VScode用作來寫code intellisense)存在的嚴重的memor ...
  • 1. 單向一對多配置 單向一對多使用@OneToMany標簽進行配置,在一方有一個集合屬性與多方進行關聯,集合可以是List或者Set,區別是List是有序、Set是無序不重覆。 對應在一方配置@OneToMany: /** * 單向一對多:使用JPA配置 */ @Entity @Table(nam ...
  • 一、寫在開頭 無聊寫寫。最近學習做python GUI, 感覺比網頁落後好多。我只是為了完成老師佈置的任務, 做一個配合ZBar掃描條形碼的小程式, 不打算過多深究二維碼什麼的。由於pyqt5貌似不是很火爆, 沒多少成系統的教程。我能找到的就是 "http://code.py40.com/pyqt5 ...
  • 一、IO與Properties的聯合應用 1.Properties解析(可以解析unicode碼) package com.bjpowernode.java_learning; import java.util.*; import java.io.*; public class D116_1_Pro ...
  • 時不時地我們需要導出一些數據用作備份、查看報表等,如果用 導出會非常慢。而用 ,則速度非常快。 準備 執行文件 : sql set colsep , set feedback off set heading off set newp none set pagesize 0 set linesize ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...