powershell中的兩隻爬蟲

来源:http://www.cnblogs.com/piapia/archive/2016/04/08/5367556.html
-Advertisement-
Play Games

序 (PowerShell中的)兩隻爬蟲,兩隻爬蟲,跑地快,爬網頁不賴~~~ 一隻基於com版的ie,一隻基於.net中的WebRequest類,都是老奶奶,不奇怪 。。。 雖然很老了,但爬的也很快 。。。比python簡單。。。 powershell 爬蟲 spider Invoke-RestMe ...


 

--------------------序--------------------

 

(PowerShell中的)兩隻爬蟲,兩隻爬蟲,跑地快,爬網頁不賴~~~ 一隻基於com版的ie,一隻基於.net中的WebRequest類,都是老奶奶,不奇怪 。。。 雖然很老了,但爬的也很快 。。。比python簡單。。。

powershell 爬蟲 spider Invoke-RestMethod Invoke-WebRequest

--------------------概述--------------------

 

抓取(爬取)網上信息的腳本程式,俗稱網路蜘蛛,又名爬蟲。

用vbs或powershell調用ie瀏覽器的com對象,來解析html成為xml對象,從而扣取數據,是一種很老的爬蟲辦法,也很不錯。 這裡不多介紹,有感興趣的去搜些vbs,powershell腳本即可。

用vbs或powershell調用.net中的WebRequest類,來解析html成為xml對象,從而扣取數據,是另一種挺好的辦法。

如果你的系統是win8,或者win8以上,或者win7安裝了powershell 4.0,5.0,那麼 powershell中自帶了這樣的兩個命令,【Invoke-WebRequest】和【Invoke-RestMethod】。

第一個命令返回的是對象,第二個返回的是(整個網頁)字元串。

這兩個命令有時候會返回亂碼,很長一段時間,我認為,是這個命令有解碼bug,但後來發現,把結果用其自帶的-outfile參數輸出到文件之後,編碼是正確的。 也就是說,其實是我們不知道怎麼解碼。只能用寫入磁碟的慢方法。  

powershell 傳教士 原創文章。始於 2016-04-09 允許轉載,但必須保留名字和出處,否則追究法律責任

用這個方法寫爬蟲腳本是最簡單的。寫入磁碟雖然慢了一點點,但基本不影響我們用之爬數據。

 

--------------------正文--------------------

 

用【Invoke-RestMethod】寫爬蟲腳本太簡單了。步驟為:

1 下載文件

2 打開文件,放入大字元串。

3 根據模板匹配字元串,扣出需要的內容。內容可以是行列標準的表格,也可以不是。

關鍵就是做好模板,和使用模板命令ConvertFrom-String。需要註意的是,這個是ps5.0新增命令,對於win7來說,要安裝ps5.0哦。

ConvertFrom-String  命令的詳細用法,請看本人拙作帖子:

ConvertFrom-String 命令研究

http://www.cnblogs.com/piapia/p/5089332.html      

 

--------------------爬蟲欣賞--------------------

 

<#
http://www.xicidaili.com/nn/1
http://haodailiip.com
從web頁扣取代理伺服器的ip埠。(只要ip,埠)
invoke-Request 寫入 temp代理001.html,temp代理001.html 讀入字元串,convertfrom-string 扣取數據,寫入代理001.txt
#>

$script:腳本存儲路徑 = Split-Path -Parent   $myinvocation.mycommand.path
$Env:Path+=";$script:腳本存儲路徑;"

$臨時文件名 = "temp代理001.html"
$臨時文件路徑全名 = "$script:腳本存儲路徑\$臨時文件名"

$輸出文件名 = "代理001.txt"
$輸出文件路徑全名 = "$script:腳本存儲路徑\$輸出文件名"

$網址 = 'http://www.xicidaili.com/nn/1'

$模板 = 
@'
    <tr class="odd">
      <td></td>
      <td><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
      <td>{IP地址*:171.34.189.91}</td>
      <td>{埠:8118}</td>
      <td>
        <a href="/2016-04-07/jiangxi">江西</a>
      </td>
      <td>高匿</td>
      <td>HTTP</td>
      <td>
        <div title="1.377秒" class="bar">
          <div class="bar_inner fast" style="width:88%">
            
          </div>
        </div>
      </td>
      <td>
        <div title="0.275秒" class="bar">
          <div class="bar_inner fast" style="width:95%">
            
          </div>
        </div>
      </td>
      <td>16-04-07 01:45</td>
    </tr>
  
    <tr class="">
      <td></td>
      <td><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
      <td>{IP地址*:119.188.94.145}</td>
      <td>80</td>
      <td>
        <a href="/2014-11-02/shandong">山東濟南</a>
      </td>
      <td>高匿</td>
      <td>HTTPS</td>
      <td>
        <div title="6.157秒" class="bar">
          <div class="bar_inner medium" style="width:38%">
            
          </div>
        </div>
      </td>
      <td>
        <div title="0.36秒" class="bar">
          <div class="bar_inner fast" style="width:93%">
            
          </div>
        </div>
      </td>
      <td>16-04-07 01:27</td>
    </tr>
'@


Invoke-RestMethod  -uri $網址 -OutFile $臨時文件名      #PowerShell 爬蟲步驟1:下載文件 
$臨時文件 = Get-Content  -raw  -LiteralPath  $臨時文件路徑全名      #PowerShell 爬蟲步驟2:打開文件放入大字元串
#powershell 傳教士 2016-04-09 win10測試通過
$結果 = ConvertFrom-String -TemplateContent $模板   -InputObject  $臨時文件      #PowerShell 爬蟲步驟3:根據模板匹配扣出需要的行列標準內容。關鍵就是做好模板。
$結果 | Format-Table -AutoSize  | Tee-Object -Append  -FilePath  $輸出文件路徑全名 

 

--------------------終-------------------- 

安裝 powershell 5.0 for win7-sp1-64

1確保你已經安裝了.net 4.5以上。如果沒裝,直接裝.net 4.6即可:

Microsoft .NET Framework 4.61

https://www.microsoft.com/zh-cn/download/details.aspx?id=49982

 

Microsoft .NET Framework 4.61 簡體中文語言包

https://www.microsoft.com/zh-cn/download/details.aspx?id=49977

 

2裝ps4.0:

https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=40855&6B49FDFB-8E5B-4B07-BC31-15695C5A2143=1

3裝ps5.0:

https://www.microsoft.com/en-us/download/confirmation.aspx?id=50395&6B49FDFB-8E5B-4B07-BC31-15695C5A2143=1

 

汝之老家,他就在這個屯,汝是win屯土生土長的人~~~

雖然家裡不咋大,卻有bat,有vbs,有powershellllllll

家裡養的倆爬蟲,誓要把那蟒蛇(python)擠回linux去~~~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 為了方便Dapper操作可以使用Dapper的相關擴展dapper simplecrud。 1.首先點擊管理NuGet 2.在管理頁面中搜索 Dapper.SimpleCRUD並安裝 然後就可以使用該包下的擴展 經過好久的尋找找到該文章,隨便吐槽一下百度真的十分坑爹,找的無用信息太多 https:/ ...
  • .Net版本 2.0 SP2 4.0 操作系統 Windows 2000 SP4以上 Windows XP SP3以上 安裝包大小 NetFx20SP2_x86.exe 23.8 MBNetFx20SP2_ia64.exe 52.2 MBNetFx20SP2_x64.exe 46.3 MB 統一安裝 ...
  • 一、去App Store 裡面下載並安裝 Xcode 二、去Xamairn下載 Xamairn Studio、MonoFramework、Monotouch 並安裝 三、打開Xamairn Studio 在插件管理裡面下載 CocosSharp模版 四、新建項目 五、編寫代碼 六、運行調試 申明:未 ...
  • 委托是C#最重要的特性之一,C#後面的所有特性基本都是建立在委托的基礎上的。 1、C#委托是什麼? 可以把C#的委托理解為函數的一個包裝,它使得C#中的函數可以作為參數來被傳遞。如果你學過C++,可以理解為相當於上面的函數指針。 委托的定義和方法的定義類似,只是在定義的前面多了一個delegate關 ...
  • Spring bean的生命周期是很容易理解。當一個bean實例化時,它可能需要執行一些初始化把它轉換成可用狀態。類似地,當bean不再需要,並且從容器中取出,一些清理的工作可能也需要做。 不過,還有把bean背後的實例化和銷毀時間之間的場景發生的活動,但是本章將只討論其中兩個是需要在bean的初始 ...
  • 最近,一直在研究一個有關“自然語言處理”的項目,在這個項目中,我們需要利用Spark進行編程,實現演算法。而Spark內核是由Scala語言開發的,所以在使用Spark之前,我們必須配置好Scala,而Scala又是運行在JVM上的,所以在配置Scala之前,先要配置好JDK。下麵是我個人的一些總結。 ...
  • 題目鏈接:https://leetcode.com/problems/happy-number/ 題目理解:實現isHappy函數,判斷一個正整數是否為happy數 happy數:計算要判斷的數的每一位的平方和,平方和為1則為happy數,不為1則將原數替換為此平方和,繼續上述步驟,直到等於1(為h ...
  • CYPRESS的USB外設控制器CY7C68013A是一款廣泛應用於USB印表機,手機,存儲設備,USB測試等多個領域的經典產品。該產品符合USB2.0協議規範,支持full speed和high speed兩種速度模式,並且配有8051的MCU,帶有IO,IIC,UART,定時器等功能。由於該晶元 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...