用PHP抓取淘寶商品的用戶曬單評論+圖片實例

来源:http://www.cnblogs.com/codeit/archive/2016/04/13/5387185.html
-Advertisement-
Play Games

為什麼想起來做這個功能?是因為前段時間在做一個淘客網站的時候,想到是否能抓取到淘寶商品的買家秀呢?經過一番折騰發現,淘寶商品用戶評價信息是通過Ajax來調取的,通過嗅探網址發現,評論數據的請求介面是: 其實上面很多參數也很容易理解,itemId是商品的ID,currentPage是當前頁,pictu ...


為什麼想起來做這個功能?是因為前段時間在做一個淘客網站的時候,想到是否能抓取到淘寶商品的買家秀呢?經過一番折騰發現,淘寶商品用戶評價信息是通過Ajax來調取的,通過嗅探網址發現,評論數據的請求介面是:

https://rate.tmall.com/list_detail_rate.htm?itemId=524394294771&spuId=341564036&sellerId=100414600&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=1&callback=jsonp2339

其實上面很多參數也很容易理解,itemId是商品的ID,currentPage是當前頁,picture為1時顯示有圖的評價,既然是抓取買家秀,那麼picture參數一定要為1了。

如果你直接去訪問上面的介面時,會得到如下圖所示的請求結果:

看到請求結果是jsonp格式我就蛋碎了,我不知道如何去解析,但是換種思路,直接用PHP的正則去解析也未嘗不可嘛,通過嘗試,已經正確的能夠解析到評論內容和買家秀的圖片內容,如圖:

效果不錯,代碼實現了評論內容的抓取、買家秀圖片的抓取,代碼奉上:

<?php
$url = "https://rate.tmall.com/list_detail_rate.htm?itemId=524394294771&spuId=341564036&sellerId=100414600&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=1&callback=jsonp2339";
$ch2 = curl_init();
curl_setopt($ch2, CURLOPT_URL, $url);
curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);
curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);
curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);
$texts = curl_exec($ch2);
curl_close($ch2);
//echo $texts;
$pattern = '/"pics"(.+?)","reply"/is';
preg_match_all($pattern, $texts, $match);
for($i=0;$i<count($match[0]);$i++){
    $pattern2 = '/"rateContent":"(.+?)."reply"/is';
    preg_match($pattern2, $match[0][$i], $matchcomments_only);
    echo "<p>".str_replace('","rateDate":"',' ',str_replace('","reply"','',str_replace('"rateContent":"','',$matchcomments_only[0])))."</p>";

    $pattern3 = '/img.alicdn(.+?).jpg/is';
    preg_match($pattern3, $match[0][$i], $matchpic_only);
    echo '<img src="http://'.$matchpic_only[0].'" width=120>';
}

/*匹配一張圖片
$pattern = '/"pics"(.+?)","position"/is';
preg_match_all($pattern, $texts, $matchpic);
for($i=0;$i<count($matchpic[0]);$i++){
    $pattern3 = '/img.alicdn(.+?).jpg/is';
    preg_match($pattern3, $matchpic[0][$i], $matchpic_only);
    echo "<p>".$matchpic_only[0]."</p>";
}*/

/*匹配所有圖片
$pattern = '/"pics"(.+?)","position"/is';
preg_match_all($pattern, $texts, $matchpic);
for($i=0;$i<count($matchpic[0]);$i++){
    $pics_str=str_replace('"pics":["//','',str_replace('"],"picsSmall":"","position"','',$matchpic[0][$i]));
    $arr = explode('","//',$pics_str);
    echo "<p>";
    foreach($arr as $newstr){
        echo '<img src=http://'.$newstr.' width=100 >';
    }
    echo "</p>";
}*/
?>

有什麼解析jsonp格式的好方法呢?求大神~~~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ...
  • 1.Question Description: 對象A 關聯多個 對象B, 想對關聯的多個對象B進行排序 2. Solution: 2.1 關聯關係表中需要有排序欄位(如ordernum),可以以當前系統時間的毫秒數作為序號(Long currentTimeMillis = System.curre ...
  • 要在django項目中定期執行任務,比如每天一定的時間點抓取數據,刷新資料庫等,可以參考stackoverflow的方法,先編寫一個manage.py命令,然後使用crontab來定時執行這個命令。 定製manage.py命令 app可以使用manage.py註冊自己的命令,比如要在polls這個a ...
  • @Jfinal 老大提供的解決方法 當資料庫欄位為 int 型(有符號int型),但是如果在 sql 中使用了某些函數,jdbc 會自動轉型為 long,例如:select sum(money) from account where accountId = 123。這個行為是 jdbc自動做的,目的 ...
  • Can you solve this equation? Time Limit : 2000/1000ms (Java/Other) Memory Limit : 32768/32768K (Java/Other) Total Submission(s) : 186 Accepted Submiss ...
  • 崔用志-微信開發-java版本 今天看到一些關於微信開發的知識蠻好的博客,分享給大家,希望對大家有幫助。 微信開發準備(一)--Maven倉庫管理新建WEB項目 微信開發準備(二)--springmvc+mybatis項目結構的搭建 微信開發準備(三)--框架以及工具的基本使用 微信開發準備(四)- ...
  • volatile關鍵字 volatile是一個特殊的修飾符,只有成員變數才能使用它,與Synchronized及ReentrantLock等提供的互斥相比,Synchronized保證了Synchronized同步塊中變數的可見性,而volatile則是保證了所修飾變數的可見性。可見性指的是在一個線 ...
  • package com.itcast.day3; import java.io.ObjectInputStream.GetField; import java.lang.reflect.Constructor; import java.lang.reflect.InvocationHandler; ... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...