這篇博文主要講一下如何使用Phantomjs進行數據抓取,這裡面抓的網站是太平洋電腦網估價的內容。主要是對電腦筆記本以及他們的屬性進行抓取,然後在使用nodejs進行下載圖片和插入資料庫操作。 ...
概要:
這篇博文主要講一下如何使用Phantomjs進行數據抓取,這裡面抓的網站是太平洋電腦網估價的內容。主要是對電腦筆記本以及他們的屬性進行抓取,然後在使用nodejs進行下載圖片和插入資料庫操作。
先進行所有頁面的內容進行抓取
var page =require('webpage').create();
var address='http://product.pconline.com.cn/server/';
var fs = require('fs');
var mypath = 'version/server/server.txt';
var count = 2;
var pageSize=0;
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function loadController(status){
loadComputerList(address);
}
function loadComputerList(url){
console.log('loading '+url);
page.onLoadFinished = function loadListsucc(status){
console.log("loadlistSucc ["+url+"] =======================Status:"+status);
};
page.open(url,function(status){
setTimeout(function(){
console.log(status);
var content='';
content = page.evaluate(function(){
var cont='';
var listComputer = document.querySelectorAll('div.item-title>h3>a');
var listPrice =document.querySelectorAll('div.price');
for(var j=0;jvar computer = listComputer[j].innerText;
var price = listPrice[j].innerText;
var url = listComputer[j];
cont += computer+'\t\t價格:'+price+','+url+'\r\n';
}
return cont;
});
console.log(content);
console.log('========== write to file !============');
try{
fs.write(mypath, content, 'a');
}catch(e){
console.log(e);
}
console.log('========== begin loading next page!============');
var nextUrl = page.evaluate(function(){
var url = '';
var next = document.querySelectorAll('div.pager a[class=page-next]');
var cont = '';
url = next[0];
cont += url;
return cont;
});
console.log(nextUrl);
if(count else{
console.log(count);
phantom.exit();
}
}, 100);
});
}
page.open(address,function(status){
// page.onLoadFinished = loadController;
page.render('computer.jpeg');
pageSize = page.evaluate(function(){
var cont='';
var size =document.querySelector('div.pager>em>i').innerText;
cont += size;
return cont;
});
console.log(pageSize);
loadController(status);
});
上面部分代碼可以直接抓取到
http://product.pconline.com.cn/server/
這個頁面中所有分頁的信息
下麵進行代碼分析:
page.open(address,function(status){
// page.onLoadFinished = loadController;
page.render('computer.jpeg');
pageSize = page.evaluate(function(){
var cont='';
var size =document.querySelector('div.pager>em>i').innerText;
cont += size;
return cont;
});
console.log(pageSize);
loadController(status);
});
這部分代碼是Phantomjs的入口,也是我們進行數據抓取的開始部分。
var size =document.querySelector('div.pager>em>i').innerText;
這裡抓到的信息是所有頁面的頁數,用來作為迴圈判斷的次數依據
然後觀察代碼就可以發現從入口結束之後就跳轉到了LoadContriller函數中去,然後再調用loadComputerList這個函數,然後就可以進行數據抓取了
我們再看一下
var listComputer = document.querySelectorAll('div.item-title>h3>a');
var listPrice =document.querySelectorAll('div.price');
這兩段代碼,就是我們要抓取的電腦URL以及價格的信息。
再抓到我們想要的信息之後,我們再對其進行拼接
for(var j=0;jlistComputer.length;j++){
var computer = listComputer[j].innerText;
var price = listPrice[j].innerText;
var url = listComputer[j];
cont += computer+'\t\t價格:'+price+','+url+'\r\n';
}
然後獲得一行具有基本信息的電腦屬性。
然後接下來的工作就是要把這些信息進行存儲,我們這裡因為不能直接存入資料庫,所以要先存入文本中,代碼如下:
var fs = require('fs');
try{
fs.write(mypath, content, 'a');
}catch(e){
console.log(e);
}
再PhantomJS中有API種有相應的讀寫文件講解,這裡就不多說了,上述代碼就是在請求獲得之後,將我們拼接好的內容寫入文件中,採用的方式是’a’是添加的意思
經過上述過程,我們已經能夠將第一個頁面中的所有基本信息抓下來了,接下來的問題就是我們該如何跳轉到下一個頁面中,去抓取接下來的內容
代碼如下:
var nextUrl = page.evaluate(function(){
var url = '';
var next = document.querySelectorAll('div.pager a[class=page-next]');
var cont = '';
url = next[0];
cont += url;
return cont;
});
console.log(nextUrl);
if(count console.log(nextUrl);
count++;
console.log(count);
loadComputerList(nextUrl);
}else{
console.log(count);
phantom.exit();
}
這裡面獲取下一個頁面Url用到的js語句是:
var next = document.querySelectorAll('div.pager a[class=page-next]');
朋友們可以使用開發者工具去該網站中看一下點擊下一頁按鈕對應的dom節點是什麼,然後就明白這段代碼的含義了
再這裡面,我們獲取了下一頁的按鈕之後,還需要進行判斷現在的迴圈次數,由於下一頁的按鈕是一直存在的,我們並不能通過判斷是否為空來結束任務,所以我這裡用了一個比較蠢得辦法來解決這個問題。
抓取所有頁面的內容就基本上完成了,這段腳本代碼比較簡單,如果需要抓同一個網站,只需要修改兩部分就可以了,一個是address這個入口,還有就是寫文件的路徑。
抓取詳細信息
再上面我們已經抓到了一些基本信息了,但是頁面中並沒有為我們提供比如電腦cpu,記憶體,顯卡這些內容,所以我們的抓取工作並沒有完成。那麼接下來的工作就是要通過我們剛纔有抓到的url進入到電腦商品的詳細信息頁面中去,然後再抓下我們所需要的詳細信息。
代碼如下:
var page =require('webpage').create();
var address='http://product.pconline.com.cn/server/';
var fs = require('fs');
var mypath='version/Server/server_page.txt';
var stream = null;
var steams = null;
var K=1;
var line ='';
var cate ='';
var url = '';
var dragPath='version/Server/server_detail.txt';
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function start(url){
console.log(url);
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var name = document.querySelector('.pro-tit>h1').innerText;
name = name.replace('參數','');
var listComputer = document.querySelectorAll('div.pannel>ul .title');
var listParameter = document.querySelectorAll('[itemid]');
var price = document.querySelector('.r-price').innerText;
price = price.replace(/\n/g,'');
var cont= name+'|&|'+price+'|&|產品特性:';
for(var j=0;jvar computer = listComputer[j].innerText;
computer = computer.replace(' ','');
cont += computer+' ';
}
for( var j = 0;jvar parameter = listParameter[j].innerText;
parameter = parameter.replace(/\n/g,'');
parameter = parameter.replace('\t',' ');
if(j1){
cont += parameter+"|&|";
}else{
cont += parameter+'';
}
}
return cont+'\r\n';
});
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
}
console.log(stream);
}else{
console.log('page open fail!');
}
before();
}, 100);
});
}
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
console.log(cate[1]);
var pcUrl = cate[1].replace('.html','_detail.html');
console.log(pcUrl);
start(pcUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
page.open(address,function(status){
readFile(status);
})
我們繼續來分析下代碼,Phantomjs的開始入口我們就不講了,每次啟動phantomjs都是由這個入口開始,然後再到我們想要的操作中去。
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
這裡我們成功打開文件,並且把文件中的內容緩存到了streams中去,這裡設置的是全局變數,所以直接跳到before這個函數中去
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
console.log(cate[1]);
var pcUrl = cate[1].replace('.html','_detail.html');
console.log(pcUrl);
start(pcUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
這裡面進行的操作主要是在抓文件前,我們需要對我們剛纔讀進來的內容進行分析,比如:
line = streams.readLine();
cate = line.split(',');
var pcUrl = cate[1].replace('.html','_detail.html');
這三部分,首先就是實現了逐行讀取的功能,將每一行的內容讀出來,然後通過分隔符獲得Url,這裡由於我們獲得的url並不是我們要的詳細信息url,所以我們要進行拼接。
http://product.pconline.com.cn/server/lenovo/514943.html
http://product.pconline.com.cn/server/lenovo/514943_detail.html
這裡提供兩段實例,讀者可以進去看一下,就明白我們為什麼要這麼拼接url了
stream = page.evaluate(function(){
var name = document.querySelector('.pro-tit>h1').innerText;
name = name.replace('參數','');
var listComputer = document.querySelectorAll('div.pannel>ul .title');
var listParameter = document.querySelectorAll('[itemid]');
var price = document.querySelector('.r-price').innerText;
price = price.replace(/\n/g,'');
var cont= name+'|&|'+price+'|&|產品特性:';
for(var j=0;jvar computer = listComputer[j].innerText;
computer = computer.replace(' ','');
概要:
這篇博文主要講一下如何使用Phantomjs進行數據抓取,這裡面抓的網站是太平洋電腦網估價的內容。主要是對電腦筆記本以及他們的屬性進行抓取,然後在使用nodejs進行下載圖片和插入資料庫操作。
先進行所有頁面的內容進行抓取
var page =require('webpage').create();
var address='http://product.pconline.com.cn/server/';
var fs = require('fs');
var mypath = 'version/server/server.txt';
var count = 2;
var pageSize=0;
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function loadController(status){
loadComputerList(address);
}
function loadComputerList(url){
console.log('loading '+url);
page.onLoadFinished = function loadListsucc(status){
console.log("loadlistSucc ["+url+"] =======================Status:"+status);
};
page.open(url,function(status){
setTimeout(function(){
console.log(status);
var content='';
content = page.evaluate(function(){
var cont='';
var listComputer = document.querySelectorAll('div.item-title>h3>a');
var listPrice =document.querySelectorAll('div.price');
for(var j=0;jvar computer = listComputer[j].innerText;
var price = listPrice[j].innerText;
var url = listComputer[j];
cont += computer+'\t\t價格:'+price+','+url+'\r\n';
}
return cont;
});
console.log(content);
console.log('========== write to file !============');
try{
fs.write(mypath, content, 'a');
}catch(e){
console.log(e);
}
console.log('========== begin loading next page!============');
var nextUrl = page.evaluate(function(){
var url = '';
var next = document.querySelectorAll('div.pager a[class=page-next]');
var cont = '';
url = next[0];
cont += url;
return cont;
});
console.log(nextUrl);
if(count else{
console.log(count);
phantom.exit();
}
}, 100);
});
}
page.open(address,function(status){
// page.onLoadFinished = loadController;
page.render('computer.jpeg');
pageSize = page.evaluate(function(){
var cont='';
var size =document.querySelector('div.pager>em>i').innerText;
cont += size;
return cont;
});
console.log(pageSize);
loadController(status);
});
上面部分代碼可以直接抓取到
http://product.pconline.com.cn/server/
這個頁面中所有分頁的信息
下麵進行代碼分析:
page.open(address,function(status){
// page.onLoadFinished = loadController;
page.render('computer.jpeg');
pageSize = page.evaluate(function(){
var cont='';
var size =document.querySelector('div.pager>em>i').innerText;
cont += size;
return cont;
});
console.log(pageSize);
loadController(status);
});
這部分代碼是Phantomjs的入口,也是我們進行數據抓取的開始部分。
var size =document.querySelector('div.pager>em>i').innerText;
這裡抓到的信息是所有頁面的頁數,用來作為迴圈判斷的次數依據
然後觀察代碼就可以發現從入口結束之後就跳轉到了LoadContriller函數中去,然後再調用loadComputerList這個函數,然後就可以進行數據抓取了
我們再看一下
var listComputer = document.querySelectorAll('div.item-title>h3>a');
var listPrice =document.querySelectorAll('div.price');
這兩段代碼,就是我們要抓取的電腦URL以及價格的信息。
再抓到我們想要的信息之後,我們再對其進行拼接
for(var j=0;jlistComputer.length;j++){
var computer = listComputer[j].innerText;
var price = listPrice[j].innerText;
var url = listComputer[j];
cont += computer+'\t\t價格:'+price+','+url+'\r\n';
}
然後獲得一行具有基本信息的電腦屬性。
然後接下來的工作就是要把這些信息進行存儲,我們這裡因為不能直接存入資料庫,所以要先存入文本中,代碼如下:
var fs = require('fs');
try{
fs.write(mypath, content, 'a');
}catch(e){
console.log(e);
}
再PhantomJS中有API種有相應的讀寫文件講解,這裡就不多說了,上述代碼就是在請求獲得之後,將我們拼接好的內容寫入文件中,採用的方式是’a’是添加的意思
經過上述過程,我們已經能夠將第一個頁面中的所有基本信息抓下來了,接下來的問題就是我們該如何跳轉到下一個頁面中,去抓取接下來的內容
代碼如下:
var nextUrl = page.evaluate(function(){
var url = '';
var next = document.querySelectorAll('div.pager a[class=page-next]');
var cont = '';
url = next[0];
cont += url;
return cont;
});
console.log(nextUrl);
if(count console.log(nextUrl);
count++;
console.log(count);
loadComputerList(nextUrl);
}else{
console.log(count);
phantom.exit();
}
這裡面獲取下一個頁面Url用到的js語句是:
var next = document.querySelectorAll('div.pager a[class=page-next]');
朋友們可以使用開發者工具去該網站中看一下點擊下一頁按鈕對應的dom節點是什麼,然後就明白這段代碼的含義了
再這裡面,我們獲取了下一頁的按鈕之後,還需要進行判斷現在的迴圈次數,由於下一頁的按鈕是一直存在的,我們並不能通過判斷是否為空來結束任務,所以我這裡用了一個比較蠢得辦法來解決這個問題。
抓取所有頁面的內容就基本上完成了,這段腳本代碼比較簡單,如果需要抓同一個網站,只需要修改兩部分就可以了,一個是address這個入口,還有就是寫文件的路徑。
抓取詳細信息
再上面我們已經抓到了一些基本信息了,但是頁面中並沒有為我們提供比如電腦cpu,記憶體,顯卡這些內容,所以我們的抓取工作並沒有完成。那麼接下來的工作就是要通過我們剛纔有抓到的url進入到電腦商品的詳細信息頁面中去,然後再抓下我們所需要的詳細信息。
代碼如下:
var page =require('webpage').create();
var address='http://product.pconline.com.cn/server/';
var fs = require('fs');
var mypath='version/Server/server_page.txt';
var stream = null;
var steams = null;
var K=1;
var line ='';
var cate ='';
var url = '';
var dragPath='version/Server/server_detail.txt';
phantom.outputEncoding="gbk";
page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko";
function start(url){
console.log(url);
page.open(url,function(status){
setTimeout(function(){
if(status == 'success'){
console.log('open success!');
console.log('==========begin work!=============');
stream = page.evaluate(function(){
var name = document.querySelector('.pro-tit>h1').innerText;
name = name.replace('參數','');
var listComputer = document.querySelectorAll('div.pannel>ul .title');
var listParameter = document.querySelectorAll('[itemid]');
var price = document.querySelector('.r-price').innerText;
price = price.replace(/\n/g,'');
var cont= name+'|&|'+price+'|&|產品特性:';
for(var j=0;jvar computer = listComputer[j].innerText;
computer = computer.replace(' ','');
cont += computer+' ';
}
for( var j = 0;jvar parameter = listParameter[j].innerText;
parameter = parameter.replace(/\n/g,'');
parameter = parameter.replace('\t',' ');
if(j1){
cont += parameter+"|&|";
}else{
cont += parameter+'';
}
}
return cont+'\r\n';
});
try{
fs.write(dragPath, stream, 'a');
}catch(e){
console.log(e);
}
console.log(stream);
}else{
console.log('page open fail!');
}
before();
}, 100);
});
}
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
console.log(cate[1]);
var pcUrl = cate[1].replace('.html','_detail.html');
console.log(pcUrl);
start(pcUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
page.open(address,function(status){
readFile(status);
})
我們繼續來分析下代碼,Phantomjs的開始入口我們就不講了,每次啟動phantomjs都是由這個入口開始,然後再到我們想要的操作中去。
function readFile(status){
streams = fs.open(mypath,'r');
before();
}
這裡我們成功打開文件,並且把文件中的內容緩存到了streams中去,這裡設置的是全局變數,所以直接跳到before這個函數中去
function before(){
console.log('=========work in befor==========='+K);
K++;
if(!streams.atEnd()){
console.log('=========work in befor get Next Line===========');
line = streams.readLine();
cate = line.split(',');
console.log(cate[1]);
var pcUrl = cate[1].replace('.html','_detail.html');
console.log(pcUrl);
start(pcUrl);
}else{
console.log('end!!!!!!!!!!!!');
phantom.exit();
}
}
這裡面進行的操作主要是在抓文件前,我們需要對我們剛纔讀進來的內容進行分析,比如:
line = streams.readLine();
cate = line.split(',');
var pcUrl = cate[1].replace('.html','_detail.html');
這三部分,首先就是實現了逐行讀取的功能,將每一行的內容讀出來,然後通過分隔符獲得Url,這裡由於我們獲得的url並不是我們要的詳細信息url,所以我們要進行拼接。
http://product.pconline.com.cn/server/lenovo/514943.html
http://product.pconline.com.cn/server/lenovo/514943_detail.html
這裡提供兩段實例,讀者可以進去看一下,就明白我們為什麼要這麼拼接url了
stream = page.evaluate(function(){
var name = document.querySelector('.pro-tit>h1').innerText;
name = name.replace('參數','');
var listComputer = document.querySelectorAll('div.pannel>ul .title');
var listParameter = document.querySelectorAll('[itemid]');
var price = document.querySelector('.r-price').innerText;
price = price.replace(/\n/g,'');
var cont= name+'|&|'+price+'|&|產品特性:';
for(var j=0;jvar computer = listComputer[j].innerText;
computer = computer.replace(' ','');
cont += computer+' ';
}
for( var j = 0;jvar parameter = listParameter[j].innerText;
parameter = parameter.replace(/\n/g,'');
parameter = parameter.replace('\t',' ');
if(j1){
cont += parameter+"|&|";
}else{
cont += parameter+'';
}
}
return cont+'\r\n';
});
這部分代碼就是我們要獲取詳細信息的代碼了,讀者可以研究一下,其實原理就是找到節點,然後取出來,進行拼接,最後獲得一個詳細的信息,實例:
聯想ThinkServer TS130 S1225/2G/500O|&|¥5417|&|產品特性:產品型號 TS130 S1225/2G/500O|&|產品類型 塔式|&|產品結構 4U|&|CPU系列 至強處理器E3系列,Intel|&|CPU核心 四核|&|匯流排規格 DMI 5GT/s|&|CPU型號 E3-1225|&|CPU主頻 3.1GHz|&|三級緩存 6M|&|標配CPU數目 1個|&|主板插槽 1×PCIE 2.0 x161×PCIE 2.0 x12×PCI 32/33|&|記憶體類型 DDR3|&|標配記憶體 2G|&|最大記憶體容量 32G|&|硬碟介面類型 SATAⅢ|&|標配硬碟 500G|&|最大硬碟容量 4TB|&|硬碟轉速 7200轉|&|硬碟陣列 Raid 0,Raid 1|&|光碟機 DVD-ROM光碟機|&|顯示晶元 集成顯卡|&|網卡 雙埠千兆網卡|&|工作環境 工作溫度:10℃-35℃,工作濕度:10%-80%|&|存儲環境 儲存溫度:-40℃-70℃,儲存濕度:10%-90%|&|電源 1個80PLUS單電源|&|最大功率 280W|&|操作系統 Windows 2003 R2 SP2簡體中文標準版(32位/64位) Windows 2003 R2 SP2簡體中文企業版(32位/64位)Windows Server 2008 簡體中文基礎版(64位) Windows Server 2008 簡體中文標準版(32位/64位)Windows Server 2008 簡體中文企業版(32位/64位)Windows Server 2008 R2 簡體中文基礎版(64位)Windows Server 2008 R2 簡體中文標準版(64位) Windows Server 2008 R2 簡體中文企業版(64位) Windows Small Business Server 2011 Essential Windows XP 簡體中文專業版,SP2Windows Vista Business 簡體中文商業版Windows 7簡體中文專業版(32位/64位)Windows 7簡體中文旗艦版(32位/64位)|&|尺寸 406×377×174mm
上面這部分就是我們獲取到的詳細的電腦信息內容,然後再拼接完信息之後,我們要做的就是寫入文件中去,這裡和上面是相似的,我就不重覆了。
cont += computer+' '; } for( var j = 0;jvar parameter = listParameter[j].innerText; parameter = parameter.replace(/\n/g,''); parameter = parameter.replace('\t',' '); if(j1){ cont += parameter+"|&|"; }else{ cont += parameter+''; } } return cont+'\r\n'; });
這部分代碼就是我們要獲取詳細信息的代碼了,讀者可以研究一下,其實原理就是找到節點,然後取出來,進行拼接,最後獲得一個詳細的信息,實例:
聯想ThinkServer TS130 S1225/2G/500O|&|¥5417|&|產品特性:產品型號 TS130 S1225/2G/500O|&|產品類型 塔式|&|產品結構 4U|&|CPU系列 至強處理器E3系列,Intel|&|CPU核心 四核|&|匯流排規格 DMI 5GT/s|&|CPU型號 E3-1225|&|CPU主頻 3.1GHz|&|三級緩存 6M|&|標配CPU數目 1個|&|主板插槽 1×PCIE 2.0 x161×PCIE 2.0 x12×PCI 32/33|&|記憶體類型 DDR3|&|標配記憶體 2G|&|最大記憶體容量 32G|&|硬碟介面類型 SATAⅢ|&|標配硬碟 500G|&|最大硬碟容量 4TB|&|硬碟轉速 7200轉|&|硬碟陣列 Raid 0,Raid 1|&|光碟機 DVD-ROM光碟機|&|顯示晶元 集成顯卡|&|網卡 雙埠千兆網卡|&|工作環境 工作溫度:10℃-35℃,工作濕度:10%-80%|&|存儲環境 儲存溫度:-40℃-70℃,儲存濕度:10%-90%|&|電源 1個80PLUS單電源|&|最大功率 280W|&|操作系統 Windows 2003 R2 SP2簡體中文標準版(32位/64位) Windows 2003 R2 SP2簡體中文企業版(32位/64位)Windows Server 2008 簡體中文基礎版(64位) Windows Server 2008 簡體中文標準版(32位/64位)Windows Server 2008 簡體中文企業版(32位/64位)Windows Server 2008 R2 簡體中文基礎版(64位)Windows Server 2008 R2 簡體中文標準版(64位) Windows Server 2008 R2 簡體中文企業版(64位) Windows Small Business Server 2011 Essential Windows XP 簡體中文專業版,SP2Windows Vista Business 簡體中文商業版Windows 7簡體中文專業版(32位/64位)Windows 7簡體中文旗艦版(32位/64位)|&|尺寸 406×377×174mm
上面這部分就是我們獲取到的詳細的電腦信息內容,然後再拼接完信息之後,我們要做的就是寫入文件中去,這裡和上面是相似的,我就不重覆了。