在對比醫院業務數據中的各類藥品價格的時候,面對著成千上百種的藥品。因而想到使用爬蟲來自動獲取網上的藥品價格,保存下來導入資料庫中就可以方便地比較院方的藥品採購價格了。 通過百度搜索“藥品價格查詢”,在眾多的網站中,這裡選擇了藥價查詢網(http://www.china-yao.com/),主要是因為 ...
在對比醫院業務數據中的各類藥品價格的時候,面對著成千上百種的藥品。因而想到使用爬蟲來自動獲取網上的藥品價格,保存下來導入資料庫中就可以方便地比較院方的藥品採購價格了。
通過百度搜索“藥品價格查詢”,在眾多的網站中,這裡選擇了藥價查詢網(http://www.china-yao.com/),主要是因為這個網站不需要用戶註冊就可以查詢藥品價格,另外查詢結果顯示界面比較簡潔,編寫爬蟲較為省心。
隨便在該站點搜索藥品“氟氯西林鈉阿莫西林膠囊”,查看生成結果頁面的源代碼(如下):
<?php $url=$_SERVER["PHP_SELF"]; if(strpos($url,"templet")){ exit(); }else if(!isset($_SESSION['HTTP_REFERER'])){ exit(); } ?><!DOCTYPE html> <html> ···此處代碼已省略··· <tbody> <!-- <tr>--> <!-- <td>氟氯西林鈉阿莫西林膠囊</td>--> <!-- <td>Bangalore</td>--> <!-- <td>560001</td>--> <!-- <td>Tanmay</td>--> <!-- <td>Bangalore</td>--> <!-- <td>560001</td>--> <!-- </tr>--> <tr> <td>氟氯西林鈉阿莫西林膠囊</td> <td>膠囊劑</td> <td>0.25g(0.125g/0.125g)*12</td> <td>5.1 </td> <td>37.3 </td> <td>湖南中南科倫藥業有限公司</td> </tr><tr> <td>氟氯西林鈉阿莫西林膠囊</td> <td>膠囊劑</td> <td>0.25g(按氟氯西林0.125g,阿莫西林0.125g)*12</td> <td>5.1</td> <td>34.8</td> <td>湖南中南科倫藥業有限公司</td> </tr> ···此處代碼已省略··· <div class="col-xs-12 text-center"> <ul class="pagination"> <li class="active"><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=1">1</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=2">2</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=3">3</a></li> ··此處代碼已省略···
從代碼的第一行可以看出該站使用的是PHP,url為“http://www.china-yao.com/?act=search&typeid=1&keyword=%E6%B0%9F%E6%B0%AF%E8%A5%BF%E6%9E%97%E9%92%A0%E9%98%BF%E8%8E%AB%E8%A5%BF%E6%9E%97%E8%83%B6%E5%9B%8A”,其中“keyword=”後跟的是“氟氯西林鈉阿莫西林膠囊”的utf8編碼格式,該藥品的價格信息比較多,總共有3頁,點開第三頁後,此時url變為“http://www.china-yao.com/?act=search&typeid=1&keyword=%E6%B0%9F%E6%B0%AF%E8%A5%BF%E6%9E%97%E9%92%A0%E9%98%BF%E8%8E%AB%E8%A5%BF%E6%9E%97%E8%83%B6%E5%9B%8A&page=3”,就是在原url地址的基礎上增加了“&page=3”,其中數字3表示第三頁。而頁碼數存在於代碼(<ul class="pagination"> ······ </ul>)之間。很顯然,我們只需要把url中“keyword=”和“&page=”後面的信息替換掉就可以組合出帶有我們需要信息的頁面的url。之後把生成的url進行utf8編碼後發送給網站,生成帶有查詢結果的頁面,篩選出(<tbody> ······ </tbody>)之間的信息進行保存。
好了,瞭解到這些之後,下麵我們就開始寫代碼了。
一、使用到的軟體工具
Python 2.7
Eclipse
二、導入需要用到的模板
1 from bs4 import BeautifulSoup 2 import urllib2 3 from myLog import MyLog 4 import time 5 import xlwt 6 import csv 7 import random
其中myLog是一個自定義模板,其實就是對logging模板的簡單格式化,代碼如下:
1 import logging 2 import getpass 3 import sys 4 5 class MyLog(object): 6 def __init__(self): 7 self.user = getpass.getuser() 8 self.logger = logging.getLogger(self.user) 9 self.logger.setLevel(logging.DEBUG) 10 self.logFile = sys.argv[0][0:-3] + '.log' 11 self.formatter = logging.Formatter('%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s\r\n') 12 self.logHand = logging.FileHandler(self.logFile, encoding='utf8') 13 self.logHand.setFormatter(self.formatter) 14 self.logHand.setLevel(logging.DEBUG) 15 self.logHandSt = logging.StreamHandler() 16 self.logHandSt.setFormatter(self.formatter) 17 self.logHandSt.setLevel(logging.DEBUG) 18 self.logger.addHandler(self.logHand) 19 self.logger.addHandler(self.logHandSt) 20 21 def debug(self,msg): 22 self.logger.debug(msg) 23 24 def info(self,msg): 25 self.logger.info(msg) 26 27 def warn(self,msg): 28 self.logger.warn(msg) 29 30 def error(self,msg): 31 self.logger.error(msg) 32 33 def critical(self,msg): 34 self.logger.critical(msg) 35 36 if __name__ == '__main__': 37 mylog = MyLog()
三、簡單構建好框架,寫出需要用到的主要函數和方法,代碼如下:
1 class Item(object): 2 mc = None #名稱 3 jx = None #劑型 4 gg = None #規格 5 ghj = None #供貨價 6 lsj = None #零售價 7 scqy = None #生成企業 8 9 class GetInfor(object): 10 def __init__(self): 11 self.log = MyLog() 12 self.starttime = time.time() 13 self.log.info(u'爬蟲程式開始運行,時間: %s' % time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(self.starttime))) 14 self.medicallist = self.getmedicallist('name.txt') 15 self.items = self.spider(self.medicallist) 16 self.pipelines_csv(self.items) 17 self.endtime = time.time() 18 self.log.info(u'爬蟲程式運行結束,時間: %s' % time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(self.endtime))) 19 self.usetime = self.endtime - self.starttime 20 self.log.info(u'用時 %d時 %d分%d秒' % (self.usetime//3600,(self.usetime%3600)//60,(self.usetime%3600)%60)) 21 22 def getmedicallist(self,filename): 23 '''從文件name.txt中導出所有需要查詢的藥品的名稱 24 ''' 25 medicallist = [] 26 with open(filename,'r') as fp: 27 s = fp.read() 28 for name in s.split(): 29 medicallist.append(name) 30 self.log.info(u'從文件%s 中讀取藥品名稱成功!獲取藥品名稱 %d 個' % (filename,len(medicallist))) 31 return medicallist 32 33 def spider(self,names): 34 items = [] 35 pass 36 return items 37 38 def pipelines_xls(self,medicallist): 39 pass 40 41 def pipelines_csv(self,medicallist): 42 pass 43 44 def getresponsecontent(self,url): 45 try: 46 response = urllib2.urlopen(url.encode('utf8')) 47 except: 48 self.log.error(u'返回 URL: %s 數據失敗' % url) 49 return '' 50 else: 51 self.log.info(u'返回URL: %s 數據成功' % url) 52 return response 53 54 if __name__ == '__main__': 55 GetInfor()
Item包含了網站查詢結果中所含的元素,方便到時候用來提取數據。GetInfor為爬蟲主程式。getmedicallist用來從文本“name.txt”中提取需要查詢的藥品名稱(該文件是先從醫院資料庫中導出的醫院所涉及到的藥品名稱),返回含有藥品名稱的列表。spider用於在網上爬取藥品價格信息,將所有信息保存到列表items中,並返回。pipelines_xls和pipelines_csv分別用於將保存下來的數據保存到xls和csv格式的文件中。getresponsecontent從spider中分離出來主要是為了方便後期的擴展。
四、添加spider的代碼
我們使用方法getmedicallist獲取到所有需要查詢的藥品名稱後,在這裡通過變數names來讀取,如下:
1 for name in names: 2 if name != '': 3 self.log.info(u'嘗試爬取%s 信息' % name.decode('GBK')) 4 url = 'http://www.china-yao.com/?act=search&typeid=1&keyword='+name.decode('GBK') 5 htmlcontent = self.getresponsecontent(url)
不加“&page=n”的情況下,只返回查詢結果第一頁的信息。但查詢結果總共有多少頁?我們需要先提取出這個最大頁數。
在頁面代碼
<ul class="pagination"> <li class="active"><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=1">1</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=2">2</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=3">3</a></li>
的這一段之中,有我們需要的頁碼值,而我們只需要最後一頁,也就是最大值。
1 def spider(self,names): 2 n = 1 3 items = [] 4 for name in names: 5 if name != '': 6 url = 'http://www.china-yao.com/?act=search&typeid=1&keyword='+name.decode('GBK') 7 htmlcontent = self.getresponsecontent(url) 8 soup = BeautifulSoup(htmlcontent,'lxml') 9 tagul = soup.find('ul',attrs={'class':'pagination'}) 10 print tagul 11 tagpage = tagul.find_all('a') 12 for page in tagpage: 13 print '###',page.get_text().strip() 14 n += 1 15 if n>15: 16 Break #先簡單測試下前15種藥品是否能正常返回我們需要的頁碼數 17 return items
從運行結果來看,效果還算滿意,通過tagul.find_all('a')得到的列表最後一條基本都是結果頁面最後一頁的頁碼。但如果結果頁面過多的時候,可以看到最後一頁的頁碼不在列表的最後,而是處於列表的倒數第二行。修改增加如下代碼,利用try來讓程式自動選擇提取最後一行還是倒數第二行。
1 if len(tagpage) == 0: 2 page = 0 3 else: 4 try: 5 page = int(tagpage[-1].get_text().strip()) 6 except: 7 page = int(tagpage[-2].get_text().strip())
獲取到最後一頁查詢結果的頁碼值後,我們就可以組合出完整的url地址了。遍歷所有的url組合,提取出tbody之間的藥品價格信息。方法spider的完整代碼如下:
1 def spider(self,names): 2 items = [] 3 for name in names: 4 if name != '': 5 self.log.info(u'嘗試爬取%s 信息' % name.decode('GBK')) 6 url = 'http://www.china-yao.com/?act=search&typeid=1&keyword='+name.decode('GBK') 7 htmlcontent = self.getresponsecontent(url) 8 soup = BeautifulSoup(htmlcontent,'lxml') 9 tagul = soup.find('ul',attrs={'class':'pagination'}) 10 tagpage = tagul.find_all('a') 11 self.log.info(u'此藥品信息共%d 頁' % len(tagpage)) 12 time.sleep(1) 13 if len(tagpage) == 0: 14 page = 0 15 else: 16 try: 17 page = int(tagpage[-1].get_text().strip()) 18 except: 19 page = int(tagpage[-2].get_text().strip()) 20 for i in range(1,page+1): 21 newurl = url+'&page='+str(i) 22 newhtmlcontent = self.getresponsecontent(newurl) 23 soup = BeautifulSoup(newhtmlcontent,'lxml') 24 tagtbody = soup.find('tbody') 25 tagtr = tagtbody.find_all('tr') 26 self.log.info(u'該頁面共有記錄 %d 條,開始爬取' % len(tagtr)) 27 for tr in tagtr: 28 tagtd = tr.find_all('td') 29 item = Item() 30 item.mc = tagtd[0].get_text().strip() 31 item.jx = tagtd[1].get_text().strip() 32 item.gg = tagtd[2].get_text().strip() 33 item.ghj = tagtd[3].get_text().strip() 34 item.lsj = tagtd[4].get_text().strip() 35 item.scqy = tagtd[5].get_text().strip() 36 items.append(item) 37 self.log.info(u'頁面%s 數據已保存' % newurl) 38 sleeptime = random.randint(7,12) 39 time.sleep(sleeptime) #給程式適當降速,防止被伺服器攔截 40 41 self.log.info(u'數據爬取結束,共獲取 %d條數據。' % len(items)) 42 return items
五、保存收集到的數據
添加方法pipelinespipelines_xls和pipelines_csv的代碼
1 def pipelines_xls(self,medicallist): 2 filename = u'西藥藥品價格數據.xls'.encode('GBK') 3 self.log.info(u'準備保存數據到excel中...') 4 book = xlwt.Workbook(encoding = 'utf8',style_compression=0) 5 sheet = book.add_sheet(u'西藥藥品價格') 6 sheet.write(0,0,u'名稱'.encode('utf8')) 7 sheet.write(0,1,u'劑型'.encode('utf8')) 8 sheet.write(0,2,u'規格'.encode('utf8')) 9 sheet.write(0,3,u'供貨價'.encode('utf8')) 10 sheet.write(0,4,u'零售價'.encode('utf8')) 11 sheet.write(0,5,u'生產企業'.encode('utf8')) 12 for i in range(1,len(medicallist)+1): 13 item = medicallist[i-1] 14 sheet.write(i,0,item.mc) 15 sheet.write(i,1,item.jx) 16 sheet.write(i,2,item.gg) 17 sheet.write(i,3,item.ghj) 18 sheet.write(i,4,item.lsj) 19 sheet.write(i,5,item.scqy) 20 book.save(filename) 21 self.log.info(u'excel文件保存成功!') 22 23 def pipelines_csv(self,medicallist): 24 filename = u'西藥藥品價格數據.csv'.encode('GBK') 25 self.log.info(u'準備保存數據到csv中...') 26 writer = csv.writer(file(filename,'wb')) 27 writer.writerow([u'名稱'.encode('utf8'),u'劑型'.encode('utf8'),u'規格'.encode('utf8'),u'供貨價'.encode('utf8'),u'零售價'.encode('utf8'),u'生產企業'.encode('utf8')]) 28 for i in range(1,len(medicallist)+1): 29 item = medicallist[i-1] 30 writer.writerow([item.mc.encode('utf8'),item.jx.encode('utf8'),item.gg.encode('utf8'),item.ghj.encode('utf8'),item.lsj.encode('utf8'),item.scqy.encode('utf8')]) 31 self.log.info(u'csv文件保存成功!')
至此,全部完成了,點擊“運行”。
這裡保存的是.csv格式,需要.xls格式的,只需要在__init__中把調用的方法pipelines_csv換成pipelines_xls即可。
當然目前還存在很多不足,
1、數據量過大的時候,單線程處理速度過慢。
2、方法getresponsecontent讀取頁面錯誤的情況下,沒有進一步的處理。
3、沒有使用代理,只是簡單的利用time的sleep函數進行簡單的防攔截。
上述問題將在隨後進行解決。
當然,有什麼不當之處,歡迎大家批評指點~