利用爬蟲獲取網上醫院藥品價格信息 (上)

来源:https://www.cnblogs.com/geek-arking/archive/2018/04/08/8748228.html
-Advertisement-
Play Games

在對比醫院業務數據中的各類藥品價格的時候,面對著成千上百種的藥品。因而想到使用爬蟲來自動獲取網上的藥品價格,保存下來導入資料庫中就可以方便地比較院方的藥品採購價格了。 通過百度搜索“藥品價格查詢”,在眾多的網站中,這裡選擇了藥價查詢網(http://www.china-yao.com/),主要是因為 ...


    在對比醫院業務數據中的各類藥品價格的時候,面對著成千上百種的藥品。因而想到使用爬蟲來自動獲取網上的藥品價格,保存下來導入資料庫中就可以方便地比較院方的藥品採購價格了。

    通過百度搜索“藥品價格查詢”,在眾多的網站中,這裡選擇了藥價查詢網(http://www.china-yao.com/),主要是因為這個網站不需要用戶註冊就可以查詢藥品價格,另外查詢結果顯示界面比較簡潔,編寫爬蟲較為省心。

    隨便在該站點搜索藥品“氟氯西林鈉阿莫西林膠囊”,查看生成結果頁面的源代碼(如下):

<?php
$url=$_SERVER["PHP_SELF"];
if(strpos($url,"templet")){
    exit();
}else if(!isset($_SESSION['HTTP_REFERER'])){
    exit();
}
?><!DOCTYPE html>
<html>
···此處代碼已省略···
<tbody>
<!--                    <tr>-->
<!--                        <td>氟氯西林鈉阿莫西林膠囊</td>-->
<!--                        <td>Bangalore</td>-->
<!--                        <td>560001</td>-->
<!--                        <td>Tanmay</td>-->
<!--                        <td>Bangalore</td>-->
<!--                        <td>560001</td>-->
<!--                    </tr>-->
                    <tr>
                            <td>氟氯西林鈉阿莫西林膠囊</td>
                            <td>膠囊劑</td>
                            <td>0.25g(0.125g/0.125g)*12</td>
                            <td>5.1                                               </td>
                            <td>37.3                                              </td>
                            <td>湖南中南科倫藥業有限公司</td>
                        </tr><tr>
                            <td>氟氯西林鈉阿莫西林膠囊</td>
                            <td>膠囊劑</td>
                            <td>0.25g(按氟氯西林0.125g,阿莫西林0.125g)*12</td>
                            <td>5.1</td>
                            <td>34.8</td>
                            <td>湖南中南科倫藥業有限公司</td>
                        </tr>

···此處代碼已省略···

<div class="col-xs-12 text-center">
                <ul class="pagination">
                    <li class="active"><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=1">1</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=2">2</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=3">3</a></li>

··此處代碼已省略···

從代碼的第一行可以看出該站使用的是PHPurl為“http://www.china-yao.com/?act=search&typeid=1&keyword=%E6%B0%9F%E6%B0%AF%E8%A5%BF%E6%9E%97%E9%92%A0%E9%98%BF%E8%8E%AB%E8%A5%BF%E6%9E%97%E8%83%B6%E5%9B%8A”,其中“keyword=”後跟的是“氟氯西林鈉阿莫西林膠囊”的utf8編碼格式,該藥品的價格信息比較多,總共有3頁,點開第三頁後,此時url變為“http://www.china-yao.com/?act=search&typeid=1&keyword=%E6%B0%9F%E6%B0%AF%E8%A5%BF%E6%9E%97%E9%92%A0%E9%98%BF%E8%8E%AB%E8%A5%BF%E6%9E%97%E8%83%B6%E5%9B%8A&page=3”,就是在原url地址的基礎上增加了“&page=3”,其中數字3表示第三頁。而頁碼數存在於代碼(<ul class="pagination"> ······ </ul>)之間。很顯然,我們只需要把url中“keyword=”和“&page=”後面的信息替換掉就可以組合出帶有我們需要信息的頁面的url。之後把生成的url進行utf8編碼後發送給網站,生成帶有查詢結果的頁面,篩選出(<tbody> ······ </tbody>)之間的信息進行保存。

    好了,瞭解到這些之後,下麵我們就開始寫代碼了。

一、使用到的軟體工具

Python 2.7

Eclipse

 

二、導入需要用到的模板

1 from bs4 import BeautifulSoup
2 import urllib2
3 from myLog import MyLog
4 import time
5 import xlwt
6 import csv
7 import random

其中myLog是一個自定義模板,其實就是對logging模板的簡單格式化,代碼如下:

 

 1 import logging
 2 import getpass
 3 import sys
 4     
 5 class MyLog(object):
 6     def __init__(self):
 7         self.user = getpass.getuser()
 8         self.logger = logging.getLogger(self.user)
 9         self.logger.setLevel(logging.DEBUG)
10         self.logFile = sys.argv[0][0:-3] + '.log'
11         self.formatter = logging.Formatter('%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s\r\n')
12         self.logHand = logging.FileHandler(self.logFile, encoding='utf8')
13         self.logHand.setFormatter(self.formatter)
14         self.logHand.setLevel(logging.DEBUG)
15         self.logHandSt = logging.StreamHandler()
16         self.logHandSt.setFormatter(self.formatter)
17         self.logHandSt.setLevel(logging.DEBUG)
18         self.logger.addHandler(self.logHand)
19         self.logger.addHandler(self.logHandSt)
20     
21     def debug(self,msg):
22         self.logger.debug(msg)
23     
24     def info(self,msg):
25         self.logger.info(msg)
26     
27     def warn(self,msg):
28         self.logger.warn(msg)
29     
30     def error(self,msg):
31         self.logger.error(msg)
32     
33     def critical(self,msg):
34         self.logger.critical(msg)
35     
36 if __name__ == '__main__':
37     mylog = MyLog()

 

三、簡單構建好框架,寫出需要用到的主要函數和方法,代碼如下:

 1 class Item(object):
 2     mc = None #名稱
 3     jx = None #劑型
 4     gg = None #規格
 5     ghj = None #供貨價
 6     lsj = None #零售價
 7     scqy = None #生成企業
 8         
 9 class GetInfor(object):
10     def __init__(self):
11         self.log = MyLog()
12         self.starttime = time.time()
13         self.log.info(u'爬蟲程式開始運行,時間: %s' % time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(self.starttime)))
14         self.medicallist = self.getmedicallist('name.txt')
15         self.items = self.spider(self.medicallist)
16         self.pipelines_csv(self.items)
17         self.endtime = time.time()
18         self.log.info(u'爬蟲程式運行結束,時間: %s' % time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(self.endtime)))
19         self.usetime = self.endtime - self.starttime
20         self.log.info(u'用時  %d時 %d分%d秒' % (self.usetime//3600,(self.usetime%3600)//60,(self.usetime%3600)%60))
21             
22     def getmedicallist(self,filename):
23         '''從文件name.txt中導出所有需要查詢的藥品的名稱
24         '''
25         medicallist = []
26         with open(filename,'r') as fp:
27             s = fp.read()
28             for name in s.split():
29                 medicallist.append(name)
30         self.log.info(u'從文件%s 中讀取藥品名稱成功!獲取藥品名稱 %d 個' % (filename,len(medicallist)))
31         return medicallist
32             
33     def spider(self,names):
34         items = []
35         pass
36         return items
37                     
38     def pipelines_xls(self,medicallist):
39         pass
40             
41     def pipelines_csv(self,medicallist):
42         pass
43         
44     def getresponsecontent(self,url):
45         try:
46             response = urllib2.urlopen(url.encode('utf8'))
47         except:
48             self.log.error(u'返回 URL: %s 數據失敗' % url)
49     return ''
50         else:
51             self.log.info(u'返回URL: %s 數據成功' % url)
52              return response
53     
54 if __name__ == '__main__':
55     GetInfor()            

  Item包含了網站查詢結果中所含的元素,方便到時候用來提取數據。GetInfor為爬蟲主程式。getmedicallist用來從文本“name.txt”中提取需要查詢的藥品名稱(該文件是先從醫院資料庫中導出的醫院所涉及到的藥品名稱),返回含有藥品名稱的列表。spider用於在網上爬取藥品價格信息,將所有信息保存到列表items中,並返回。pipelines_xlspipelines_csv分別用於將保存下來的數據保存到xlscsv格式的文件中。getresponsecontentspider中分離出來主要是為了方便後期的擴展。

 

四、添加spider的代碼

 

我們使用方法getmedicallist獲取到所有需要查詢的藥品名稱後,在這裡通過變數names來讀取,如下:

 

1 for name in names:
2     if name != '':
3         self.log.info(u'嘗試爬取%s 信息' % name.decode('GBK'))
4         url = 'http://www.china-yao.com/?act=search&typeid=1&keyword='+name.decode('GBK')
5         htmlcontent = self.getresponsecontent(url)

 

不加“&page=n”的情況下,只返回查詢結果第一頁的信息。但查詢結果總共有多少頁?我們需要先提取出這個最大頁數。

在頁面代碼

<ul class="pagination">
                        <li class="active"><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=1">1</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=2">2</a></li><li><a href="?act=search&typeid=1&keyword=氟氯西林鈉阿莫西林膠囊&page=3">3</a></li>

的這一段之中,有我們需要的頁碼值,而我們只需要最後一頁,也就是最大值。

 1 def spider(self,names):
 2     n = 1
 3     items = []
 4     for name in names:
 5         if name != '':
 6             url = 'http://www.china-yao.com/?act=search&typeid=1&keyword='+name.decode('GBK')
 7             htmlcontent = self.getresponsecontent(url)
 8             soup = BeautifulSoup(htmlcontent,'lxml')
 9             tagul = soup.find('ul',attrs={'class':'pagination'})
10             print tagul
11             tagpage = tagul.find_all('a')
12             for page in tagpage:
13                 print '###',page.get_text().strip()
14             n += 1
15             if n>15:
16                 Break #先簡單測試下前15種藥品是否能正常返回我們需要的頁碼數
17     return items

從運行結果來看,效果還算滿意,通過tagul.find_all('a')得到的列表最後一條基本都是結果頁面最後一頁的頁碼。但如果結果頁面過多的時候,可以看到最後一頁的頁碼不在列表的最後,而是處於列表的倒數第二行。修改增加如下代碼,利用try來讓程式自動選擇提取最後一行還是倒數第二行。

 

1 if len(tagpage) == 0:
2     page = 0
3 else:
4     try:
5         page = int(tagpage[-1].get_text().strip())
6     except:
7         page = int(tagpage[-2].get_text().strip())

 

獲取到最後一頁查詢結果的頁碼值後,我們就可以組合出完整的url地址了。遍歷所有的url組合,提取出tbody之間的藥品價格信息。方法spider的完整代碼如下:

 

 1 def spider(self,names):
 2     items = []
 3     for name in names:
 4         if name != '':
 5             self.log.info(u'嘗試爬取%s 信息' % name.decode('GBK'))
 6             url = 'http://www.china-yao.com/?act=search&typeid=1&keyword='+name.decode('GBK')
 7             htmlcontent = self.getresponsecontent(url)
 8             soup = BeautifulSoup(htmlcontent,'lxml')
 9             tagul = soup.find('ul',attrs={'class':'pagination'})
10             tagpage = tagul.find_all('a')
11             self.log.info(u'此藥品信息共%d 頁' % len(tagpage))
12             time.sleep(1)
13             if len(tagpage) == 0:
14                 page = 0
15             else:
16                 try:
17                     page = int(tagpage[-1].get_text().strip())
18                 except:
19                     page = int(tagpage[-2].get_text().strip())
20             for i in range(1,page+1):
21                 newurl = url+'&page='+str(i)
22                 newhtmlcontent = self.getresponsecontent(newurl)
23                 soup = BeautifulSoup(newhtmlcontent,'lxml')
24                 tagtbody = soup.find('tbody')
25                 tagtr = tagtbody.find_all('tr')
26                 self.log.info(u'該頁面共有記錄 %d 條,開始爬取' % len(tagtr))
27                 for tr in tagtr:
28                     tagtd = tr.find_all('td')
29                     item = Item()
30                     item.mc = tagtd[0].get_text().strip()
31                     item.jx = tagtd[1].get_text().strip()
32                     item.gg = tagtd[2].get_text().strip()
33                     item.ghj = tagtd[3].get_text().strip()
34                     item.lsj = tagtd[4].get_text().strip()
35                     item.scqy = tagtd[5].get_text().strip()
36                     items.append(item)
37                 self.log.info(u'頁面%s 數據已保存' % newurl)
38                 sleeptime = random.randint(7,12)
39                 time.sleep(sleeptime)  #給程式適當降速,防止被伺服器攔截
40             
41     self.log.info(u'數據爬取結束,共獲取 %d條數據。' % len(items))        
42     return items    

 

 

 

五、保存收集到的數據

添加方法pipelinespipelines_xls和pipelines_csv的代碼

 

 1 def pipelines_xls(self,medicallist):
 2     filename = u'西藥藥品價格數據.xls'.encode('GBK')
 3     self.log.info(u'準備保存數據到excel中...')
 4     book = xlwt.Workbook(encoding = 'utf8',style_compression=0)
 5     sheet = book.add_sheet(u'西藥藥品價格')
 6     sheet.write(0,0,u'名稱'.encode('utf8'))
 7     sheet.write(0,1,u'劑型'.encode('utf8'))
 8     sheet.write(0,2,u'規格'.encode('utf8'))
 9     sheet.write(0,3,u'供貨價'.encode('utf8'))
10     sheet.write(0,4,u'零售價'.encode('utf8'))
11     sheet.write(0,5,u'生產企業'.encode('utf8'))
12     for i in range(1,len(medicallist)+1):
13         item = medicallist[i-1]
14         sheet.write(i,0,item.mc)
15         sheet.write(i,1,item.jx)
16         sheet.write(i,2,item.gg)
17         sheet.write(i,3,item.ghj)
18         sheet.write(i,4,item.lsj)
19         sheet.write(i,5,item.scqy)
20     book.save(filename)
21     self.log.info(u'excel文件保存成功!')
22         
23 def pipelines_csv(self,medicallist):
24     filename = u'西藥藥品價格數據.csv'.encode('GBK')
25     self.log.info(u'準備保存數據到csv中...')
26     writer = csv.writer(file(filename,'wb'))
27     writer.writerow([u'名稱'.encode('utf8'),u'劑型'.encode('utf8'),u'規格'.encode('utf8'),u'供貨價'.encode('utf8'),u'零售價'.encode('utf8'),u'生產企業'.encode('utf8')])
28     for i in range(1,len(medicallist)+1):
29       item = medicallist[i-1]
30       writer.writerow([item.mc.encode('utf8'),item.jx.encode('utf8'),item.gg.encode('utf8'),item.ghj.encode('utf8'),item.lsj.encode('utf8'),item.scqy.encode('utf8')])
31     self.log.info(u'csv文件保存成功!')

 

至此,全部完成了,點擊“運行”。

這裡保存的是.csv格式,需要.xls格式的,只需要在__init__中把調用的方法pipelines_csv換成pipelines_xls即可。

當然目前還存在很多不足,

1、數據量過大的時候,單線程處理速度過慢。

2、方法getresponsecontent讀取頁面錯誤的情況下,沒有進一步的處理。

3、沒有使用代理,只是簡單的利用timesleep函數進行簡單的防攔截。

上述問題將在隨後進行解決。

當然,有什麼不當之處,歡迎大家批評指點~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.map集合遍歷方式 :keyset()方法 得到map集合中所有的鍵,裝到set集合中;然後可通過set集合作遍歷。 public class mapdemo { public static void main(String[] args) { //1.調用map集合的方法keyset,把所有的 ...
  • 花費二個多月的時間編寫了可以實時模擬工廠產品生產流程的程式,工廠產品生產流程的模擬,就是計算在工藝文件所規定的工序下,不同種類的多件產品(同一類別的產品可以有多件)在不同類別的多台設備(同一類別的設備可以有多台)上全部生產完畢所需的總時間。每一件產品可以在生產流程中先後多次在同一類設備上生產而且生產 ...
  • 兩年前在做Java EE開發平臺時,因為用戶登錄相關的模塊是委托給另一位同事完成的,所以雖然知道大體概念,但是對客戶端怎麼安全傳輸密碼到服務端的具體細節並不甚瞭解。然而這次在做4A系統(認證、授權、監控、審計)時,無論怎樣都繞不過這一塊內容了,於是在仔細研究了一下之前的方案,並參考網上的一些資料後, ...
  • Python文件處理 Python文件處理 在python中,要對一個文件進行操作,得把文件抽象為Streams流或者說file object或者叫file-like objects。 這樣將文件當作一個流對象來處理就方便多了。Stream對象提供了很多操作方法(如read(),write()等), ...
  • spring MVC框架 一、什麼是spring MVC Spring MVC屬於SpringFrameWork的後續產品,已經融合在Spring Web Flow裡面。Spring 框架提供了構建 Web 應用程式的全功能 MVC 模塊。使用 Spring 可插入的 MVC 架構,從而在使用Spr ...
  • "Java代理設計模式 靜態代理" "Java中的動態代理 調用處理器" 代理設計模式的UML圖: 我將首先介紹Java中的各種代理實現方法 Java代理設計模式 靜態代理 這個例子非常簡單,只有一個方法 的介面 : 測試代碼: 測試輸出: 現在麻煩的是,Jerry的領導因為團隊中的開發者像Jerr ...
  • 1、問題描述與要求 模擬某校九層教學樓的電梯系統。該樓有一個自動電梯,能在每層停留,其中第一層是大樓的進出層,即是電梯的“本壘層”,電梯“空閑”時,將來到該層候命。 電梯一共有七個狀態,即正在開門(Opening)、已開門(Opened)、正在關門(Closing)、已關門(Closed)、等待(W ...
  • 由於教程是圍繞著文件打開做的錯誤處理,所以先記錄幾個用於文件處理的一些函數,fopen 用於打開一個文件;file_exists 用於檢查目錄是否存在;fclose( $變數 )用於指定關閉打開的文件; PHP處理錯誤的幾種方式:die()語句;自定義錯誤和錯誤觸發器;錯誤日誌; die()語句: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...