博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
1. 工作環境
- python
>python -V
Python 3.10.3
- appium
appium desktop 1.15.1
- selenium
>pip show selenium
Name: selenium
Version: 4.10.0
Summary:
Home-page: https://www.selenium.dev
Author:
Author-email:
License: Apache 2.0
Location: d:\··\python\310\lib\site-packages
Requires: certifi, trio, trio-websocket, urllib3
Required-by: Appium-Python-Client
- android sdk
- jdk
>java -version
java version "1.8.0_231"
Java(TM) SE Runtime Environment (build 1.8.0_231-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.231-b11, mixed mode)
- mumu模擬器12
- vscode
- xmind
2. 需求
業務部的同事需要某app上航線下帶有優惠的航班及其艙位信息。比如,去哪app上北京到上海航線,有m個航班,然後裡邊可能有n個航班,這些航班不管是航司或者是平臺有些優惠,
優惠類型可能是立減優惠,會員優惠,長者優惠,新人優惠等等····,反正是對於符合對應條件的用戶來說表現就是找到對應的航班買票會有價格優惠。以前個人只簡單的抓一些資源網站的東西,
靜態網頁或者動態網頁,只是簡單的作為瞭解技術的附帶產物。這次指定要抓app的數據,有個客觀原因就是航司或者平臺可能是為了推廣自家移動端產品,有些優惠數據只有在app上才有。所以為了完成需求,就開始找些資料搞。
使用到的技術或者工具已經在上面列出來了,都是按我實際的環境來的。
3. 流程
3.1 分析
抓數據,我個人的理解不談技術對抗,只談論抓到目標數據,其實就是分析的過程,在上家公司做一些醫療項目的時候,涉及到藥品溯源的項目,很多民營醫院圖省事都直接入駐了xx放心平臺,有實力的醫院都找自己的his廠商對接阿裡的介面自己做自家的溯源管理系統。因為行業的特殊性,醫療行業的介面欄位會很多,門診數據,住院數據,醫囑數據,結算單數據,基金結算清單數據····少的幾十個,一兩百個,多個就是四五百、六七百個···隨著drg報銷政策的推廣,那裡邊的介面也是····扯遠了,反正就是當時有個機會搞藥品溯源,然後介面呢是阿裡提供的,當時因為介面有點多,一些欄位什麼的就直接抓介面爬數據了,當時算是對於動態網頁的數據抓取有個感性的認識,太深的瞭解就沒有了,現在的需求更深刻了,不抓網頁,要抓app了,中間也是嘗試了好多次,各種思路各種驗證,有些太耗時間的就捨棄了,因為肯定要以能拿到目標數據為導向。最終,選擇了現在這種方式,在抉擇前,對於抓數據,我又稍稍有了更深的認識,不要技術對抗,避免技術對抗,要以和為貴···暴力是最後的手段。所以才有了現在這個過程。直到開始做了以後,整個過程可以總結成倆字:分析。
使用android sdk 帶的工具uiautomatorviewer,分析目標數據所在頁面結構。詳細的分析過程說起來過於瑣碎,都在下麵的圖裡了:
當時做的時候是按兩種邏輯進行頁面數據抓取的,一種是很慘的那種根據頁面元素的相對位置來定位目標元素,另一種就是直接根據id來取,說到這就不得不說剛開始練手的qunar是真的蛋疼,因為根據具體分析想要拿到對應的數據只能按照第一種方式,分析的資料把自己都繞暈了,不過應該也逃不過,先把眼前的需求做了就好。上面的圖畫好了以後,我就知道這事容易很多了,因為對應數據是可以直接取到的。圖片處理過了,因為一些東西容易猜到真名,沒搞的無所謂,搞了的心虛,本來之前抓qunar的,人家說那個不緊要,這個著急,然後就上這個了···
3.2 再分析
使用android sdk 帶的adb ,分析目標頁面路徑。目標數據頁面的分析一旦完成,接下來就是補全自動抓取頁面之間流轉的業務。但是這個過程遠比上面的步驟輕鬆的多,下圖:
過程大概是啟動應用後進入首頁,然後在首頁填寫出發/到達城市,選擇出發日期,點擊搜索進入航班結果頁面,然後根據總結的帶“減”字航班的數據要點擊進去查看艙位信息。後續因為需求調整,代碼的邏輯也就做了相應的調整,大概的流程就是這樣的。
4. 代碼
- 4.1 工具類
# excel表格工具類
# 生成excel表格
class ExcelUtils:
'表格工具類,提供各種excel生成與讀取方法'
# 根據表頭和表格數據生成excel表格
# excelTitle 表頭
# excelData 表格數據
# sheetName sheet名稱
# docName
def doExportExcel (excelHead,excelData,sheetName,docName):
# 新建工作簿,編碼格式為utf-8
workbook = xlwt.Workbook(encoding='utf-8')
# sheet name
worksheet = workbook.add_sheet(sheetName)
# 設置表頭
for i in range(len(excelHead)):
worksheet.write(0, i, excelHead[i])
currentDateTime=datetime.datetime.now()
# 遍歷賦值
# i 表示行數 j 表示列數
for i in range(len(excelData)):
# print("表格行數:"+str(len(excelData)))
# print("內容是:"+excelData)
# print(excelData[i][0])
for j in range(len(excelData[i])):
# print("內容是:"+excelData[i][j])
# print("i="+str(i))
# print("j="+str(j))
worksheet.write(i+1, j, excelData[i][j])
# 表格名稱由固定字元加當前時間共同組成
workbook.save(docName+currentDateTime.strftime('%Y-%m-%d-%H-%M-%S')+'.xls')
print("導出excel表格")
# eu=ExcelUtils.doExportExcel(QunarConstant.getSpecialPriceExcelHead(),"b")
- 4.2 常量類
class qunarCommonConstant():
'常用字面量'
# 表格表頭
SPECIAL_PRICE_EXCEl_HEAD=['始發城市','始發機場','目的城市','目的機場','航司','航班','起飛時間','優勢1','優勢2','價格','剩餘票數']
AIR_SPECIAL_PRICE_EXCEL_HEAD=['始發城市','始發機場','目的城市','目的機場','航班','起飛時間','立減','價格','艙位']
@classmethod
def getSpecialPriceExcelHead(self):
return self.SPECIAL_PRICE_EXCEl_HEAD
@classmethod
def getAirSpecialPriceExcelHead(self):
return self.AIR_SPECIAL_PRICE_EXCEL_HEAD
- 4.3 業務代碼
# # 打開指定表格,待遍歷航線
excelDoc= xlrd.open_workbook(filename=r'xx航線.xlsx')
# # 獲取sheet表格
tableSheet = excelDoc.sheets()[0]
# # 獲取sheet中有效行數
line_rows=tableSheet.nrows
# 準備自動化配置信息
desired_caps={
# 真機信息
# #移動設備平臺
# 'platformName':'Android',
# #平臺OS版本號
# 'plathformVersion':'10',
# #設備的名稱
# 'deviceName':'DT1901A',
# 模擬器
'platformName':'Android',
'plathformVersion':'12',
# 'deviceName':'127.0.0.1:16384',
'deviceName':'127.0.0.1:16384',
#提供被測app的信息-包名,入口信息
'appPackage':'com.xx.xx',
# app
'appActivity':'xxx.WelcomeActivity',
# 'appActivity':'com.mqunar.atom.uc.access.activity.UCQuickLoginActivity',
# mResumedActivity: ActivityRecord{152521f u0 com.Qunar/com.mqunar.atom.uc.access.activity.UCQuickLoginActivity t13735}
#確保自動化之後不重置app
'noReset':True,
#設置session的超時時間,單位秒
'newCommandTimeout':600000,
#更換底層驅動
'automationName':'UiAutomator2',
# 不停止正在測試的應用程式的進程,預設為false。為true時,
# appium 將不會在adb shell am start調用中包含-S標誌,不需要重新啟動。
'dontStopAppOnReset': True
# 'unicodeKeyboard':True,#修改手機的輸入法,UI2不需要設置
# 'resetKeyboard':True#自動化結束之後將輸入法還原
}
#初始化driver對象-用於控制手機
# appium 2.0 請求改變了
# driver=webdriver.Remote('http://127.0.0.1:4723/',desired_caps)
driver=webdriver.Remote('http://127.0.0.1:4723/wd/hub',desired_caps)
print("手機應用連接成功")
print("程式已啟動")
# 手機動作
touch1=TouchAction(driver)
# 導出表格數據
excelData =[]
# 航線計數
lineCount=0
# 待遍歷航線列表
# queryDataList=[]
# 踢出表頭
for i in range (line_rows-1):
# 只有第一次進入的時候需要強制等待
# 首頁載入時需要強制等待,保證後續邏輯的順利進行
if(i==0):
time.sleep(3)
lineCount+=1
print("======正在查詢第%s條行航線======" % lineCount)
try:
searchResultGoBackFlag=False
# 始發城市
iataExcelDptCityRow=tableSheet.row(i+1)[0].value
# queryDataList.append(iataExcelDptCityRow)
# 目的城市
iataExcelArrCityRow=tableSheet.row(i+1)[1].value
# queryDataList.append(iataExcelArrCityRow)
# time.sleep(5)
# 進入程式自動操作流程
# 顯示等待載入 設置出發城市
tv_start=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
# tv_start.click() 不推薦 該指令觸發容易發生問題
# tap 在指定元素上敲擊 推薦
touch1.tap(element=tv_start).perform()
list_tv_citySearch=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
touch1.tap(element=list_tv_citySearch).perform()
list_tv_citySearch=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
list_tv_citySearch.send_keys(iataExcelDptCityRow)
dept_tv_title=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
touch1.tap(element=dept_tv_title).perform()
#起始城市輸入完畢
print("起始城市輸入:%s,完畢" % iataExcelDptCityRow)
# 開始輸入目的城市
view_booking_tv_back=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
touch1.tap(element=view_booking_tv_back).perform()
city_list_tv_citySearch=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
touch1.tap(element=city_list_tv_citySearch).perform()
city_list_et_citySearch=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
city_list_et_citySearch.send_keys(iataExcelArrCityRow)
arr_tv_title=WebDriverWait(driver,10).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
touch1.tap(element=arr_tv_title).perform()
print("目的城市輸入:%s,完畢" % iataExcelArrCityRow)
# 設置起飛日期
# tv_month_start=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
# # # 進入選擇頁面
# # # tv_month_start.click()
# touch1.tap(element=tv_month_start).perform()
# ActionChains(driver).move_to_element(tv_month_start).click(tv_month_start).perform()
# calendar_month_view=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
# print(calendar_month_view[0].text)
# print("======設置起飛日期======")
# 顯示等待載入 點擊搜索
booking_llyt_querybtn=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
# booking_llyt_querybtn.click()
touch1.tap(element=booking_llyt_querybtn).perform()
# print("點擊搜索")
try:
# 進入搜索結果頁面
# 獲取所有帶"減" 字的航班信息,然後點擊進去抓取會員特惠艙位信息
list_data_rv=WebDriverWait(driver,3).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
# 強制等待,xxapp,不知道是因為網路問題還是故意設置頁面載入,要延時完成
time.sleep(3)
print("======帶減字航班共:%s條======" %str(len(list_data_rv)))
# touch1.tap(element=list_data_rv[0]).perform()
goBackFlag=False
# 遍歷計數
countNum=0
for list_element_data in list_data_rv:
excelElement=[]
countNum+=1
print("======正在抓取立減數據,條數:%s======" % countNum)
# 點擊第一個立減航班,進入艙位頁面
try:
time.sleep(0.5)
touch1.tap(element=list_element_data).perform()
# 進入立減結果頁面後
# 業務處理 1、等待載入 2、獲取立減列表併進行遍歷,判斷其立減優惠是否是會員優惠,如果是,則抓取否則跳過執行下一條判斷
# 等待頁面載入
# time.sleep(0.5)
try:
# 判斷立減數據中是否包含"會員",如果包含則進行抓取,否則不進行數據提取
try:
tips_content_iv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
tips_content=tips_content_iv.text
except:
tips_content="自定義"
print("不是會員優惠,跳出抓取")
finally:
try:
if(tips_content.find('會員')!=-1):
# 判斷立減艙位條數
order_cut_tv=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
length_order_cut_tv=len(order_cut_tv)
print("=========立減艙位信息條數:%s=========" %length_order_cut_tv)
# 立減艙位數等於1的時候
if(length_order_cut_tv==1):
print("===========走線路1===============")
# 顯示等待載入 起飛日期
flight_go_date=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(flight_go_date.text)
# 顯示等待載入 出發機場
dep_term_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(dep_term_tv.text)
# # 顯示等待載入 到達機場
# arr_term_tv=WebDriverWait(driver,5).until(lambda x:list_element_data.find_element(by=By.ID,value='resources-id'))
arr_term_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(arr_term_tv.text)
# # 顯示等待載入 價格
# details_price_tv=WebDriverWait(driver,5).until(lambda x:list_element_data.find_element(by=By.ID,value='resources-id'))
details_price_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(details_price_tv.text)
# # 顯示等待載入 立減
# order_cut_tv=WebDriverWait(driver,5).until(lambda x:list_element_data.find_element(by=By.ID,value='resources-id'))
order_cut_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(order_cut_tv.text)
# # 顯示等待載入 航班
# flight_no=WebDriverWait(driver,5).until(lambda x:list_element_data.find_element(by=By.ID,value='resources-id'))
flight_no=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(flight_no.text)
# # 顯示等待載入 艙位
details_code_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
# details_code_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(details_code_tv.text)
# 出發城市
excelElement.append(iataExcelDptCityRow)
# 出發機場
excelElement.append(dep_term_tv.text)
# 目的城市
excelElement.append(iataExcelArrCityRow)
# 目的機場
excelElement.append(arr_term_tv.text)
# 航班
excelElement.append(flight_no.text)
# 起飛時間
excelElement.append(flight_go_date.text)
# 立減
excelElement.append(order_cut_tv.text)
# 價格
excelElement.append(details_price_tv.text)
# 艙位
excelElement.append(details_code_tv.text)
excelData.append(excelElement)
elif (length_order_cut_tv>1):
print("=======================走線路2==================")
# 顯示等待載入 起飛日期
flight_go_date=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
print(flight_go_date[0].text)
# 顯示等待載入 出發機場
dep_term_tv=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
print(dep_term_tv[0].text)
# # 顯示等待載入 到達機場
arr_term_tv=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
print(arr_term_tv[0].text)
# # 顯示等待載入 價格
details_price_tv=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
print(details_price_tv[0].text)
# # 顯示等待載入 立減
order_cut_tv=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
print(order_cut_tv[0].text)
# # 顯示等待載入 航班
flight_no=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
print(flight_no[0].text)
# # 顯示等待載入 艙位
details_code_tv=WebDriverWait(driver,5).until(lambda x:x.find_elements(by=By.ID,value='resources-id'))
# details_code_tv=WebDriverWait(driver,5).until(lambda x:x.find_element(by=By.ID,value='resources-id'))
print(details_code_tv[0].text)
# 出發城市
excelElement.append(iataExcelDptCityRow)
# 出發機場
excelElement.append(dep_term_tv[0].text)
# 目的城市
excelElement.append(iataExcelArrCityRow)
# 目的機場
excelElement.append(arr_term_tv[0].text)
# 航班
excelElement.append(flight_no[0].text)
# 起飛時間
excelElement.append(flight_go_date[0].text)
# 立減
excelElement.append(order_cut_tv[0].text)
# 價格
excelElement.append(details_price_tv[0].text)
# 艙位
excelElement.append(details_code_tv[0].text)
excelData.append(excelElement)
else :
print("立減為非會員優惠票,不進行抓取")
except:
print("====立減艙位只抓取第一條=====")
except:
print("立減艙位信息抓取失敗,進行下一個艙位抓取")
finally:
# 目前只抓去一個立減信息即可,其他立減都時一樣的
driver.back()
break
except:
print("======立減數據抓取出錯了,進行下一個航班======")
finally:
# 增加強制等待,防止連續執行上一步退出app
# time.sleep(0.5)
driver.back()
break
except:
goBackFlag=True
print("======該航班沒有立減優惠,跳過進行下一個航班查詢,返回上一層:%s======" % goBackFlag)
finally:
# 增加強制等待,防止連續執行上一步退出app
if(goBackFlag):
driver.back()
except:
searchResultGoBackFlag=True
# print("航線遍歷出錯了,進行下次迴圈")
print("======第%s行航線數據抓取失敗,進入下一航線抓取======" % lineCount)
finally:
# # 等待時間,保證app順利啟動
# pass
# time.sleep(0.5)
if(searchResultGoBackFlag):
driver.back()
# driver.back()
# time.sleep(5)
if (i>=10 and i % 10==0):
print("為保證抓取數據程式順利跑完,每查詢10次,進行程式重新載入")
driver.launch_app()
# ExcelUtils.ExcelUtils.doExportExcel(qunarCommonConstant.getAirSpecialPriceExcelHead(),excelData,'xxApp','xxApp')
ExcelUtils.doExportExcel(qunarCommonConstant.getAirSpecialPriceExcelHead(),excelData,'xxApp','xxApp')
print("抓取完畢")
# 斷掉服務鏈接
driver.quit()
代碼是按照分析線性邏輯實現的,中間因為沒搞過,每次出了問題就立馬查資料改正,總算了滿足了需求。現在回想起來,感覺得把知識點總結一下,這是以後應該會常用的。
- 針對頁面元素查找要使用顯示等待的方式,提升抓數據的周期效率
- 安卓的連續兩次返回上一頁等於退出程式,driver.back()。終於從另一個層面認識到了這個事實,因為忘記了這個,導致中間測試運行的時候總是無故退出程式。搞的我都懷疑人生了,後來靈光一閃,想起來了,最後驗證了確實是這個原因。所以這個印象很深刻。
- 由第二條的因素,所以必須要考慮目標app無故閃退。所以,要加上定量 執行 driver.launch_app(),這個方法是保證無人值守的時候程式可以完整的跑完全程的重要方法。
- 4.4 測試運行
因為我也是第一次抓取手機app的數據,磕磕絆絆,總算是寫出來,最初的時候每次跑數據,都是要開著錄屏,記錄運行過程中的出現的問題,然後分析,修改,分析,修改···最終完成了上面的抓取業務。
最初跑程式的時候,人一直在看著,後來加了很多處理,防止抓取數據業務中斷的處理。目前可以按照給定的航線表格,完成所有的結果搜索及目標數據抓取。
5. 運行
經過幾天的完整航線抓取(大概5000條航線),最長的一次是連續跑了19個多小時,最終抓到了指定的目標數據。中間抓數據過程中還發現幾個問題,尤為突出的是程式不定時的彈出公告通知,還有莫名奇妙的網路延遲,當然還有一些更具體的問題也因為業務的動態調整沒有去研究處理辦法,比如自動滑動屏幕定位到指定元素然後進行單擊或者別的操作。這些肯定是要解決的。隨後再說吧。
結果: