Python爬蟲-字體反爬-貓眼國內票房榜

来源:https://www.cnblogs.com/yangshaolun/archive/2019/05/14/10865379.html
-Advertisement-
Play Games

偶然間知道到了字體反爬這個東西, 所以決定瞭解一下. 目標: https://maoyan.com/board/1 問題: 類似下圖中的票房數字無法獲取, 直接複製粘貼的話會顯示 □ 等無法識別的字元, 且網頁源碼中該類數字均被 .&# ...


偶然間知道到了字體反爬這個東西, 所以決定瞭解一下.

目標:   https://maoyan.com/board/1

問題:  類似下圖中的票房數字無法獲取, 直接複製粘貼的話會顯示 □ 等無法識別的字元, 且網頁源碼中該類數字均被 . 之類的字元串代替.

解決:

出現這種情況的原因是因為網頁字體是在 CSS3 @font-face 規則中定義的, 我覺得這種字體就類似描點連線那種方式繪製出來的.

因為定義規則是動態隨機獲取的, 不能保證每次都是一個字體文件.

如下:

可以看到, 同一數字所對應的字元是不一樣的, 所以我們也就動態下載實時字體文件, 具體分析.

雖然每次對應的字元可能不一樣, 但是可以發現同一數字的字形是一樣的, 也就是"描點的坐標"應該相同.

事實證明在這個例子中是確實如此.

如下:

同一數字對象里的這些值是一樣的.

既然找到問題所在和規律了, 就可以直接開始寫代碼了.

 1 import re
 2 from urllib.request import urlretrieve, urlopen
 3 from fontTools.ttLib import TTFont
 4 
 5 
 6 def process_font(url):
 7     # loc.woff是事先下載好的字體文件
 8     # 可以通過font1.saveXML()來瞭解文件的結構, font1就像一個的字典, XML文件里的tag可以對font1用字典的方法獲取
 9     font1 = TTFont('loc.woff')
10     # 使用百度的FontEditor手動確認本地字體文件name和數字之間的對應關係, 保存到字典中
11     loc_dict = {'uniE8B2': '5', 'uniF818': '3', 'uniECCC': '8', 'uniE622': '1', 'uniEC92': '2', 'uniF31A': '4',
12                 'uniE86D': '9', 'uniE33C': '6', 'uniE1FA': '7', 'uniE13E': '0'}
13     # 獲取字元的name列表, 列印出來後發現第一個和最後一個name所對應的不是數字, 所以切片
14     uni_list1 = font1.getGlyphNames()[1: -1]
15 
16     # 網頁源碼
17     rsp = urlopen(url).read().decode()
18     # 獲取動態的字體文件並下載
19     font_url = 'http://' + re.findall(r'url\(\'//(.*?\.woff)', rsp)[0]
20     # web字體文件落地名
21     filename = font_url.split('/')[-1]
22     # 下載web字體文件
23     urlretrieve(font_url, filename)
24 
25     # 打開web字體文件
26     font2 = TTFont(filename)
27     # 獲取字元的name列表
28     uni_list2 = font2.getGlyphNames()[1: -1]
29 
30     # web字體文件中name和num映射
31     new_map = {}
32 
33     for uni2 in uni_list2:
34         # 獲取name 'uni2' 在font2中對應的對象
35         obj2 = font2['glyf'][uni2]
36         for uni1 in uni_list1:
37             # 獲取name 'uni1' 在font1中對應的對象
38             obj1 = font1['glyf'][uni1]
39             # 如果兩個對象相等, 說明對應的數字一樣
40             if obj1 == obj2:
41                 # 將name鍵num值對加入new_map
42                 new_map[uni2] = loc_dict[uni1]
43 
44     # 將數字替換至源碼
45     for i in uni_list2:
46         pattern = '&#x' + i[3:].lower() + ';'
47         rsp = re.sub(pattern, new_map[i], rsp)
48 
49     # 返回處理處理後的源碼
50     return rsp
51 
52 
53 if __name__ == '__main__':
54     # 貓眼國內實時票房top10
55     url = 'https://maoyan.com/board/1'
56     # 替換數字後的網頁源碼
57     res = process_font(url)

 

代碼里loc.woff文件是先下載好的, 通過它找到數字和"描點坐標"之間的對應關係. 這個文件大家可以自己提前下載, 並且手動找到對應關係.

這裡也提供了我下載的loc.woff文件, https://github.com/ysl125963/maoyan, 裡面的font.xml文件就是通過saveXML()方法得到的, 可以看到字體文件的具體結構.

這是第一次寫分享博客, 而且github也沒怎麼用過, 希望以後能堅持吧.

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 不少Python新手經常問到學Python到底需不需要學習Linux? Python不是支持Windows和Linux操作系統嗎?能在Windows下開發為什麼還要學習Linux? ...
  • 對於應屆生來說,Java基礎和項目哪個更重要?這可能是眾多困惑中關心的人數比較多的一個。主要關心這個問題的有兩種 ...
  • 在本教程中,我們將討論java中的do-while迴圈。do-while迴圈類似於while迴圈,但是它們之間有一個區別:在while迴圈中,迴圈條件在迴圈的主體執行之前進行評估,而在do-while迴圈中,迴圈條件在迴圈的主體執行之後再進行評估。 ...
  • 第1題:列表[1,2,3,4,5],請使用map()函數輸出[1,4,9,16,25],並使用列表推導式提取出大於10的數,最終輸出[16,25]。 map是python高階用法,字面意義是映射,它的作用就是把一個數據結構映射成另外一種數據結構。 map用法比較繞,最好是對基礎數據結構很熟悉了再使用 ...
  • 一、概念 NIO即New IO,這個庫是在JDK1.4中才引入的。NIO和IO有相同的作用和目的,但實現方式不同,NIO主要用到的是塊,所以NIO的效率要比IO高很多。在Java API中提供了兩套NIO,一套是針對標準輸入輸出NIO,另一套就是網路編程NIO。 二、NIO和IO的主要區別 下表總結 ...
  • 6 1 是否二叉搜索樹 (25 分) 本題要求實現函數,判斷給定二叉樹是否二叉搜索樹。 函數介面定義: bool IsBST ( BinTree T ); 其中BinTree結構定義如下: typedef struct TNode Position; typedef Position BinTree ...
  • 1.if 語句 什麼是if語句?if語句用來乾什麼的? if語句說通俗點,就是判斷,如果判斷條件為真,那麼就執行語句,就像我們生活中例子,如果你餓了,判斷為真,就要吃飯,於是你就會執行吃飯這個動作,如果你不餓,判斷為假,就不執行這個動作,下麵用的代碼舉例: 2.if 語句 有哪幾種表達形式? 第一種 ...
  • 本教程主要講述struts的簡單入門操作 使用的是myeclipse工具 1.創建web項目 2.複製struts必要的jar包到 WebRoot/WEB-INF/lib 下 jar包列表如下: 導入後的項目結構如圖 3.在 WebRoot/WEB-INF 下添加 web.xml 內容如下: 目錄結 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...