什麼是無頭瀏覽器(headless browser)? 無頭瀏覽器是指可以在圖形界面情況下運行的瀏覽器。我可以通過編程來控制無頭瀏覽器自動執行各種任務,比如做測試,給網頁截屏等。 為什麼叫“無頭”瀏覽器? “無頭”這個詞來源於最初的“無頭電腦(Headless computer)”。維基百科關於的 ...
無頭瀏覽器是指可以在圖形界面情況下運行的瀏覽器。我可以通過編程來控制無頭瀏覽器自動執行各種任務,比如做測試,給網頁截屏等。
為什麼叫“無頭”瀏覽器?
“無頭”這個詞來源於最初的“無頭電腦(Headless computer)”。維基百科關於的“無頭電腦”詞條:
無頭系統(headless system)是指已配置為無須顯示器(即“頭”)、鍵盤和滑鼠操作的電腦系統或設備。無頭系統通常通過網路連接控制,但也有部分無頭系統的設備需要通過RS-232串列連接進行設備的管理。伺服器通常採用無頭模式以降低運作成本。
為什麼要檢測無頭瀏覽器?
除了之前提到的兩種無害的使用案例,無頭瀏覽器可以被用來自動執行惡意任務。最常見的形式是做網路爬蟲,或偽裝訪問量,或探測網站漏洞。
一個非常流行的無頭瀏覽器是PhantomJS,因為它是基於 Qt 框架,所以跟我們常見的瀏覽器相比有很多不同的特征,因此有很多方法判斷出它。
但是,從chrome 59開始,谷歌發佈了一款無頭谷歌瀏覽器。它跟PhantomJS不同,它是基於正統的谷歌瀏覽器開發出來的,不是基於其它的框架,這讓程式很難區分出它是正常瀏覽器還是無頭瀏覽器。
下麵,我們將介紹幾種判斷程式是運行在普通瀏覽器還是無頭瀏覽器里的方法。
檢測無頭瀏覽器
註意:這些方法只是在四種設備 (2 Linux, 2 Mac) 里測試過,也就是說, 肯定還有其他很多方法檢測無頭瀏覽器。
User agent
先介紹使用做最常見的一種判斷瀏覽器種類的方法,檢查User agent。在linux電腦里Chrome version 59無頭瀏覽器的User agent值是:
“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/59.0.3071.115 Safari/537.36”
於是,我們可以這樣檢測是否是無頭Chrome瀏覽器:
if (/HeadlessChrome/.test(window.navigator.userAgent)) { console.log("Chrome headless detected"); }
User agent 也可以從 HTTP headers 里獲取。然而,這兩種情況都很容易偽造。
插件 Plugins
navigator.plugins 會返回一個數組,裡面是當前瀏覽器里的插件信息。通常,普通Chrome瀏覽器有一些預設插件,比如 Chrome PDF viewer 或 Google Native Client。相反,在無頭模式里,沒有任何插件,返回的是個空數組。
if(navigator.plugins.length == 0) { console.log("It may be Chrome headless"); }
語言
在谷歌瀏覽器里,有兩個JavaScript屬性可以獲取當前瀏覽器的語言設置: navigator.language 和 navigator.languages。頭一個是指瀏覽器界面的語言,後一個返回的是個數組,裡面存儲的是瀏覽器用戶的所有次選語言。然而,在無頭模式里,navigator.languages 返回的是個空字元串。
if(navigator.languages == "") { console.log("Chrome headless detected"); }
WebGL
WebGL 提供了一組能在HTML canvas 里執行3D渲染的API。通過這些API,我們可以查詢出圖形驅動的 vendor 和 renderer 。
在linux上的普通谷歌瀏覽器里,我們獲得的 renderer 和 vendor 值為: “Google SwiftShader” 和 “Google Inc.”。
而在無頭模式里,我們獲得的一個是 “Mesa OffScreen”——它是沒有使用任何 window 系統的渲染技術的名稱,和 “Brian Paul” ——開源 Mesa 圖形庫的最初的程式。
var canvas = document.createElement('canvas'); var gl = canvas.getContext('webgl'); var debugInfo = gl.getExtension('WEBGL_debug_renderer_info'); var vendor = gl.getParameter(debugInfo.UNMASKED_VENDOR_WEBGL); var renderer = gl.getParameter(debugInfo.UNMASKED_RENDERER_WEBGL); if(vendor == "Brian Paul" && renderer == "Mesa OffScreen") { console.log("Chrome headless detected"); }
並不是所有版本的無頭瀏覽器都有同樣的這兩個值。然而目前在無頭瀏覽器里是“Mesa Offscreen” 和 “Brian Paul” 這兩個值。
瀏覽器特征
Modernizr 可以探測出當前瀏覽器對HTML和CSS各種特性的支持程度。我發現,普通Chrome和無頭Chrome里唯一的區別是,無頭模式下沒有 hairline 特征,它是用來檢測是否支持 hidpi/retina hairlines的
if(!Modernizr["hairline"]) { console.log("It may be Chrome headless"); }
載入失敗的圖片
最後,我發現的最後一個方法,也是看起來最有效的方法,切入點是檢查瀏覽器里不能正常載入的圖片的高和寬。
var body = document.getElementsByTagName("body")[0]; var image = document.createElement("img"); image.src = "http://iloveponeydotcom32188.jg"; image.setAttribute("id", "fakeimage"); body.appendChild(image); image.onerror = function(){ if(image.width == 0 && image.height == 0) { console.log("Chrome headless detected"); } }
這就是檢測無頭瀏覽器的詳細步驟
更多學習內容觀看我的知乎:打造全網web高級前端工程師資料庫(總目錄)看完學的更加快,知識更牢固。你值得擁有(持續更新)~