requests對象的get和post方法都會返回一個Response對象,這個對象裡面存的是伺服器返回的所有信息,包括響應頭,響應狀態碼等。其中返回的網頁部分會存在.content和.text兩個對象中。 兩者區別在於,content中間存的是位元組碼,而text中存的是Beautifulsoup根 ...
requests對象的get和post方法都會返回一個Response對象,這個對象裡面存的是伺服器返回的所有信息,包括響應頭,響應狀態碼等。其中返回的網頁部分會存在.content和.text兩個對象中。
兩者區別在於,content中間存的是位元組碼,而text中存的是Beautifulsoup根據猜測的編碼方式將content內容編碼成字元串。
直接輸出content,會發現前面存在b'這樣的標誌,這是位元組字元串的標誌,而text是,沒有前面的b,對於純ascii碼,這兩個可以說一模一樣,對於其他的文字,需要正確編碼才能正常顯示。大部分情況建議使用.text,因為顯示的是漢字,但有時會顯示亂碼,這時需要用.content.decode('utf-8'),中文常用utf-8和GBK,GB2312等。這樣可以手工選擇文字編碼方式。
所以簡而言之,.text是現成的字元串,.content還要編碼,但是.text不是所有時候顯示都正常,這是就需要用.content進行手動編碼。