爬蟲——json模塊與jsonpath模塊

来源:http://www.cnblogs.com/mayi0312/archive/2017/07/23/7225532.html
-Advertisement-
Play Games

JSON(JavaScript Object Notation)是一種輕量級的數據交換格式,它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景,比如網站前臺與後臺之間的數據交互。 JSON和XML相比較可謂不相上下。 Python 3.X中自帶了JSON模塊, ...


JSON(JavaScript Object Notation)是一種輕量級的數據交換格式,它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景,比如網站前臺與後臺之間的數據交互。

JSON和XML相比較可謂不相上下。

Python 3.X中自帶了JSON模塊,直接import json就可以使用了。

官方文檔:http://docs.python.org/library/json.html

Json線上解析網站:http://www.json.cn/#

JSON

json簡單來說就是JavaScript中的對象和數組,所以這兩種結構就是對象和數組兩種結構,通過這兩種結構可以表示各種複雜的結構。

  1. 對象:對象在js中表示為{ }括起來的內容,數據結構為{key1: value1, key2:value2, ...}的鍵值對的結構,在面向對象的語言中,key為對象的屬性,value為對應的屬性值,所以很容易理解,取值方法為 對象.key 獲取屬性值,這個屬性值的類型可以是數字、字元串、數組、對象。
  2. 數組:數組在js中是[ ]括起來的內容,數據結構為['Python', ‘JavaScript', 'C++', ...],取值方式和所有語言一樣,使用索引獲取,欄位值的類型可以是數字、字元串、數組、對象。

json模塊

json模塊提供了四個功能:dumps、dump、loads、load,用於字元串和Python數據類型間進行轉換。

1.json.dumps()

實現Python類型轉化為Json字元串,返回一個str對象,從Python到Json的類型轉換對照如下:

Python Json
dict object
list, tuple array
str, utf-8 string
int, float number
True true
False false
None null  
#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

import json

listStr = [1, 2, 3, 4]
tupleStr = (1, 2, 3, 4)
dictStr = {"city": "北京", "name": "螞蟻"}

print(json.dumps(listStr))
# [1, 2, 3, 4]

print(type(json.dumps(listStr)))
# <class 'str'>

print(json.dumps(tupleStr))
# [1, 2, 3, 4]

print(type(json.dumps(tupleStr)))
# <class 'str'>

# 註意:json.dumps() 序列化時預設使用的ascii編碼
# 添加參數 ensure_ascii=False 禁用ascii編碼,按utf-8編碼
print(json.dumps(dictStr, ensure_ascii = False))
# {"city": "北京", "name": "螞蟻"}

print(type(json.dumps(dictStr, ensure_ascii = False)))
# <class 'str'>

2.json.dump()

 將Python內置類型序列化為Json對象後寫入文件

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

import json

listStr = [{"city": "北京"}, {"name": "螞蟻"}]
json.dump(listStr, open("listStr.json", "w", encoding = "utf-8"), ensure_ascii = False)

dictStr = {"city": "北京", "name": "螞蟻"}
json.dump(dictStr, open("dictStr.json", "w", encoding = "utf-8"), ensure_ascii = False)

 3.json.loads()

把Json格式字元串解碼轉換成Python對象,從Json到Python的類型轉換對照如下:

Json Python
object dict
array list
string utf-8
number(int) int
number(real) float
true True
false False
null None
#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

import json

strList = '[1, 2, 3, 4]'

strDict = '{"city": "北京", "name": "螞蟻"}'

print(json.loads(strList))
# [1, 2, 3, 4]

# json數據自動按utf-8存儲
print(json.loads(strDict))
# {'city': '北京', 'name': '螞蟻'}

4.json.load()

讀取文件中Json形式的字元串,轉換成Python類型

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

import json

strList = json.load(open("listStr.json", "r", encoding = "utf-8"))
print(strList)
# [{'city': '北京'}, {'name': '螞蟻'}]

strDict = json.load(open("dictStr.json", "r", encoding = "utf-8"))
print(strDict)
# {'city': '北京', 'name': '螞蟻'}

JsonPath

JsonPath是一種信息抽取類庫,是從JSON文檔中抽取指定信息的工具,提供多種語言實現版本,包括:JavaScript、Python、PHP和Java。

JsonPath對於JSON來說,相當於XPATH對於XML。

JsonPath與XPath語法對比:

JsonPath結構清晰,可讀性高,複雜度低,非常容易匹配,下表中對應了XPath的用法。

 
Xpath JSONPath 描述
/ $ 根節點
. @ 現行節點
/ . or [] 取子節點
.. n/a 取父節點,Jsonpath未支持
// .. 不管位置,選擇所有符合條件的節點
* * 匹配所有元素節點
@ n/a 根據屬性訪問,JsonPath不支持
[] [] 迭代器(可以在裡邊做簡單的迭代操作,如數組下標,根據內容選值等)
| [,] 支持迭代器中做多選
[] ?() 支持過濾操作
n/a () 支持表達式計算
() n/a 分組,JsonPath不支持

示例:

以拉勾網城市JSON文件:http://www.lagou.com/lbs/getAllCitySearchLabels.json 為例,獲取所有的城市名稱。

#!/usr/bin/python3
# -*- conding:utf-8 -*-
__author__ = 'mayi'

import urllib.request
import json
import jsonpath

# 拉勾網城市JSON文件
url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
# User-Agent頭
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

# url 連同 headers,一起構造Request請求,這個請求將附帶 chrome 瀏覽器的User-Agent
request = urllib.request.Request(url, headers = header)

# 向伺服器發送這個請求
response = urllib.request.urlopen(request)

# 獲取頁面內容:bytes
html = response.read()

# 轉碼:bytes轉str
html = html.decode("utf-8")

# 把json格式字元串轉換成python對象
obj = json.loads(html)

# 從根節點開始,匹配name節點
city_list = jsonpath.jsonpath(obj, '$..name')

# 列印獲取的name節點
print(city_list)
# 列印其類型
print(type(city_list))

# 寫入本地磁碟文件
with open("city.json", "w", encoding = "utf-8") as f:
    content = json.dumps(city_list, ensure_ascii = False)
    f.write(content)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 我們都知道,在 ASP.NET CORE 中通過依賴註入的方式來使用服務十分的簡單,而在 Console 中,其實也只是稍微繞了個小彎子而已。不管是內置 DI 組件或者第三方的 DI 組件(如Autofac),通過 IServiceCollection 介面我們都可以做到和應用程式的無縫連接。本文將 ...
  • 小弟初來乍到,這也是我的第一篇文章,寫的不好的地方還望指正。謝謝各位! 引言 簡訊服務(Short Message Service)是阿裡雲為用戶提供的一種通信服務的能力,支持快速發送簡訊驗證碼、簡訊通知等。(我這裡只講一個最基本的簡訊的發送驗證碼的功能) 1.欲練神功,揮刀子宮嘛。咱們先要把環境搭 ...
  • MSSQL數據表生成模型 http://pan.baidu.com/s/1gfqvC3p ...
  • 線程池使用起來很簡單,但它有一些限制: 線程池中的所有線程都是後臺線程。如果進程的所有前臺線程都結束了,所有的後臺線程就會停止。不能把入池的線程改為前臺線程。 不能給入池的線程設置優先順序或名稱。 對於COM對象,入池的所有線程都是多線程單元線 程。許多COM對象都需要單線程單元線程。 入池的線程只能 ...
  • 一、描述: 在使用 Entity Framework Core 時,使用 CodeFirst 模式, 在 VS 中的 PMC(nuget 包管理 控制台) 控制台界面使用如下命令: 1 Install-Package Microsoft.EntityFrameworkCore.Tools 2 3 A ...
  • 一、進程與線程 1.進程 我們電腦的應用程式,都是進程,假設我們用的電腦是單核的,cpu同時只能執行一個進程。當程式出於I/O阻塞的時候,CPU如果和程式一起等待,那就太浪費了,cpu會去執行其他的程式,此時就涉及到切換,切換前要保存上一個程式運行的狀態,才能恢復,所以就需要有個東西來記錄這個東西, ...
  • 之前我們實現了最簡單的 命令的模版替換,就是將 這樣一段內容替換成``。 現在我們來說下其他的命令,先來回顧下之前的定義 + 輸出變數值 表達式的返回值將被自動傳遞給 的 函數進行處理,以防止 攻擊。 + 輸出未轉義的變數值 + If 表達式 通過 、`@elseif @else @endif if ...
  • 背景:之前做單點登錄,複製了幾個tomcat,改了各自埠,當做不同伺服器用。 今天無意間隨便點擊了一個tomcat下的startup.bat批處理文件,結果出來控制台,沒出幾行信息就閃退了。點擊其他幾個tomcat的startup.bat,也一樣的結果,頓時感覺莫名其妙,之前都用得好好的啊,其中一 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...