前段在HTML頁面中抓數據時碰到的一些問題,有些數據直接隱藏在script標簽中了。於是想到了平衡組,分享下。 先通過HTML Agility Pack (非常強大的HTML解析工具)得到具體的HTML內容,通過具體的路徑匹配所有的script標簽,然後獲取你想要的某個script內容,如下圖: 開 ...
前段在HTML頁面中抓數據時碰到的一些問題,有些數據直接隱藏在script標簽中了。於是想到了平衡組,分享下。
先通過HTML Agility Pack (非常強大的HTML解析工具)得到具體的HTML內容,通過具體的路徑匹配所有的script標簽,然後獲取你想要的某個script內容,如下圖:
開始通過平衡組匹配:
string pattern = @"(?isnx) \[ (?> \[(?<Open>) | \](?<-Open>) | ((?![\[\]]).)* )* (?(Open)(?!)) \]";
MatchCollection mc = Regex.Matches(content, pattern);
if (mc.Count > 0 && mc[0].Success) Console.WriteLine(mc[0].Value);
這裡我只要第一個json數組,如果你想要匹配多個json直接遍歷即可。