抓取分析網頁批量下載評書(3)之批量下載mp3

来源:http://www.cnblogs.com/claspcn/archive/2016/03/25/5321494.html
-Advertisement-
Play Games

本系列目錄: 《1、搜索有聲小說》 《2、分析詳細頁地址》 《3、批量下載mp3》 本篇是大結局,看過前兩篇的放心吧,不會有第四篇了,軟體的下載地址,軟體完成的效果大家自己看吧。 一、查找mp3文件的下載地址 我們首先要獲取其下載地址,在評書的詳細頁中沒有找到,我們進入播放頁面,看看能找到什麼,如下 ...


     系列目錄:    1、搜索有聲小說    《2、分析詳細頁地址     《3、批量下載mp3》
     本篇是大結局,看過前兩篇的放心吧,不會有第四篇了,軟體的下載地址,軟體完成的效果大家自己看吧。
一、查找mp3文件的下載地址
     我們首先要獲取其下載地址,在評書的詳細頁中沒有找到,我們進入播放頁面,看看能找到什麼,如下圖。

     直接定位到播放mp3的元素,此處用了一個iframe,說明本頁面不是真正的播放頁面,簡單的看看,沒發現什麼有價值的內容,於是進入真正的播放頁面尋求答案,但是出現瞭如下的提示:

    嘗試換瀏覽器無果後,直接上大招,在評書詳細頁中按F12,選中網路標簽,然後F5刷新頁面,找到iframe中顯示的網址記錄,使用IE瀏覽器時,發現一個問題,URL鏈接中有許多亂碼,所以此處建議用Chrome瀏覽器,如下圖


    在篩選框中輸入mp3進行一下篩選,mp3這個關鍵字純是猜測,不同的情況要靈活調整,沒想到第一次就蒙上了,兩條結果正好是我想要的,第一條是真正的播放頁面地址,第二條是mp3的下載地址。
    先選中播放頁面那條記錄,看右側紅框中的內容,在程式發起請求時把這項加上,這樣就能獲得頁面的內容了,代碼如下:
1
2
3
4
5
6
7
8
9

HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(Url);
request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko";
request.Accept = "text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";          
request.ContentType = "application/x-www-form-urlencoded";
request.KeepAlive = true;

//此處換上每集的網址
request.Referer = "http://www.tingchina.com/pingshu/1228/play_1228_0.htm”; 
request.Method = "GET";
               其實更簡單的方法就是把請求標頭裡的內容都補充上,不用猜到底哪項起作用了。              播放頁的內容能抓取到了,接下來我們分析一下mp3的下載地址,看第二條記錄,就是mp3的地址,看下圖。

      有了mp3的下載地址,我們看看播放mp3頁面的html代碼,看看mp3下載地址是怎麼生成的,我們選中開發工具中的Elements標簽,然後點擊一下最左側的放大鏡,選中播放mp3的元素,接著我們按一下Ctrl+F,出現查詢框,從mp3的下載地址中找部分內容填進去,例如我填寫的是mp3?key=,然後回車,就定位到我們想要的內容,實際中,如果找不到可以嘗試換搜索的關鍵詞,還是不行,就把只能逐行看代碼,進行查找了,如下圖。
           有了這些數據,咱們簡單分析一下就能看出,url[2] 加上url[3]等於mp3的下載地址,接下來就簡單了,開始下載吧。
二、具體的代碼如下
 C# Code 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
  /// <summary>
/// 抓取網頁內容
/// </summary>
/// <param name="Url">網址</param>
/// <param name="myEncoding">編碼方式</param>
/// <param name="myEncoding">請求的網址</param>
/// <returns></returns>
public string GetHtml(string Url, Encoding myEncoding, string Referer)
{
    
string HtmlString = "";
    HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(Url);
    request.Timeout = 
15 * 1000;
    request.KeepAlive = 
true;
    request.AllowWriteStreamBuffering = 
true;
    request.Credentials = System.Net.CredentialCache.DefaultCredentials;
    request.MaximumResponseHeadersLength = -
1;
    request.Referer = Referer;
    request.UserAgent = 
"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko";
    request.Accept = 
"text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";            
    request.ContentType = 
"application/x-www-form-urlencoded";
    request.Method = 
"GET";
    
try
    {
        
using (HttpWebResponse response = (HttpWebResponse)request.GetResponse())
        {
            Stream resStream = response.GetResponseStream();
            StreamReader sr = 
new StreamReader(resStream, myEncoding);
            HtmlString = sr.ReadToEnd();
        }
    }
    
catch { }
    
return HtmlString;
}
 
/// <summary>
/// 下載評書的後臺線程
/// </summary>
/// <param name="sender"></param>
/// <param name="e"></param>
private void bw_Download_DoWork(object sender, DoWorkEventArgs e)
{
    
//圖書下載的本地路徑
    string LocalPath = e.Argument.ToString();

    
//查詢出所有未下載的劇集
    var query = from m in this._list
                where m.Status != 
1 orderby m.ID ascending
                select m;

    
//並行迴圈
    var loopResult = Parallel.ForEach(
        query, 
        
new ParallelOptions { MaxDegreeOfParallelism = 1 },
        (sound,loopStatue) =>{

            
//抓取劇集的詳細頁內容
            string Html = GetHtml(sound.Url, Encoding.GetEncoding("GB2312"), "");
            
if (Html != "")
            {
                
//分析播放音頻網頁的相關數據
                Match ms_Info = Regex.Match(Html, @"src=""/play/" + this._category + @"/flash.asp\?id=[\d]*&inum=[\d]*&flei=(?<Category>[\s\S]*?)&bookname=(?<BookName>[\s\S]*?)&filename=(?<FileName>[\s\S]*?).mp3&nexturl", RegexOptions.IgnoreCase | RegexOptions.Multiline);
                
if (ms_Info.Success)
                {
                    
//獲取評書的最終名稱和演播者
                    string[] tmp = ms_Info.Groups["BookName"].Value.Split('_');
                    
if (tmp.Length == 2)
                    {
                        sound.Title = tmp[
0];
                        sound.Performer = tmp[
1];
                    }
                    
else
                    {
                        sound.Title = ms_Info.Groups[
"BookName"].Value;
                        sound.Performer = ms_Info.Groups[
"Category"].Value;
                    }

                    
//播放mp3的網頁地址
                    string PlayUrl = "http://www.tingchina.com" + ms_Info.Value.Replace(@"src=""""").Replace(@"&nexturl""");

                    
//評書的實際播放頁面實際是嵌在詳細頁中的一個frame框架中,所以需要繼續抓取播放評書的頁面。
                    Html = GetHtml(PlayUrl, Encoding.Default, sound.Url);
                    
if (Html != "")
                    {
                        
//抓取下載MP3的地址
                        MatchCollection ms = Regex.Matches(Html, @"url\[[\d]{1}\]= ""http://t(?<Number>[\d]*).tingchina.com""", RegexOptions.IgnoreCase | RegexOptions.Multiline);

                        
//抓取下載MP3所需的Key
                        Match ms_Down = Regex.Match(Html, @"key=(?<key>[\d\w_]*)"";", RegexOptions.IgnoreCase | RegexOptions.Multiline);

                        
if (ms.Count > 0 && ms_Down.Success)
                        {
                            
//音頻mp3下載地址
                            string DownUrl = string.Format("http://t{0}.tingchina.com/{1}/{2}/{3}/{4}.mp3?key={5}", ms[0].Groups["Number"].Value, this._category, ms_Info.Groups["Category"].Value, ms_Info.Groups["BookName"].Value, ms_Info.Groups["FileName"].Value, ms_Down.Groups["key"].ToString());

                            WebClient client = 
new WebClient();
                            client.Headers.Add(
"Accept""*/*");
                            client.Headers.Add(
"Accept-Encoding""gzip, deflate");
                            client.Headers.Add(
"Cache-Control""no-cache");
                            client.Headers.Add(
"Host""t" + ms[0].Groups["Number"].Value + ".tingchina.com");
                            client.Headers.Add(
"Cookie""Hm_lvt_99c9da471c839d239f4f41b80b233115=1445870536,1446212277,1446474813");
                            client.Headers.Add(
"UserAgent""Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko");
                            client.Headers.Add(
"Referer""http://www.tingchina.com/play/newflashv4.swf");
                            client.Headers.Add(
"x-flash-version""20,0,0,267");
                            
try
                            {
                                
//開始下載MP3
                                client.DownloadFile(DownUrl, LocalPath + (sound.ID + 1).ToString().PadLeft(3'0') + @".mp3");
                                sound.Status = 
1;
                            }
                            
catch (Exception ex)
                            {
                                sound.Status = -
1;
                                sound.Error = 
"下載MP3失敗,原因:" + ex.Message;
                            }
                        }
                        
else
                        {
                            sound.Status = -
1;
                            sound.Error = 
"解析評書播放頁的代碼失敗。";
                        }
                    }
                    
else
                    {
                        sound.Status = -
1;
                        sound.Error = 
"抓取播放頁的Html代碼失敗。";
                    }
                }
                
else
                {
                    sound.Status = -
1;
                    sound.Error = 
"解析詳細頁的Html代碼失敗。";
                }
            }
            
else
            {
                sound.Status = -
1;
                sound.Error = 
"抓取詳細頁的Html代碼失敗。";
            }
        }
    );
}

private void bw_Download_RunWorkerCompleted(object sender, RunWorkerCompletedEventArgs e)
{
    
if (!this.IsDisposed)
    {
        var query = from m 
in this._list
                    where m.Status != 
1
                    orderby m.ID ascending
                    select m;

        
if (query.Count() > 0)
        {
            
this.btn_Download.Text = "繼續下載";
        }
        
else
        {
            
this.btn_Download.Text = "下載完畢";
        }
    }

        
private void btn_Download_Click(object sender, EventArgs e)
{
    
//本地保存的路徑
    string LocalPath = Path.Combine(this._outpath, this._title) + @"\";
    
if (!Directory.Exists(LocalPath))
    {
        
try
        {
            Directory.CreateDirectory(LocalPath);
        }
        
catch (Exception ex)
        {
            MessageBox.Show(
"創建評書下載目錄失敗,原因:" + ex.Message);
        }
    }

    
using (BackgroundWorker bw_Download = new BackgroundWorker())
    {
        bw_Download.WorkerReportsProgress = 
true// 設置可以通告進度
        bw_Download.RunWorkerCompleted += new RunWorkerCompletedEventHandler(bw_Download_RunWorkerCompleted);
        bw_Download.DoWork += 
new DoWorkEventHandler(bw_Download_DoWork);
        bw_Download.RunWorkerAsync(LocalPath);
    }
}

    終於寫完了,作為新手,可能寫的比較啰嗦,但是本意是希望讀者能根據三篇教程,一步一步的完成這個軟體。
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ID 類型 來 源 代 表 的 意 義 舉 例 解 釋 ...
  • 一、進程/線程 進程:系統進行資源分配和調度的一個獨立單位。(存資源) 線程:CPU調度和分派的基本單位。(執行) 一個進程可以有多個線程,一個線程可與同屬一個進程的其他線程共用進程所擁有的全部資源。 場景:超市。 /// <summary> /// 單線程 /// </summary> /// < ...
  • 大家在用三層架構做開發的時候,是否有使用介面,使用介面的時候是否有類似這樣的代碼: 然後每個每個表都有一個這樣的介面代碼,對比之後發現,這樣的代碼是不是很多重覆呢?那麼有什麼好的辦法可以減少這樣的重覆代碼??? 我想到的是泛型,介面同樣可以泛型,看下麵這張圖,IT_admin,IT_advs,IT_ ...
  • 1.//彈出對話框.點擊轉向指定頁面 2.//彈出對話框 3.//刪除文件 4.//綁定下拉列表框datalist 5.//時間去秒顯示 6.//標題帶鏈接 7.//修改轉向 8.//彈出確定按鈕 9.//輸出數據格式化 "{0:F2}" 是格式 F2表示小數點後剩兩位 10.//提取動態網頁內容 ...
  • 請求如何進入ASP.NET MVC框架 thx@4littleProgrammer url:http://www.cnblogs.com/4littleProgrammer/p/5317058.html ...
  • 環境:VS2013+MVC5+IIS EXPRESS 問題:如果從Asp.net Web遷移到MVC,可能會遇到需要使原來的鏈接(如http://localhost:12345/old/library.html)可以繼續訪問的情況,而預設情況下,MVC對於html尾碼是不經過路由的,直接給你一個40 ...
  • 我在前面一篇隨筆《Socket開發框架之框架設計及分析》中,介紹了整個Socket開發框架的總體思路,對各個層次的基類進行了一些總結和抽象,已達到重用、簡化代碼的目的。本篇繼續分析其中重要的協議設計部分,對其中消息協議的設計,以及數據的拆包和封包進行了相關的介紹,使得我們在更高級別上更好利用Sock ...
  • 之前我喜歡只是單純的記記筆記,沒有什麼寫文章的習慣,今天也是我一邊研究一邊學習,索性就連過程什麼的都記錄下吧,或許能幫到一兩個朋友呢。 首先,我們來想想什麼叫做單例,顧名思義,單一的一個對象,那麼,單一模式有什麼好處呢?比如說,你的對象只可以實例化一次等等。 先寫一個簡單的測試里的例子吧,比如我建一 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...