如何用代碼來快速批量下載人教社中小學電子教材

-Advertisement-

昨天看新聞，說人教社開放了人教版中小學教材電子版的春季教材（下載地址：http://bp.pep.com.cn/jc/ )，就想著給兒子全下載下來以備後用。不過人工下載真是麻煩枯燥，為了省事，就寫個爬蟲。原本打算用python，回頭想了下，好久沒用C#了，就用C#寫吧。具體思路和實現步驟如下 1. ...

昨天看新聞，說人教社開放了人教版中小學教材電子版的春季教材（下載地址：http://bp.pep.com.cn/jc/ )，就想著給兒子全下載下來以備後用。不過人工下載真是麻煩枯燥，為了省事，就寫個爬蟲。原本打算用python，回頭想了下，好久沒用C#了，就用C#寫吧。

具體思路和實現步驟如下

1. 分析相關網頁的結構和連接跳轉來瞭解如何獲取到電子書的網頁地址。

首先，涉及的頁面主要有兩頁，第一個頁面是分類目錄頁面，裡面按小學，中學這些分了大的類別，每個大的類別下麵又有學科這些小的類別，第二個是每個學科下的各個年級的電子書下載詳情頁面。

根據上述兩個頁面的情況，我決定首先從第一個頁面來獲取到所有大類及各個大類下麵每個學科的網頁地址，再依次迭代上述各學科網頁的內容，從其內容獲取每個電子書的地址，最後來多線程非同步來下載每個學科下的電子書。

2. 要從html頁面獲取電子書地址，就必須用到兩個類庫，一個用來處理訪問網頁和網路下載的網路類，一個是用來分析html結構的類庫。這裡我選用了WebClient和HtmlAgilityPack。

3. 根據第1步的思路，先分析分類目錄的頁面的html代碼結構情況（目錄頁面html結構圖如下），用第二步選擇的類庫來實現獲取大分類目錄及其下各學科頁面網址，返回結果用Dictionary<string,List<string>>來存放，其中，key表示小學，初中，高中這些大的分類名稱，List<string>表示大分類下各學科的頁面地址。目錄頁面html結構如下圖

具體實現代碼如下：

            //獲取各學科各頁面地址
            public async Task<Dictionary<string, List<string>>> GetSubjectPageUrlsAsync()
            {
                var url = BASE_URL;
                Dictionary<string, List<string>> bookUrls = new Dictionary<string, List<string>>();

                var categoryXpath = "//*[@id=\"container\"]/div[@class=\"list_sjzl_jcdzs2020\"]";

                //獲取指定地址的html頁面內容
                WebClient webClient = new WebClient();
                var content = await webClient.DownloadStringTaskAsync(url);

                //載入html內容到HtmlDocument以便處理內容
                HtmlDocument htmlDocument = new HtmlDocument();
                htmlDocument.LoadHtml(content);

                //獲取指定路徑的節點集合
                HtmlNodeCollection booksListEle = htmlDocument.DocumentNode.SelectNodes(categoryXpath);

                if (booksListEle != null)
                {
                    foreach (var item in booksListEle)
                    {
                        //獲取中學，小學等這些分類名稱
                        string title = string.Empty;
                        var titleNode = item.SelectSingleNode(".//div[@class=\"container_title_jcdzs2020\"]");
                        if (titleNode != null)
                        {
                            title = titleNode?.InnerText;
                        }

                        //獲取中學，小學等這些分類下的各學科頁面所在地址
                        HtmlNodeCollection urlsNodes = item.SelectNodes(".//a");
                        if (urlsNodes?.Count > 0)
                        {
                            var list = new List<string>();
                            foreach (HtmlNode urlItem in urlsNodes)
                            {
                                var fullUrl = url + urlItem.Attributes["href"].Value.Substring(2);
                                list.Add(fullUrl);
                            }

                            if (!string.IsNullOrEmpty(title) && list.Count > 0)
                            {
                                bookUrls.Add(title, list);
                            }
                        }
                    }
                }
                return bookUrls;
            }

4. 迭代第3步所示結果，根據學科頁面html內容結構（見下圖），從各個學科頁面內容中進行電子書地址提取。

具體代碼如下：

            //獲取各學科頁面中的電子書地址
            private async Task<(string Subject, List<(string BookName, string BookUrl)> Books)> GetSubjectBooksAsync(string url)
            {
                const string contentRootXpath = "//*[@id=\"container\"]/div[@class=\"con_list_jcdzs2020\"]";

                //Get html content
                WebClient client = new WebClient();
                string webcontent = await client.DownloadStringTaskAsync(url);

                //load html string with HtmlDocument
                HtmlDocument htmlDocument = new HtmlDocument();
                htmlDocument.LoadHtml(webcontent);

                HtmlNode rootNode = htmlDocument.DocumentNode.SelectSingleNode(contentRootXpath);

                //Get the subject.獲取學科名稱
                HtmlNode titleEle = rootNode.SelectSingleNode(".//div[@class=\"con_title_jcdzs2020\"]");
                string subject = string.Concat(titleEle?.InnerText.Where(c => !char.IsWhiteSpace(c)));

                //Get all books of the subject. 
                //獲取學科下所有書列表並開始下載
                HtmlNodeCollection bookNodes = rootNode.SelectNodes(".//li");
                List<(string BookName, string BookUrl)> books = new List<(string BookName, string BookUrl)>();
                if (bookNodes != null && bookNodes.Count>0)
                {
                    string bookName = null;
                    string bookUrl = null;

                    foreach (HtmlNode liItem in bookNodes)
                    {
                        bookName = FixFileName(string.Concat(liItem.ChildNodes["h6"].InnerText.Where(c => !char.IsWhiteSpace(c))));//get book's name
                        bookUrl = liItem.ChildNodes["div"].ChildNodes[3].Attributes["href"].Value;//get the url of ebook

                        books.Add((bookName, bookUrl));
                    }
                }
                return (subject,books);
            }

5. 用從第4步中的獲取的電子書地址開始下載電子書。具體代碼如下：

//下載單個科目下的所有書籍
            private async Task DownloadBooksAsync(string dir, string baseUrl, (string Subject, List<(string BookName, string BookUrl)> Books) books,Action<string, string> callback)
            {
                //Create the subdirectory under the specified directory.
                //創建子目錄
                dir = Path.Combine(dir, books.Subject);
                dir = FixPath(dir);
                if (!Directory.Exists(dir))
                {
                    Directory.CreateDirectory(dir);
                }

                //構建下載任務列表
                List<Task> downloadTasks = new List<Task>();
                int count = 0;
                foreach (var book in books.Books)
                {
                    WebClient wc = new WebClient();
                    Uri.TryCreate(baseUrl + book.BookUrl[2..], UriKind.Absolute, out Uri bookUri);
                    var path = Path.Combine(dir, @$"{book.BookName}.pdf");
                    var fi = new FileInfo(path);
                    if (!fi.Exists || fi.Length == 0)
                    {
                        var task = wc.DownloadFileTaskAsync(bookUri, path);
                        downloadTasks.Add(task);
                        count++;
                    }
                }

                //等待所有下載任務執行完後，執行回調函數
                await Task.WhenAll(downloadTasks).ContinueWith((task) => { callback(books.Subject ?? string.Empty, count.ToString()); });
            }

6. 到這裡，最核心幾個方法已經完成。下來就可以根據自己的界面交互需要，來選擇相應的實現方式，例如圖形界面，控制台或者網頁等，並來根據面向界面編寫具體的應用邏輯。為了節省時間和簡單起見，我選擇了控制台。其具體的代碼不在這裡敘述了，如有興趣，可以從github下載完整代碼查看。具體github的地址為：https://github.com/topstarai/PepBookDownloader

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【做題筆記】P1330 封鎖陽光大學

讀題易得：對於有邊的兩個點 $u,v$ ，能且僅能其中一點對這條邊進行封鎖。什麼意思呢？假設給這張圖上的點進行染色，那麼對於上述的兩個點 $u,v$ ， $u,v$ 必須異色（理解這一點很重要）。那麼，也就是說，在這張圖上，如果要把這張圖“完全封鎖”且兩隻河蟹不能封鎖相鄰的兩個點，換而言之，把 ...
【學習筆記】[圖論]樹的直徑

非嚴格定義：在一棵帶權樹上，相聚距離最大的兩個點或最長鏈的長度，稱之為樹的直徑樣例輸入：樣例輸出似乎並沒有什麼難理解的地方。解法1：DP 咕著解法2：DFS 經過思考，發現一個重要的性質：離樹上的某一結點最遠的那個結點，定是直徑的一個端點。那麼就好辦了！找到任一點的最遠點，再 ...
SpringCloud 設置多個運行實例的埠號

使用SpringCloud做集群，開發、測試階段，經常要運行一個模塊的多個實例，要修改埠號。有3種方式。方式一：配置文件 server.port=9001 方式二、修改引導類，控制台輸入參數值 @SpringBootApplication @EnableEurekaServer //作為Eur ...
clr via c# 程式集載入和反射集(一)

1,程式集載入弱的程式集可以載入強簽名的程式集,但是不可相反.否則引用會報錯!(但是,反射是沒問題的) //獲取當前類的Assembly Assembly.GetEntryAssembly() //通過Load方法載入程式集 Assembly.Load //通過LoadFrom載入指定路徑名的程式 ...
DotNet源碼學習-HASHSET（初探）

命名空間：System.Collections.Generic 先看一下官方說明：類提供了高級的設置操作。集是不包含重覆元素的集合，其元素無特定順序。 HashSet <T>對象的容量是對象可以容納的元素數。當向對象添加元素時，HashSet <T>對象的容量會自動增加。 HashSet<Strin ...
CommunityServer的編譯

1. 簡介 Community Server是一個免費的開源協作系統，用於管理文檔、項目、客戶關係和電子郵件通信，可以在私有伺服器上安裝和配置。它的組成分為： 1. OnlyOfficeJabber - 即時消息服務; 2. OnlyOfficeNotify - 郵件通知服務; 3. OnlyOff ...
VSTO開髮指南（VB2013版）第四章 Excel編程

實例1：處理NewWorkbook和WorkSheet事件的控制台程式書本第70頁程式清單 4.1 處理NewWorkbook和WorkSheet事件的控制台程式 Imports Excel = Microsoft.Office.Interop.Excel Imports System.Wind ...
asp.net網站作為websocket服務端的應用該如何寫

最近被websocket的一個問題困擾了很久，有一個需求是在web網站中搭建websocket服務。客戶端通過網頁與伺服器建立連接，然後伺服器根據ip給客戶端網頁發送信息。其實，這個需求並不難，只是剛開始對websocket的內容不太瞭解。上網搜索了一下，有通過asp.net core 實現的，有 ...