本文略微有些長,花了好幾晚時間編輯修改,若在措辭排版上有問題,請諒解。本文共分為四篇,下麵是主要內容,也是軟體開發基本流程。 階段 描述 需求分析 主要描述實現本程式的目的及對需求進行分析,即為什麼要花時間來編寫,需要哪些功能等; 方案設計 根據現有的需求,設計出一個可行的方案(即使可能還存在某些問 ...
本文略微有些長,花了好幾晚時間編輯修改,若在措辭排版上有問題,請諒解。本文共分為四篇,下麵是主要內容,也是軟體開發基本流程。
階段 |
描述 |
需求分析 |
主要描述實現本程式的目的及對需求進行分析,即為什麼要花時間來編寫,需要哪些功能等; |
方案設計 |
根據現有的需求,設計出一個可行的方案(即使可能還存在某些問題),用戶需要輸入什麼,程式需要處理什麼,資料庫、功能、界面的設計等; |
編程實現 |
通過.NET編程實現圖標批量下載的功能,重點分析其中遇到的問題及解決的方法。 |
成果展示 |
展示分享實現的工具及成果,小結經驗。 |
一、需求分析
在平時的程式開發中,為了快速搭建較為美觀的用戶界面,經常要下載一些圖標作為按鈕、控制項等的外觀,甚至需要自己動手製作一些特定的圖標或圖片。自己動力,不得不說需要一定的技術和審美功底;下載,又得到網上到處找,找到一套適合主題、色彩、尺寸、美觀大方的圖標還真是一件不容易的事。
幸好,網上有很多專門下載圖標的網站,常用的有:
這些網站各有各的優點,共同點是都包含大量圖標,我個人比較喜歡在EasyIcon上去搜索,下載,也很喜歡它的網址。它有優點有:
(1)支持中英文搜索。EasyIcon支持中文和英文的搜索,當然,它的原始圖標名稱還是英文,只不過在搜索前,利用百度翻譯API將中文翻譯成英文,再進行搜索。
(2)用戶體驗好。很多網址在進行瀏覽時,都是需要點擊"下一頁"之類的按鈕,而它支持鍵盤快捷鍵,而且體驗效果還不錯;它的界面、文字啊也比較活潑,比如按熱度排序,它優雅的稱其為"拋頭露面的優先"。
(3)保持更新。作為寫代碼的,我們最害怕開源的東西不再更新了,EasyIcon圖標更新頻率還算將就。
(4)打包下載,有時,我們下載的圖標不只一個,可以使用它的打包下載功能。(但此功能有一定的限制,如每一次打包下載有數量限制,且下載尺寸、格式等不便設置,這也是為什麼要重新寫一個批量下載工具的原因。)
所以,總結下來,我們需要一個程式,實現批量下載不同格式、尺寸的圖標到本地,以便於搜索和利用。
二、方案設計
1.瀏覽器下載圖標
設計方案並不是直接就想出來,還是要根據實際來一點一點地分析、確定。我們用瀏覽器來下載一個圖標試一試。
目標:http://www.easyicon.net/iconsearch/iconset:fatcowhosting-icons/
在這個網址里,包含2000個(40頁)不同尺寸和格式和圖標。fatcowhosting-icons就是這些圖標集合的分類名稱。
單擊第一個圖標,進入其他詳細頁面:http://www.easyicon.net/530832-Zoom_Selection_icon.html,這裡我們可以看到很多參數信息。
點擊PNG圖標下載,我們下載這個圖標。(這一次的下載,就是以後代碼中最內層迴圈的一段代碼。)我們看到了真實的下載地址:http://download.easyicon.net/png/530832/32/
只要我們有這個下載網址,無論在哪個瀏覽器或自定義程式,都可以進行下載。
2.分析下載地址
來看每一頁的地址:
http://www.easyicon.net/iconsearch/iconset:fatcowhosting-icons/1/
fatcowhosting-icons表示圖標集合名稱,1表示頁數
那我們來分析一下這個地址:http://download.easyicon.net/png/530832/32/
這個下載地址可分解為:固定部分+格式+圖標編號+尺寸
再來看一下,下載需要的參數:下載地址+文件保存路徑+文件名稱
綜合分析可以看出,圖標的格式、尺寸、文件保存路徑可以由用戶指定,現在關鍵是缺少圖標編號和文件名稱。
假如我們已經知道了圖標編號,並將下載網址輸入到瀏覽器的地址欄中提交,瀏覽器可自動識別出下載的文件名稱,這是為何?說明用戶向伺服器提交這個地址後,伺服器返回了一些消息,其中就包括文件名稱,所以,通過某種編程方式(後面會提到,暫不用著急去查詢),可以獲取到文件名稱。
好了,現在唯一缺少的主是圖標編號了。通過觀察網站的其他圖標,可以發現這些編號都是連接的,比如530832是Zoom_Selection_icon的編號,而530831是Zoom_Refresh的編號;再看圖標fatcowhosting-icons集合的每一頁都是50個(最後一頁除外),我們是不可以根據每一個圖標和最後一個圖標的編號來獲取這個圖標集合的所有編號?答案是肯定的。
那我們怎麼來獲取第一個和最後一個的編號?如果我們又通過某種技術手段獲取到這兩上編號了……等等,如果能獲取這兩個編號了,為什麼不獲取直接獲取所有編號呢?是的,通過網頁抓取的某種方法應該可以獲取所有編號。
3.畫一個簡單的流程圖
下麵是使用億圖圖示專家V7.9繪製流程圖:
4.寫一個簡單的介面
分析了這麼久,寫一個簡單的介面來理一下我們的思路。(C#)
private string[] FileType; //文件格式 private int[] FileSize; //文件大小 private string FilePath; //文件保存路徑 private int TotalPages; //圖標總頁數 //獲取圖標總頁數 private int GetTotalPages(string iconsURL) { } //獲取當前頁的編號 private string[] GetIDs(string pageURL){} private bool DownICO(string[] fileType, int[] fileSize, int totalPages) { //一層:遍歷每一頁 for (int i = 0; i < totalPages; i++) { //獲取當前頁所有編號 string[] strIDs = GetIDs("PagesURL"); //兩層:遍歷每一個編號 for (int j = 0; j < strIDs.Length; j++) { //三層:遍歷每一種尺寸 for (int k = 0; k < fileSize.Length; k++) { //四層:遍歷每一種格式 for (int m = 0; m < filePath.Length; m++) { //生成下載鏈接 string downURL = "http://download.easyicon.net/格式/編號/尺寸/"; Down(this.FilePath, downURL); //其他操作…… } }//4 }//3 }//2 }//1 //下載每一個圖標 private bool Down(string filePath,string downURL){}
5.關鍵問題
下麵是代碼中使用的關鍵問題的解決方案:
(1)如果一切參數都能找到,用哪個類或方法來下載?System.Net.WebClient的DownloadFile方法。
(2)怎樣獲取圖標總頁數?根據觀察網頁,每一頁都有"個圖標,翻X頁可看完",X即為總頁數,通過抓取網頁字元串即可;
(3)怎樣獲取每一頁所有圖標的編號?當然還是通過網頁抓取。如下圖,通過審查元素,可以看到每一個圖標的編號和名稱。
(4)怎樣獲取下載圖標的名稱?有兩種方式,一是網頁內容抓取;二是通過根據服務返回的信息來提取。
三、編程實現
編程比較簡單,下麵是網頁操作的兩個比較核心的函數(第一次抓取網頁,不知道這樣好不好)
第一個函數,是通過網頁地址來獲取網頁代碼的。
/// <summary> /// 根據URL獲取網頁代碼 /// </summary> /// <param name="strURL">URL地址</param> /// <returns>網頁代碼字元串</returns> public static string GetHtmlString(string strURL) { Uri uri = new Uri(strURL); HttpWebRequest request = (HttpWebRequest)WebRequest.Create(uri); HttpWebResponse response = (HttpWebResponse)request.GetResponse(); Stream stream = response.GetResponseStream(); string strHtml = ""; if (stream != null) { StreamReader sr = new StreamReader(stream); strHtml = sr.ReadToEnd(); sr.Close(); stream.Close(); response.Close(); } return strHtml; }
第二個函數主要是根據向伺服器提交圖標的下載鏈接,獲取返回的headers信息,這些信息里就包含了圖標的名稱。
/// <summary> /// 根據URL獲取headers信息 /// </summary> /// <param name="URL">URL地址</param> /// <returns>headers信息列表</returns> public static Dictionary<string, string> GetHeaders(string URL) { Dictionary<string, string> headerList = new Dictionary<string, string>(); WebRequest webRequestObject =HttpWebRequest.Create(URL); WebResponse responseObject =webRequestObject.GetResponse(); foreach (string headerKey in responseObject.Headers) { headerList.Add(headerKey, responseObject.Headers[headerKey]); } responseObject.Close(); return headerList; }
問題一:驗證碼問題
編程其實並不是那麼一蹴而就,或多或少會遇到一些之前沒有想到的問題
其中遇到最大的問題是驗證問題。如果大量下載圖標(第一次達166個圖標)時,向伺服器提交下載地址時,它會彈出驗證視窗,下麵是用webBrowser控制項得到的結果。
這是另外一個網頁http://www.easyicon.net/api/captcha/captcha.php返回的結果
解決:一開始的解決思路是去抓包,獲取提交鏈接和內容,就像其他程式讓用戶打碼一樣;後來我就得反正是要打碼,還不如讓用戶直接看到這個頁面(當然,這樣的界面顯示很粗糙,實際上應該去獲取這個圖標,並將這個圖標顯示在用戶面前),於是用了webBrowser控制項;接下來,需要一個輸入,然後提交:輸入採用了VB中的InputBox,這樣更方便,不需要去暫停線程,提交就是用HtmlElement的GetAttribute來獲取提交按鈕,用InvokeMember方法來執行。
問題二:程式假死問題
下載量過多,程式界面肯定會假死,用戶體驗十分不好。需要新建線程,但要註意新線程與主線程之間的控制項信息交互問題。
解決:下麵是用委托來實現向ListBoxAdv添加下載返回的消息的函數。
delegate void SetValueCallback(ListBoxAdv lstA,string log); private void SetPropertyValue(ListBoxAdv lstA,string log) { if (lstA.InvokeRequired) { SetValueCallback d = new SetValueCallback(SetPropertyValue); lstA.Invoke(d, new object[] { lstA,log }); } else { lstA.Items.Add(log); lstA.SetSelected(lstA.Items.Count-1,true); lstA.SelectedIndex=lstA.Items.Count - 1; } }
調用:
SetPropertyValue(lstAdv, "消息……”);
問題三:下載失敗問題
並不是所有圖標都能正常下載,即使多次反覆下載,它容易出現,下載結果只有25位元組大小的圖標(重覆下載也無效),可能是因為網速的原因。
解決:遍歷所有25位元組的圖標,刪除後重新下載(當然也需要耗時)。
四、成果展示
主界面
下載的圖標
我測試下載了png 32的圖標,約8000多個,本地和雲盤都有,文件以編號+名稱命名,通過編號,我可以再從官網下載到其他需要的圖標,通過名稱可以搜索到需要的圖標。
源碼下載:http://files.cnblogs.com/files/liweis/EasyDown.rar
展望
1.伺服器是怎樣檢測本機連續下載圖標的數量的?是根據IP還是其他,如果搞清它的機制,是否可以通過某種代碼操作跳過它的檢測,而不再使用驗證碼呢?
2.怎樣查詢到圖標集合的名稱,可以通過某種SQL代碼查詢到嗎?如果可以,整個easyicons就不是問題了!