[開源] 分享導出博客園文章成本地 Markdown 文件存儲的工具

来源:http://www.cnblogs.com/parry/archive/2016/01/24/generate_cnblogs_article_to_markdown.html
-Advertisement-
Play Games

此文主要分享瞭如何將自己博客園的文章自動導出到 Markdown 文檔進行存儲,以便在本地進行歸檔管理,程式中也對文章的分類、tag、代碼塊以及文章中的圖片進行了保存處理,以便上傳到自己的圖床。


此文主要分享瞭如何將自己博客園的文章自動導出到 Markdown 文檔進行存儲,以便在本地進行歸檔管理,程式中也對文章的分類、tag、代碼塊以及文章中的圖片進行了保存處理,以便上傳到自己的圖。
整理後的 Markdown 可以在本地整理成冊或者發佈到自己的個人博客上,比如我使用 Markdown 書寫的 個人博客

文章目錄

  1. 支持的功能
  2. 基本原理
  3. 幾個知識點
    • 將 HTML 轉換成 Markdown
    • 註意 Mac 和 Windows 以及 Linux 下的換行的區別
    • 文章分類、tag 的獲取
    • 文章中圖片保存
  4. 項目開源下載

1. 支持的功能

  • 可以迴圈抓取自己博客園的所有文章導出到 Markdown 文件進行保存;
  • 在 Markdown 的頭部保存了原文章的標題、發表時間、文章分類、文章 tag 元素;
  • 文章中的代碼塊會抽取出來包含在 codeblock 中,你也可以修改源碼保存成其他的格式塊;
  • 保存的文件名就是原文章的路徑,如果你的文章都設置了 EntryName,那生成的文件名就會非常的友好;
  • 文章中的圖片可選進行本地保存,命名的格式為源文件名,並可在原文中將鏈接進行圖床首碼的替換,你可以修改源碼按照自己的格式進行保存。

抓取保存後文件預覽。

抓取後的文件預覽

2. 基本原理

  1. 迴圈抓取博客的列表,獲取到文章的鏈接;
  2. 迴圈文章的鏈接,進行抓取,提取元素;
  3. 保存抓取到的元素進行格式化並保存。

3. 幾個知識點

將 HTML 轉換成 Markdown

這裡使用了一個開源的組件 Html2Markdown ,在控制台安裝組件後就可以使用了,主要支持兩個方法。
對字元串進行轉換

var html = "Something to <strong>convert</strong>";
var converter = new Converter();
var markdown = converter.Convert(html);

對文件進行轉換

var path = "file.html";
var converter = new Converter();
var markdown = converter.ConvertFile(path);

註意 Mac 和 Windows 以及 Linux 下的換行的區別

具體的區別可以看這裡,可以根據自己的情況對源碼進行修改。

unix、windows、mac 的換行習慣

unix / linux:用 LF (\n) 表示一行結束。

mac:用 CR (\r) 表示一行結束。

windows:用 CR LF (\r\n) 和起來表示一行結束。

文章分類、tag 的獲取

分析後發現通過模擬請求 API 獲取即可,需要的參數通過正則匹配獲取,返回數據為 Unicode 進行轉碼提取。

文章中圖片保存

你可以修改源碼開啟或關閉此功能,使用文章中文件名作為保存到本地的文件名,並將文章中的圖片首碼進行了替換,你可以替換成你自己新的圖床地址。輸出的圖片文件在程式啟動的 images 文件夾。

4. 項目開源下載

項目源代碼在 GitHub
需要註意的問題是,項目中可能因為新舊文章中某些格式的變化導致抓取出來的 Markdown 格式可能稍有偏差,以及圖片、代碼塊的處理,你需要去根據自己的博客去進行對應的調整後使用。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Opps, my computer system was broken again... Let's repire it.IntroductionThe system of my PC is broken. I could enter the UEFI setting. So that means ...
  • A few days ago, I have tried to write bare medal program but failed. Now I find that the main mistake is that I have mistake the address of GPIO of BC...
  • 所謂的處理器就是電腦的核心運算硬體,現在使用windows操作系統的用戶使用的機器之中的處理器多數都是X86內核,而實際之上很多時候我們用戶都是會在心目之中把一個處理器和其運行的特定操作系統掛鉤,之前說的X86和windows操作系統,而在Cortex-A系列硬體之上我們運行的多數都是Androi...
  • 1,使用工具概述 FT232Rl晶元+sscom32+示波器 2,接收數據分析 sscom32發送數據:0xaa[1010 1010] 波特率為:4800bps @5V系統 示波器測試FT232RL 發送引腳 Txd,得到數據如上圖所示。 從上圖中可以得到如下幾點結論: 1.Txd空閑為高電平。 2...
  • 1.修改主機名及hosts文件10.205.22.185 nn1 (主)作用namenode,resourcemanager,datanode,zk,hive,sqoop10.205.22.186 nn2 (備)作用namenode,resourcemanager,datanode,zk10.205...
  • BBB 的板上有五個 LED 燈,一個電源,四個其他指示燈,usr0 至 usr3 。這次學習是控制 usr0 至 3 讓它們亮著,熄滅,閃。算是個 Hello World 實驗。非常簡單。 需要的材料: BBB 一臺 購買BBB 自帶的數據線一條 手提電腦或台式電腦,有 USB 插頭的 首先用數據...
  • 由於Python易學、開源、面向對象、可移植性高、庫豐富的特點,近期開始學習Python。百度瞭解了各款Python IDE後,還是認為Eric比較適合我,所以踏上了安裝Eric坎坷之路,從選定工具到安裝成功一共花費了8天時間,從Windows到Linux再到Mac,挨個折騰了一遍,Windows的...
  • 問題一:什麼是C#?C#是微軟公司在2000年新推出的一款運行在.NET Framework平臺上面的編程語言,這個.NET Framework平臺又怎麼去理解呢?舉個例子來說好了,一個土著族人只會說土著話,他跑到美國去用土著話跟別人交流,別人當然什麼都聽不懂,最後他還是乖乖回到他的土著國。那麼在這...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...