上一篇(https://www.cnblogs.com/meowv/p/12974439.html)完成了全網各大平臺的熱點新聞數據的抓取,本篇繼續圍繞抓取完成後的操作做一個提醒。當每次抓取完數據後,自動發送郵件進行提醒。 在開始正題之前還是先玩一玩之前的說到卻沒有用到的一個庫PuppeteerSh ...
上一篇(https://www.cnblogs.com/meowv/p/12974439.html)完成了全網各大平臺的熱點新聞數據的抓取,本篇繼續圍繞抓取完成後的操作做一個提醒。當每次抓取完數據後,自動發送郵件進行提醒。
在開始正題之前還是先玩一玩之前的說到卻沒有用到的一個庫PuppeteerSharp
。
PuppeteerSharp
:Headless Chrome .NET API ,它運用最多的應該是自動化測試和抓取非同步載入的網頁數據,更多介紹可以看GitHub:https://github.com/hardkoded/puppeteer-sharp 。
我這裡主要來試試它的非同步抓取功能,同時它還能幫我們生成網頁截圖或者PDF。
如果沒有安裝可以先安裝一下,在.BackgroundJobs
層安裝PuppeteerSharp
:Install-Package PuppeteerSharp
在Jobs文件夾下新建一個PuppeteerTestJob.cs
,繼承IBackgroundJob
,同樣是在ExecuteAsync()
方法中執行操作。
//PuppeteerTestJob.cs
using System;
using System.Threading.Tasks;
namespace Meowv.Blog.BackgroundJobs.Jobs.PuppeteerTest
{
public class PuppeteerTestJob : IBackgroundJob
{
public async Task ExecuteAsync()
{
throw new NotImplementedException();
}
}
}
使用 await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
第一次檢測到沒有瀏覽器文件會預設幫我們下載 chromium 瀏覽器。
DownloadAsync(...)
可以指定 Chromium 版本,BrowserFetcher.DefaultRevision
下載當前預設最穩定的版本。
然後配置瀏覽器啟動的方式。
using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
{
Headless = true,
Args = new string[] { "--no-sandbox" }
});
感興趣的可以自己看看LaunchOptions
有哪些參數,我這裡指定了Headless = true
以無頭模式運行瀏覽器,然後加了一個啟動參數 "--no-sandbox"。針對Linux環境下,如果是運行在 root 許可權下,在啟動 Puppeteer 時要添加 "--no-sandbox" 參數,否則 Chromium 會啟動失敗。
我們打開一個非同步載入的網頁,然後獲取到頁面載入完後的HTML,以我個人博客中的某個單頁為例:https://meowv.com/wallpaper 。
//PuppeteerTestJob.cs
using PuppeteerSharp;
using System.Threading.Tasks;
namespace Meowv.Blog.BackgroundJobs.Jobs.PuppeteerTest
{
public class PuppeteerTestJob : IBackgroundJob
{
public async Task ExecuteAsync()
{
await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);
using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
{
Headless = true,
Args = new string[] { "--no-sandbox" }
});
using var page = await browser.NewPageAsync();
await page.SetViewportAsync(new ViewPortOptions
{
Width = 1920,
Height = 1080
});
var url = "https://meowv.com/wallpaper";
await page.GoToAsync(url, WaitUntilNavigation.Networkidle0);
var content = await page.GetContentAsync();
}
}
}
page.SetViewportAsync()
設置網頁預覽大小,page.GoToAsync()
語法打開網頁,WaitUntilNavigation.Networkidle0
等待網頁載入完畢,使用page.GetContentAsync()
獲取到HTML。
新建擴展方法,調用這個PuppeteerTestJob
的ExecuteAsync()
方法,調試看看效果。
HTML已經出來了,此時該幹嘛就幹嘛就可以了。
第一次運行可能會很慢,因為如果你本地不存在 Chromium 是會去幫我們下載的,因為網路原因可能會下載的很慢,所以推薦大家手動下載。
可以使用淘寶的源:https://npm.taobao.org/mirrors/chromium-browser-snapshots/ 。
要註意的是,下載完成後的解壓的路徑不能出錯,預設下載地址是在啟動目錄下麵。
Windows:..\.local-chromium\Win64-706915\chrome-win
、 Linux:../.local-chromium/Linux-706915/chrome-linux
接下來試試生成PDF和保存圖片功能,使用方式也很簡單。
await page.PdfAsync("meowv.pdf",new PdfOptions { });
await page.ScreenshotAsync("meowv.png", new ScreenshotOptions
{
FullPage = true,
Type = ScreenshotType.Png
});
這裡只做簡單的展示,page.PdfAsync()
直接生成PDF文件,同時還有很多方法可以自己調用page.
試試,PdfOptions
選項中可以設置各種參數。
page.ScreenshotAsync()
保存圖片,ScreenshotOptions
中FullPage可以設置保存圖片為全屏模式,圖片格式為Png類型。
可以看到項目根目錄已經生成了圖片和PDF,感覺去試試吧。
接下里來實現發送郵件的功能。
我這裡發郵件的賬號是用的騰訊企業郵箱,也可以用普通郵箱開通SMTP服務即可。
在appsettings.json
配置收發郵件的賬號等信息。
//appsettings.json
"Email": {
"Host": "smtp.exmail.qq.com",
"Port": 465,
"UseSsl": true,
"From": {
"Username": "[email protected]",
"Password": "[Password]",
"Name": "MEOWV.COM",
"Address": "[email protected]"
},
"To": [
{
"Name": "test1",
"Address": "[email protected]"
},
{
"Name": "test2",
"Address": "[email protected]"
}
]
}
然後再AppSettings
中讀取配置的項。
//AppSettings.cs
public static class Email
{
/// <summary>
/// Host
/// </summary>
public static string Host => _config["Email:Host"];
/// <summary>
/// Port
/// </summary>
public static int Port => Convert.ToInt32(_config["Email:Port"]);
/// <summary>
/// UseSsl
/// </summary>
public static bool UseSsl => Convert.ToBoolean(_config["Email:UseSsl"]);
/// <summary>
/// From
/// </summary>
public static class From
{
/// <summary>
/// Username
/// </summary>
public static string Username => _config["Email:From:Username"];
/// <summary>
/// Password
/// </summary>
public static string Password => _config["Email:From:Password"];
/// <summary>
/// Name
/// </summary>
public static string Name => _config["Email:From:Name"];
/// <summary>
/// Address
/// </summary>
public static string Address => _config["Email:From:Address"];
}
/// <summary>
/// To
/// </summary>
public static IDictionary<string, string> To
{
get
{
var dic = new Dictionary<string, string>();
var emails = _config.GetSection("Email:To");
foreach (IConfigurationSection section in emails.GetChildren())
{
var name = section["Name"];
var address = section["Address"];
dic.Add(name, address);
}
return dic;
}
}
}
分別介紹下每項的含義:
Host
:發送郵件伺服器地址。Port
:伺服器地址埠號。UseSsl
:是否使用SSL方式。From
:發件人的賬號密碼,名稱及郵箱地址,一般郵箱地址和賬號是相同的。To
:收件人郵箱列表,也包含名稱和郵箱地址。
收件人郵箱列表我將其讀取為IDictionary<string, string>
了,key是名稱,value是郵箱地址。
接著在.ToolKits
層添加一個EmailHelper.cs
,收發郵件我選擇了MailKit
和MailKit
兩個庫,沒有安裝的先安裝一下,Install-Package MailKit
、Install-Package MimeKit
。
直接新建一個發送郵件的方法SendAsync()
,按照要求將基本的配置信息填進去,然後直接調用即可。
//EmailHelper.cs
using MailKit.Net.Smtp;
using Meowv.Blog.Domain.Configurations;
using MimeKit;
using System.Linq;
using System.Threading.Tasks;
namespace Meowv.Blog.ToolKits.Helper
{
public static class EmailHelper
{
/// <summary>
/// 發送Email
/// </summary>
/// <param name="message"></param>
/// <returns></returns>
public static async Task SendAsync(MimeMessage message)
{
if (!message.From.Any())
{
message.From.Add(new MailboxAddress(AppSettings.Email.From.Name, AppSettings.Email.From.Address));
}
if (!message.To.Any())
{
var address = AppSettings.Email.To.Select(x => new MailboxAddress(x.Key, x.Value));
message.To.AddRange(address);
}
using var client = new SmtpClient
{
ServerCertificateValidationCallback = (s, c, h, e) => true
};
client.AuthenticationMechanisms.Remove("XOAUTH2");
await client.ConnectAsync(AppSettings.Email.Host, AppSettings.Email.Port, AppSettings.Email.UseSsl);
await client.AuthenticateAsync(AppSettings.Email.From.Username, AppSettings.Email.From.Password);
await client.SendAsync(message);
await client.DisconnectAsync(true);
}
}
}
SendAsync(...)
接收一個參數MimeMessage
對象,這樣就完成了一個通用的發郵件方法,接著我們去需要發郵件的地方構造MimeMessage
,調用SendAsync()
。
//WallpaperJob.cs
...
// 發送Email
var message = new MimeMessage
{
Subject = "【定時任務】壁紙數據抓取任務推送",
Body = new BodyBuilder
{
HtmlBody = $"本次抓取到{wallpapers.Count()}條數據,時間:{DateTime.Now:yyyy-MM-dd HH:mm:ss}"
}.ToMessageBody()
};
await EmailHelper.SendAsync(message);
...
//HotNewsJob.cs
...
// 發送Email
var message = new MimeMessage
{
Subject = "【定時任務】每日熱點數據抓取任務推送",
Body = new BodyBuilder
{
HtmlBody = $"本次抓取到{hotNews.Count()}條數據,時間:{DateTime.Now:yyyy-MM-dd HH:mm:ss}"
}.ToMessageBody()
};
await EmailHelper.SendAsync(message);
...
分別在兩個爬蟲腳本中添加發送Email,MimeMessage
中設置了郵件主題Subject
,正文Body
,最後調用await EmailHelper.SendAsync(message)
執行發送郵件操作。
編譯運行執行兩個定時任務,看看能否收到郵件提醒。
成功了,郵箱收到了兩條提醒。
還有一種比較特殊的用法,也介紹一下,如果想要發送帶圖片的郵件怎麼操作呢?註意不是附件,是將圖片內嵌在郵箱中。
一般常規都是有郵件模板的,將圖片的具體地址插入到img標簽中,這就不說了,這裡選擇另外一種方式。以前面添加的PuppeteerTestJob
為例,正好我們生成了一張圖片的。將這種圖片以郵件的形式發出去。
public class PuppeteerTestJob : IBackgroundJob
{
public async Task ExecuteAsync()
{
var path = Path.Combine(Path.GetTempPath(), "meowv.png");
...
await page.ScreenshotAsync(path, new ScreenshotOptions
{
FullPage = true,
Type = ScreenshotType.Png
});
// 發送帶圖片的Email
var builder = new BodyBuilder();
var image = builder.LinkedResources.Add(path);
image.ContentId = MimeUtils.GenerateMessageId();
builder.HtmlBody = "當前時間:{0}.<img src=\"cid:{1}\"/>".FormatWith(DateTime.Now.ToString("yyyy-MM-dd HH:mm:ss"), image.ContentId);
var message = new MimeMessage
{
Subject = "【定時任務】每日熱點數據抓取任務推送",
Body = builder.ToMessageBody()
};
await EmailHelper.SendAsync(message);
}
}
先確定我們生成圖片的路徑 path ,將圖片生成Message-Id,然後賦值給ContentId,給模板中<img src=\"cid:{1}\"/>
圖片標簽cid
賦上值在調用發送郵件方法即可。
成功收到郵件,搞定了,你學會了嗎?