Dotnet core基於ML.net的銷售數據預測實踐

来源:https://www.cnblogs.com/tiger-wang/archive/2020/06/17/13150021.html
-Advertisement-
Play Games

ML.net已經進到了1.5版本。作為Microsoft官方的機器學習模型,你不打算用用? 一、前言 ML.net可以讓我們很容易地在各種應用場景中將機器學習加入到應用程式中。這是這個框架很重要的一點。 通過ML.net,我們可以使用手中的可用數據,進行預測、分析、檢測,而不需要進行過於複雜的編程。 ...


ML.net已經進到了1.5版本。作為Microsoft官方的機器學習模型,你不打算用用?

一、前言

ML.net可以讓我們很容易地在各種應用場景中將機器學習加入到應用程式中。這是這個框架很重要的一點。

通過ML.net,我們可以使用手中的可用數據,進行預測、分析、檢測,而不需要進行過於複雜的編程。

ML.net的核心,同樣是機器學習模型。它採用同樣的步驟,通過指定演算法來訓練模型,將輸入數據轉換為所需的預測數據。

更重要的是,ML.net基於.NET Core,這讓它可以非常簡單地跨平臺,在Windows、Linux、MacOS上運行,併成為我們服務端的一部分內容。

回到今天的主題。

我們用實際的例子,完成一個通過歷史銷售數據進行單變數時序分析(單譜分析),以預測未來銷量的需求。

    為了防止不提供原網址的轉載,特在這裡加上原文鏈接:https://www.cnblogs.com/tiger-wang/p/13150021.html

二、開發環境&基礎工程

這個Demo的開發環境是:Mac + VS Code + Dotnet Core 3.1.2。

$ dotnet --info
.NET Core SDK (reflecting any global.json):
 Version:   3.1.201
 Commit:    b1768b4ae7

Runtime Environment:
 OS Name:     Mac OS X
 OS Version:  10.15
 OS Platform: Darwin
 RID:         osx.10.15-x64
 Base Path:   /usr/local/share/dotnet/sdk/3.1.201/

Host (useful for support):
  Version: 3.1.3
  Commit:  4a9f85e9f8

.NET Core SDKs installed:
  3.1.201 [/usr/local/share/dotnet/sdk]

.NET Core runtimes installed:
  Microsoft.AspNetCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.AspNetCore.App]
  Microsoft.NETCore.App 3.1.3 [/usr/local/share/dotnet/shared/Microsoft.NETCore.App]

首先,在這個環境下建立工程:

  1. 創建Solution
% dotnet new sln -o demo
The template "Solution File" was created successfully.
  1. 這次,我們用Console創建工程
cd demo
% dotnet new console -o demo
The template "Console Application" was created successfully.

Processing post-creation actions...
Running 'dotnet restore' on demo/demo.csproj...
  Determining projects to restore...
  Restored demo/demo.csproj (in 143 ms).

Restore succeeded.
  1. 把工程加到Solution中
% dotnet sln add demo/demo.csproj

基礎工程搭建完成。

三、引入ML.net庫

為了使用ML.net,我們需要引入Microsoft.ML庫:

cd demo
% dotnet add package Microsoft.ML

除此之外,本文是基於時序的預測,還需要引入時序庫Microsoft.ML.TimeSeries

% dotnet add package Microsoft.ML.TimeSeries

我們今天用到的演算法是單譜分析(SSA)。SSA會將時序分解為一組主要成分, 並將這些成分解釋為信號,對應於趨勢、噪音、季節性及許多其他的因素,然後重新構建這些成分,用來預測未來某個時間的值。

四、準備數據

為了這個DEMO,我準備了一個包含全年365天實際銷售金額的數據。

其中這個數據又分為了兩部分,第一部分是前11個月的數據,用來做訓練,第二部分是12月一個月的數據,用來評估模型。

兩部分數據的鏈接如下:訓練數據評估數據

兩個數據文件均為CSV文件,數據結構完全相同,下麵是一段內容範例:

2018-12-21,17959.0
2018-12-22,19537.03
2018-12-23,20068.0
2018-12-24,20013.0
2018-12-25,21005.0
2018-12-26,16876.0
2018-12-27,15150.0
2018-12-28,15669.0
2018-12-29,25048.0
2018-12-30,25236.0

五、代碼開發

  1. 準備一個輸入模型ModelInput
public class ModelInput
{

    [LoadColumn(0)]
    public DateTime action_time { get; set; }
    [LoadColumn(1)]
    public float count { get; set; }
}

這個模型對應數據文件的結構,分兩個欄位,第一個是日期,第二個是對應的銷售金額。

  1. 準備另一個輸出模型ModelOutput
public class ModelOutput
{

    public float[] forecasted_count { get; set; }
    public float[] lower_count { get; set; }
    public float[] upper_count { get; set; }
}

這個模型跟隨預測結果的輸出,其中:

  • forecasted_count - 預測時間段內的預測值
  • lower_count - 預測時間段內預測值的下限
  • upper_count - 預測時間段內預測值的上限

  1. 初始化機器學習的實例
MLContext mlContext = new MLContext();

執行所有 ML.NET 操作都是從MLContext類開始,初始化 MLContext將創建一個新的 ML.net 環境,併在模型創建工作流對象之間共用該環境。

  1. 載入數據

ML.net有多種數據的載入方式,可以通過文件、資料庫、JSON/XML、記憶體中載入數據,甚至可以用自定義的資料庫連接載入數據。

本文的DEMO中,數據在CSV文件中,所以,我們採用下麵的方式載入:

static readonly string _data1Path = Path.Combine(Environment.CurrentDirectory, "data1.csv");
static readonly string _data2Path = Path.Combine(Environment.CurrentDirectory, "data2.csv");

static void Main(string[] args)
{
    MLContext mlContext = new MLContext();

    IDataView data1View = mlContext.Data.LoadFromTextFile<ModelInput>(_data1Path, separatorChar: ',', hasHeader: false);
    IDataView data2View = mlContext.Data.LoadFromTextFile<ModelInput>(_data2Path, separatorChar: ',', hasHeader: false);
}

IDataView是數據的承載空間。

  1. 定義時序分析管道
var forecastingPipeline = mlContext.Forecasting.ForecastBySsa(
    outputColumnName: "forecasted_count",
    inputColumnName: "count",
    windowSize: 7,
    seriesLength: 30,
    trainSize: 334,
    horizon: 7,
    confidenceLevel: 0.95f,
    confidenceLowerBoundColumn: "lower_count",
    confidenceUpperBoundColumn: "upper_count");

前面有說過,我們採用單譜分析,所以代碼中我們選擇了mlContext.Forecasting.ForecastBySsa

解釋一下這裡面的幾個參數:

  • trainSize - 數據樣本的數量,也就是訓練數據的行數(在這個文件中,一行是一個數據樣本,共334行)
  • seriesLength - 從數據樣本按時序採樣時的間隔,這裡是30天
  • windowSize - 樣本周期的天數,這裡是7天
  • horizon - 預測結果的天數
  • confidenceLevel - 上下限的可信度。預測屬於合理猜測,不總是完全準確。
  • 其它幾個參數,對應輸入輸出模型的欄位名

  1. 訓練模型

管道定義完成,數據載入完成,下麵要進行數據訓練。

SsaForecastingTransformer forecaster = forecastingPipeline.Fit(data1View);

跟隨上一節,管道是單譜管道,所以訓練也是單譜訓練SsaForecastingTransformer

程式執行到這裡,數據訓練完成。

  1. 模型評估

模型評估不是必須環節。

模型評估的意義在於:通過評估模型的性能,來調整管道的參數,以達到最佳的預測效果。

模型評估也有多種方式。在這裡,我們採用平均絕對誤差均方根誤差來做評估依據。

static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
    IDataView predictions = model.Transform(testData);

    IEnumerable<float> actual =
        mlContext.Data.CreateEnumerable<ModelInput>(testData, true)
            .Select(p => p.count);

    IEnumerable<float> forecast =
        mlContext.Data.CreateEnumerable<ModelOutput>(predictions, true)
            .Select(p => p.forecasted_count[0]);

    var metrics = actual.Zip(forecast, (actualValue, forecastValue) => actualValue - forecastValue);

    var MAE = metrics.Average(error => Math.Abs(error));
    var RMSE = Math.Sqrt(metrics.Average(error => Math.Pow(error, 2)));

    Console.WriteLine("評估結果");
    Console.WriteLine("---------------------");
    Console.WriteLine($"平均絕對誤差: {MAE:F3}");
    Console.WriteLine($"均方根誤差: {RMSE:F3}\n");
}

在這個方法中,我們取評估數據的實際值actual和通過訓練數據生成的預測值forecast,計算兩個誤差並輸出。

Main中調用此方法:

static void Main(string[] args)
{
        /* 這兒是前邊訓練的代碼,略過 */

        Evaluate(data2View, forecaster, mlContext);
}
static void Evaluate(IDataView testData, ITransformer model, MLContext mlContext)
{
      /* 這兒是評估模型的方法,上面有,略過 */
}

輸出結果類似於以下內容:

評估結果
---------------------
平均絕對誤差: 23.442
均方根誤差: 174.236

兩個指標:

  • 平均絕對誤差 - 度量預測與實際值之間的接近程度。 此值介於 0 到無限大之間。 越接近 0,模型的質量越好。
  • 均方根誤差 - 彙總模型中的錯誤。 此值介於 0 到無限大之間。 越接近 0,模型的質量越好。

  1. 預測

訓練模型調整到滿意後,即可開始預測的工作:

var forecastEngine = forecaster.CreateTimeSeriesEngine<ModelInput, ModelOutput>(mlContext);
ModelOutput forecast = forecastEngine.Predict();

這兩行代碼,在記憶體中載入前邊訓練好的模型,併進行預測操作。預測數據的結果放在forecast中。

對應於分析管道定義中的horizon,預測數據包含7天的預測結果。

  1. 預測結果輸出

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 響應式編程 命令式編程(Imperative Programing),是一種描述電腦所需做出的行為的編程範式。詳細的命令機器怎麼(How)去處理以達到想要的結果(What)。 聲明式編程(Declarative Programing),是一種編程範式,與命令式編程相對立。它描述目標的性質,讓電腦 ...
  • 作者:邊鵬_尛爺鑫 https://segmentfault.com/a/1190000010844969 大家心裡仔細想想,當你們聽到高併發網站時,心裡對這個網站是個什麼概念? 首先想到的是淘寶嗎?帶著問題,我們一起思考技術~ 寫這個話題是因為我對搜索引擎給我的答案很不滿意,然後決定把思考的一些東 ...
  • 1.封裝的作用 程式設計要追求”高內聚,低耦合“ 高內聚:類的內部數據操作細節自己完成,不允許外部干涉。 低耦合:僅暴露少量的方法給外部使用,儘量方便外部調用。 類似設計電視,冰箱也是,外部看起來很簡單,就幾個開關,方便使用。內部很複雜,不對外展示。 封裝的概念就產生於此,把對象的屬性和操作結合為一 ...
  • 進去黑客世界,跟著我學習-python-02-while迴圈.py ...
  • 0.前言 在上一篇中,我們提到瞭如何創建一個UnitOfWork並通過ActionFilter設置啟用。這一篇我們將簡單介紹一下ActionFilter以及如何利用ActionFilter,順便補齊一下上一篇的工具類。 1. ActionFilter 介紹 ActionFilter全稱是Action ...
  • 如果死迴圈獨占線程,500個死迴圈要占用500個線程,如果死迴圈不獨占線程,500個死迴圈,用200個線程也行,用20個線程也行,無非是執行的慢點 這樣可以把同步操作改寫為非同步,並且節省線程占用 問個問題:寫個Socket服務端,接收數據不准用BeginReceive和ReceiveAsync,只能 ...
  • 1.Add new folder Resources in project; 2.Add resource such as picture in the Resource folder; 3.Set the picture's Build Action as Embedded Resource in ...
  • 在用Android開發時,需要訪問SqlServer資料庫,雖然使用 jtds 實現了資料庫直連,但總感覺不安全且麻煩,手頭有裝VisualStudio,就用C#寫一個WebService來做資料庫的連接中轉,記錄一下中間的坑。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...