分享一個.NET平臺開源免費跨平臺的大數據分析框架.NET for Apache Spark

来源:https://www.cnblogs.com/yilezhu/archive/2019/04/25/10767910.html
-Advertisement-
Play Games

今天早上六點半左右微信群里就看到張隊發的關於.NET Spark大數據的鏈接https://devblogs.microsoft.com/dotnet/introducing net for apache spark/ ,正印證了“微軟在不斷通過.NET Core補齊各領域開發,真正實現一種語言的跨 ...


.NET for Apache Spark

今天早上六點半左右微信群里就看到張隊發的關於.NET Spark大數據的鏈接https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/ ,正印證了“微軟在不斷通過.NET Core補齊各領域開發,真正實現一種語言的跨平臺”這句話。那麼我們今天就來看看這個 .NET for Apache Spark到底是個什麼鬼?

作者:依樂祝
原文鏈接:https://www.cnblogs.com/yilezhu/p/10767910.html

什麼是.NET for Apache Spark?

我們都知道Spark是一種流行的開源分散式處理引擎,適用於大型數據集(通常是TB級別)的分析。Spark可用於處理批量數據,實時流,機器學習和即時查詢。處理任務分佈在一個節點集群上,數據被緩存在記憶體中,以減少計算時間。到目前為止,Spark已經可以通過Scala,Java,Python和R訪問,卻不能通過.NET進行訪問。

而.NET for Apache Spark就是旨在使.NET開發人員可以跨所有Spark API訪問Apache®Spark™。

.NET for Apache Spark為C#和F#提供了高性能的API來操作Spark。使用這個.NET API,您可以訪問Apache Spark的所有功能,包括SparkSQL、DataFrames、流、MLLib等等。.NET for Apache Spark允許您重用作為.NET開發人員已經擁有的所有知識、技能、代碼和庫。

C#/F#語言綁定到Spark將被寫入一個新的Spark交互層,這提供了更容易的擴展性。這一新的Spark交互層的編寫考慮了語言擴展的最佳實踐,並針對交互和性能進行了優化。長期來看,這種擴展性可以用於在Spark中添加對其他語言的支持。

.NET for Apache Spark符合.NET Standard 2.0標準,可以在Linux、MacOS和Windows上使用。

官網地址:https://dotnet.microsoft.com/apps/data/spark

快速開始.NET for Apache Spark

在本節中,我們將展示如何在Windows上使用.NET Core運行.NET for Apache SPark應用程式。

在開始使用.NET for Apache Spark之前,確實需要安裝一些東西,如: .NET Core 2.1 SDK | Visual Studio 2019 | Java 1.8 | Apache Spark 2.4.x。具體步驟可以參考這些步驟開始.net for Apache SPark

一旦安裝完畢,您就可以用三個簡單的步驟開始在.NET中編寫Spark應用程式。

在我們的第一個.NET Spark應用程式中,我們將編寫一個基本的Spark pipeline,它將統計文本段中每個單詞的出現次數。

// 1. Create a Spark session
var spark = SparkSession
    .Builder()
    .AppName("word_count_sample")
    .GetOrCreate();
 
// 2. Create a DataFrame
DataFrame dataFrame = spark.Read().Text("input.txt");
 
// 3. Manipulate and view data
var words = dataFrame.Select(Split(dataFrame["value"], " ").Alias("words"));
 
words.Select(Explode(words["words"])
    .Alias("word"))
    .GroupBy("word")
    .Count()
    .Show();

.NET For Apache Spark的特點

可以用C#或者F# 進行Apache Spark開發

.NET for Apache Spark 為您提供了使用 C# 和F# 來操作Apache Spark的APIs。使用這些.NET API,您可以訪問Apache Spark的所有功能,包括Spark SQL,用於處理結構化數據和Spark流。

高性能

第一版的.NET for Apache Spark在流行的TPC-H基準性能測試中的表現就很優異。TPC-H基準性能測試由一組面向業務的查詢組成。下圖展示了.NET Core與Python和Scala在TPC-H查詢集上的性能比較。

上面的圖表顯示了相對於Python和Scala,.NET對於Apache Spark的每個查詢性能對比。NET for Apache Spark在Python和Scala上表現良好。此外,在UDF性能至關重要的情況下,比如查詢1,JVM和CLR.NET之間傳遞3B行非字元串數據的速度比Python快2倍。

同樣重要的是,這是.NET for Apache Spark的第一個預覽版,我們的目標是進一步投資於改進和基準測試性能(例如,Arrow優化)。您可以按照我們的指示在我們的GitHub倉儲上對此進行基準測試。

利用.NET生態系統

.NET For Apache Spark允許您重用作為.NET開發人員已經擁有的所有知識、技能、代碼和庫。

您的數據處理代碼還可以利用.NET開發人員可以使用的大型庫生態系統,如Newtonsoft.Json,ML.NET、MathNet.NDigics、NodaTime等。

跨平臺

.NET for Apache Spark可以在Linux、MacOS和Windows上使用,就像.NET的其他部分一樣。

.NET for Apache Spark在Azure HDInsight中預設可用,可以安裝在Azure Databricks、Azure Kubernetes服務、AWS資料庫、AWS EMR等中。

開源免費

.NET for Apache Spark是一個擁有來自3,700多家企業的60,000多名代碼貢獻者的強大開源社區的一部分。

.NET是免費的,其中包括用於 .NET for Apache Spark。沒有任何費用或許可證費用,包括用於商業用途的費用。

.NET For Apache Spark的下一步計劃

今天是我們旅程的第一步。以下是我們近期路線圖的一些特點。

  • 簡化入門經驗、文檔和示例
  • 原生集成到開發人員工具中,如VisualStudio、VisualStudio Code、木星筆記本
  • .net對用戶定義的聚合函數的支持
  • NET的C#和F#的慣用API(例如,使用LINQ編寫查詢)
  • 用Azure資料庫、Kubernetes等提供的開箱即用的支持。
  • 使.NET for Apache Spark成為Spark Core的一部分。

總結

.NET for Apache Spark是微軟使.NET成為構建大數據應用程式的偉大技術棧的第一步。
想瞭解更多信息的可以訪問.NET for Apache Spark的github倉儲:https://github.com/dotnet/spark
最後,感謝您的閱讀。
本文內容,部分參考自:https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 中間件是被用到管道(pipeline)上來處理請求(request)和響應的(response)。 asp.net core 本身提供了一些內置的中間件,但是有一些場景,你可能會需要寫一些自定義的中間件。 1. 創建一個使用匿名委托的中間件組件的形式 註:app.use中return next()會 ...
  • 異常內容 解決方案 思考:瘋狂Google,找到 https://stackoverflow.com/questions/47822177/swagger net core api ambiguous http action debugging, 但是底下沒有有價值的回答。自己琢磨一下,比起一個標準 ...
  • 異常內容 System.TypeLoadException HResult=0x80131522 Message=Method 'get_IsTraceEnabled' in type 'Abp.Castle.Logging.Log4Net.Log4NetLogger' from assembly ...
  • 最近, 我在用C#開發一個EXCEL Add-In的時候,發現了一些害人不淺的坑,特來總結列舉如下: 這裡我讀寫EXCEL引用的是using Excel = Microsoft.Office.Interop.Excel; 問題一 如何判斷一個單元格去除首尾空格後是不是空的 在獲取單元格內的文本內容進 ...
  • 在前後端分離的大環境下,API介面文檔成為了前後端交流的一個重點。Swagger讓開發人員擺脫了寫介面文檔的痛苦。 官方網址:https://swagger.io/ 在.Net Core WebApi中通過簡單配置即可使用這一強大的功能。 1.新建一個API的項目 選擇 API 項目 2.引入Swa ...
  • 通過使用Http定義的伺服器的交互方法,進行更新與刪除。 PUT通常用於向伺服器發送請求,如果URI不存在,則要求伺服器根據請求創建資源,如果存在,伺服器就接受請求內容,並修改URI資源的原始版本。如果新的資源被創建,這個原始伺服器就必須通過201(Created)響應通知用戶代理。如果已有... ...
  • 一.概述 在Ocelot中,為了保護下游api資源,用戶訪問時需要進行認證鑒權,這需要在Ocelot 網關中添加認證服務。添加認證後,ReRoutes路由會進行身份驗證,並使用Ocelot的基於聲明的功能。在Startup.cs中註冊認證服務,為每個註冊提供一個方案 (authenticationP ...
  • 當一個頁面中添加了許多同類型控制項,當需要控制這些控制項進行顯示或隱藏的時候,需要一個個的將Visible屬性設置為false,十分不方便, 後通過論壇受一位大神(至於叫什麼忘了)的啟發,通過建立控制項數組的方式可以實現同種控制項批量修改同一屬性。 ToolStripStatusLabel[] Tlable ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...