大模型時代的程式員:不會用AIGC編程,未來5年將被淘汰?

来源:https://www.cnblogs.com/seatunnel/archive/2023/08/14/17629247.html
-Advertisement-
Play Games

![file](https://img2023.cnblogs.com/other/3195851/202308/3195851-20230814171638731-1116543252.jpg) 作者 | 郭煒 策劃 | 凌敏 ## 前言 下麵是一段利用 Co-Pilot 輔助開發的小視頻,這是 ...


file

作者 | 郭煒

策劃 | 凌敏

前言

下麵是一段利用 Co-Pilot 輔助開發的小視頻,這是 Apache SeaTunnel 開發者日常開發流程中的一小部分。如果你還沒有用過 Co-Pilot、ChatGPT 或者私有化大模型幫助你輔助開發的話,未來的 5 年,你可能很快就要被行業所淘汰。因為這些善於使用 AIGC 輔助編程的人可以 10 倍於你的速度開發相應的代碼,而你沒有這個技能。我並不是危言聳聽,讀完此文,我相信你對 AIGC 研發提升研發效率會有全新的認知。

https://www.youtube.com/watch?v=-pBmwLZZtIw

大模型顛覆傳統初級程式員的培訓和輔導過程,讓技術和經驗“平權”

過去,初級程式員入職學習編程時,往往是師傅給一個任務需求,教大體的思路,然後在初級程式員寫出代碼工作當中培訓和糾正,針對不同的命題告訴不同的方案,直到初級程式員把這些經驗學會。

但大模型的到來把這個過程完全改變了。大模型自己具有廣泛的知識,而且有一些基礎的推理能力,它可以經歷無數次的實踐,學習公司里各種各樣的代碼和業務定義,它所遇到的場景要比師傅當年要遇到的場景多得多,同時它會根據開發者的需求和目標給出可能的答案。

這個過程就像我們多了一個無所不能的“師傅”,隨叫隨到還可以給你直接寫出可能的代碼,讓你參考學習,讓一個初級的程式員快速具有“師傅”寫代碼的能力。經過自己的學習和調整,就可以提交出一個遠超你自己個人水平的代碼,讓別人 Review。

那麼,我們有什麼理由不使用大模型來提高自己的研發效率呢?
file

如何使用大模型輔助編程?

目前常見的工具有 ChatGPT、Co-Pilot、私有化大模型等等,在不同場景下要用不同的方法來編寫程式:

file

可以看到,人類其實最適合就是做比較有挑戰和創新的架構類產品,或者是某個新業務場景的代碼,如果中間有復用的部分或者類似的演算法,可以使用 Co-Pilot 快速提升效率;ChatGPT 可以用於類似場景的代碼來自動生成,稍微修改就可以使用;私有化大模型更適合對數據和代碼安全有要求,而又需要大模型比較瞭解你的業務知識的場景,私有化大模型是需要 FineTune 的。

可能有人會說,私有化大模型普通公司玩不起的!其實這是一個誤解,如果你要原生訓練一個原生私有化大模型,估計中國能玩得起的公司不超過 5 個,而大多數公司不需要訓練大模型,只需要根據開源大模型優化(Finetune)大模型就可以讓大模型理解自己的業務了,而這個代價就是 1-2 張 3090/4090 的顯卡就可以了,整個的實行過程可能也只需要 2~3 個小時的配置就可以(感興趣的話可以參考下麵這篇文章:《用一杯星巴克的錢,訓練自己私有化的 ChatGPT》,裡面講的利用是 Apache DolphinScheduler 和配置好的模板,拖拽就可以訓練一個大模型的例子)。

使用私有化大模型可以直接實現以下功能:

  • 軟體眾多功能中,直接找到你所需要的功能;
  • 眾多複雜的使用手冊和規則,找到你所需要的功能和說明;
  • 輔助編程,Txt2SQL,提高數據程式員的效率。

使用私有化大模型來輔助編程,真的距離我們一點都不遙遠。如果你還不太相信 AIGC 自動化編程時代已經來臨了,那麼下麵這個開源項目如何利用 AIGC 提高研發效率的例子,或許可以幫助你更好理解。

大模型自動化編程實例:Apache SeaTunel

Apache SeaTunnel 願景是“連接萬源,同步如飛”,也就是可以連接市面上所有的數據源(包括資料庫、SaaS、中間件、BinLog),而且同步效率要做的最高。這對於任何一家公司都是不可能做到的事情,而面對幾千上萬的 SaaS 軟體和不斷變化的介面,甚至人類也無法做到這一點,那麼 Apache SeaTunnel 核心項目團隊是怎麼在這個 AI 時代設計這樣一款開源軟體呢?總體如下圖所示:

file

首先,計算核心引擎部分,屬於專門為同步而生的計算引擎,它不同於 Flink、Spark,主要在同步復用記憶體、CPU、帶寬和確保數據一致性上下功夫,所以大部分代碼都沒有可借鑒的,需要核心開發工程師直接編寫、修正,以確保“同步如飛 ”。當然,因為是開源項目,核心引擎部分得到了眾多大廠專家的修正和討論,以確保時刻跟進全球最先進的技術。

其次,資料庫的核心 Connector,例如 Iceberg Connector,這些介面實現比較複雜,除了保證代碼正確之外還要保證數據傳輸效率很高,這時候直接使用大模型是無法達到我們所需要的效果的。因此主力還是人,但可以復用自己和雲端過去常用的代碼來做,這時候使用 Co-Pilot 就是最佳方案,主導者是人,而大模型可以作為輔助來幫你補充常規演算法和復用的代碼,如開頭視頻所示的樣子。

面對浩如煙海的 SaaS 介面,例如 MarTech 領域的 SaaS 就超過 5000 個,靠人力對接介面是不可能的。SeaTunnel 核心團隊就想了一個辦法,根據多次嘗試,把過去為人寫的十幾個介面進行抽象,不斷和 ChatGPT 磨合,最終變成 2 個可以讓 ChatGPT 理解並寫出優雅代碼的介面,然後利用 ChatGPT 可以讀懂 SaaS 介面文檔的特點,直接生成相關代碼。這在 SeaTunnel 當中叫“AI Compatible”特性,相容 AI。我理解這更是程式員和 AI 的一種“和解”,大家不要相互搶飯碗,程式員為 AI 做好準備,AI 來做程式員無法做到的事情。

這個特性在 Apache SeaTunnel 2.3.1 裡面已經發佈了,當然作為眾創的開源軟體,該功能還有各種各樣的缺陷有待提升。不過因為代碼是完全開源的,我相信會有越來越多的愛好者把它打磨到更加自動化。比如,我已經聽到有一個開發者要做一個 GPT Coder,監控 GitHub 上的 SaaS issue,自動化調用 ChatGPT,生成代碼並提交 PR,讓機器人和人類捲到極致。
file

大模型自動化編程存在的問題

雖然 ChatGPT、Co-Pilot 可以輔助編程,但它們也不是無敵的,目前大模型生成代碼還有很多挑戰:

  • 準確率問題;
  • 無法做 code review;
  • 無法實現自動化測試;
  • 無法擔責。

大模型依然會出錯,這在未來一段時間是常態,哪怕是 ChatGPT4,寫出來的代碼也就 90% 的正確率,所以要儘量簡化它寫代碼的過程,否則可能會寫出來完全不對的代碼。大模型快速生成代碼之後,人類的 code review 會跟不上,因為機器是無法確定最終代碼實現業務邏輯是不是對的;而大模型做 code review 的話,你會發現每次都給你煞有其事地提出來不同的改進點,但其實都是無關痛癢部分,無法確定最終的邏輯正確性。

同時,自動化測試案例和自動化測試也是當前大模型一個弱點,TestPilot 屬於在學術圈比較活躍的內容,大家可以參考 Cornell 的《Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction》和《Adaptive Test Generation Using a Large Language Model》都是一些比較有意思的文章,不過距離工程化使用都還有一定距離。

當然,自動化編程還有最後也是最難得一關——責任問題,就像自動化駕駛一樣,哪怕是做到 L5,如果出問題到底是誰的責任。就像 WhaleOps 實現了 Txt2SQL 之後,很多用戶問,為什麼不直接把 SQL 執行出來變成最終的結果給我,這才是業務部門最終需要的東西。

我認為這是一個哲學問題,而不是一個技術問題了。不說現在 ChatGPT 90% 的準確率,假設將來大模型可以做到 99.9999%,你敢直接問一句話讓它自動計算全公司的工資然後自動對接銀行發工資麽?如果出問題,你覺得是誰的問題呢?永遠不能幻想用技術解決所有的業務問題,大模型也是如此。

未來展望

現在我們還處於大模型自動化編程的初期,很多小伙伴還在處於試用 Co-Pilot 和 ChatGPT 階段,大多數程式員還沒有用上私有化大模型來根據自己公司的業務提升編程效率,不過我認為未來的 3-5 年,自動化輔助編程一定會成為我們這一屆開發者的標配工具:

  • 國產基礎大模型拉進 ChatGPT 距離,易用性提高;
  • 開源大模型準確性、性能提升,更多的公司使用私有化大模型 ROI 提升;
  • 大模型自動化門檻減低,除了 DolphinScheduler,更多的大模型訓練平民化工具誕生;
  • 技術管理者對於大模型自動化編程認知提升,技術管理流程適配大模型時代;
  • 在當前經濟周期下,降本提效利用大模型提高效率勢在必行。

所以,未來幾年,如果你在研發過程還是只會 CRUD,不會有效利用大模型將自己的經驗和業務理解 X10 或者 X100 的話,那麼不用等到 35 歲,你就會被會大模型編程的那批程式員所取代,他們 X10 之後,你就是那被淘汰的 9 個人。

當然,雖然有點危言聳聽,但是編程提效當中的大模型趨勢是勢不可擋的,我也只是在大模型自動化編程這方面不斷實踐摸索的小學生,我相信會有很多的技術管理者和架構師加入到大模型自動化編程的浪潮中來,不斷迭代和優化在開發領域當中人和大模型之間的關係。最終,讓程式員、AI、技術研發流程更有效的為業務服務。

作者介紹

郭煒,人稱“郭大俠”,Apache Foundation Member,Apache DolphinScheduler PMC,Apache SeaTunnel Mentor,ClickHouse 中國開源社區發起人和首席佈道師。中國軟體行業協會智能應用服務分會副主任委員,TGO 北京董事會會長,全球中小企業創業聯合會副會長,人民大學大數據商業分析研究中心客座研究員。郭大俠一直致力於讓“數據能力平民化”的事業上,本人參與多個開源項目,促進多個開源社區在中國的落地以及中國開源項目在全球的發展,被評為 Apache Foundation Member 和 2021 年中國開源最佳人物之一。

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 引言 深拷貝是指創建一個新對象,該對象的值與原始對象完全相同,但在記憶體中具有不同的地址。這意味著如果您對原始對象進行更改,則不會影響到複製的對象 常見的C#常見的深拷貝方式有以下4類: 1. 各種形式的序列化及反序列化。 2. 通過反射機制獲取該對象的所有欄位和屬性信息。遍歷所有欄位和屬性,遞 ...
  • 鴿了好久的內容,終於補上了。這篇文章對該合集前幾篇文章的內容做了簡要的總結和應用,同時按照MVVM設計模式完成了一個學習小Demo,希望可以幫到正在學習的友友們。有什麼問題可以評論區留言討論。 ...
  • # Unity AssetPostprocessor的Model的動畫相關的函數修改實際應用 在Unity中,AssetPostprocessor是一個非常有用的工具,它可以在導入資源時自動執行一些操作。其中,Model的動畫相關的函數修改可以幫助我們在導入模型時自動修改動畫相關的函數,從而提高我們 ...
  • 最近一段時間沒有看 docker desktop,忽然想起來打開看看,結果死活啟動不了。以前卸載之後,重新安裝就好了,同樣的方法嘗試了很多次還是不太行,重啟也不行... 後來想想是不是 wsl 出了問題,運行 WSA ,WSAClient 啟動後又自動退出了。在命令行下運行 wsl,等待了很久,出現 ...
  • WindowsServer伺服器管理技巧:對於使用WindowsServer伺服器開發人員或者運維人員初學者來說,可能會遇到很多問題,比如:如何設置允許多用戶同時登錄伺服器?如何開啟伺服器防火牆?Windows如何配置SSH遠程登錄?等等,如果遇到了這些問題,來看看這篇文章就能解決啦! ...
  • 國產銀河麒麟系統也是生產環境上經常遇到的(官網簡介:銀河麒麟高級伺服器操作系統V10 - 國產操作系統、銀河麒麟、中標麒麟、開放麒麟、星光麒麟——麒麟軟體官方網站 (kylinos.cn)) 這版系統分為伺服器版和個人桌面版;其中伺服器版命令估計是基於紅帽體系;而桌面版命令估計是基於Ubuntu,很 ...
  • 設計字元設備 文件系統調用系統IO的內核處理過程 inode索引節點是文件系統中的一種數據結構,用於存儲文件的元數據信息,包括文件的大小、訪問許可權、創建時間、修改時間等。每個文件在文件系統中都對應著一個唯一的inode節點,通過inode節點可以查找到文件的實際數據塊的位置。inode節點通常存儲在 ...
  • ![](https://img2023.cnblogs.com/blog/3076680/202308/3076680-20230813220820722-927556191.png) # 1. 邏輯架構 ## 1.1. 大多數基於網路的客戶端/伺服器工具或伺服器都有類似的服務 ### 1.1.1. ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...