程式員即將失業?ChatGPT正在取代各位!

来源:https://www.cnblogs.com/hahaa/archive/2023/02/21/17140883.html
-Advertisement-
Play Games

最近OpenAI的ChatGPT真的是到處都在刷屏,我想你已經看過很多關於ChatGPT的文章或者視頻了,我就不過多介紹了。 不過你碰巧還不知道的話,可以先百度一下,然後再回來繼續。 與ChatGPT對話很有趣,甚至很有啟發性。有人用它聊天,有人用它寫代碼,太多省時省力的工作,都可以由它完成,我們的 ...


最近OpenAI的ChatGPT真的是到處都在刷屏,我想你已經看過很多關於ChatGPT的文章或者視頻了,我就不過多介紹了。

不過你碰巧還不知道的話,可以先百度一下,然後再回來繼續。

與ChatGPT對話很有趣,甚至很有啟發性。有人用它聊天,有人用它寫代碼,太多省時省力的工作,都可以由它完成,我們的內容創作部門已經將ChatGPT用於文案生成。那麼對研發,ChatGPT是否有用呢?我做了一個測試,讓ChatGPT來完成演算法研究中頻繁要做的數據清洗和處理問題,結果讓人非常滿意,以後還招啥工程師,直接找ChatGPT吧!

 

簡單數據處理

我們首先從簡單的任務入手,讓ChatGPT完成數據載入和簡單的清洗工作。

任務目標

  1. 載入數據集;
  2. 確保數據集中所有值均為數值類型,如果不是則嘗試將其轉換為數值類型;
  3. 檢查缺失值;
  4. 數據集分成訓練集和測試集。

上面這4個任務是演算法執行前必須要做的常規工作。我們看一下ChatGPT的表現

輸出結果

import pandas as pd
import numpy as np

def load_csv_data(file_path):
    # Load the csv file into a pandas DataFrame
    df = pd.read_csv(file_path)
    
    # Convert string type data to numeric type and save the mapping in a dictionary
    conversion_map = {}
    for column in df.columns:
        if df[column].dtype == 'O':
            unique_values = df[column].unique()
            conversion_map[column] = {unique_values[i]: i for i in range(len(unique_values))}
            df[column] = df[column].map(conversion_map[column])
    
    # Check for missing values
    missing_value_counts = df.isnull().sum()
    for column, missing_count in missing_value_counts.items():
        if missing_count > 1:
            df.drop(df[df[column].isnull()].index, inplace=True)
        elif missing_count == 1:
            df[column].fillna(df[column].mean(), inplace=True)
    
    # Split the dataset into training and validation sets
    train_df = df.sample(frac=0.8, random_state=0)
    val_df = df.drop(train_df.index)
    
    return train_df, val_df, conversion_map
# 新的一年,必須捲死同學、同事,狠狠的提升一波自己的Python實力。
# 這裡我給大家準備了2023最新的Python學習資料、電子書、基礎視頻教程、實戰案例,直接在這個扣裙自取即可(708525271)

 

分析

上面代碼可以完美完成目標任務,從csv文件中載入數據集,並以80/20的比例將數據集拆分為測試集和訓練集,關鍵邏輯還加上了註釋,ChatGPT甚至貼心的給出了函數使用方法。

ChatGPT生成上面代碼總共用時116秒,同時我們的數據工程師編寫同樣功能的代碼用時225秒。二者的代碼差異不大,但是我們的數據工程師沒寫註釋。

上面的任務是數據工程師幾乎天天都要寫的代碼,他們很熟練。我又找了一個大學剛畢業還在實習期的數據助理來寫,居然半個小時才完成,由於對介面不熟悉,大量時間花在了百度上[捂臉]。

第一輪比試,從各個維度上,都是ChatGPT勝。

重構代碼

在上一輪的比試中,我發現我們的數據工程師有“偷雞”行為——由於平時經常需要完成上面工作,他將很多功能封裝成了獨立的函數,用的時候直接引入或拷貝。使用函數按照邏輯組織代碼,不僅能夠促進代碼復用,還有利於代碼維護。所以我們接下來試著讓ChatGPT重構一下自己的代碼。

任務目標

將上面的代碼按照功能合理地拆分成若幹函數。

輸出結果

import pandas as pd
import numpy as np

def load_csv(file_path):
    return pd.read_csv(file_path)

def convert_strings_to_numeric(df):
    conversion_map = {}
    for column in df.columns:
        if df[column].dtype == 'O':
            unique_values = df[column].unique()
            conversion_map[column] = {unique_values[i]: i for i in range(len(unique_values))}
            df[column] = df[column].map(conversion_map[column])
    return df, conversion_map

def handle_missing_values(df):
    missing_value_counts = df.isnull().sum()
    for column, missing_count in missing_value_counts.items():
        if missing_count > 1:
            df.drop(df[df[column].isnull()].index, inplace=True)
        elif missing_count == 1:
            df[column].fillna(df[column].mean(), inplace=True)
    return df

def split_data(df):
    train_df = df.sample(frac=0.8, random_state=0)
    val_df = df.drop(train_df.index)
    return train_df, val_df

def prepare_data(file_path):
    df = load_csv(file_path)
    df, conversion_map = convert_strings_to_numeric(df)
    df = handle_missing_values(df)
    train_df, val_df = split_data(df)
    return train_df, val_df, conversion_map

 

分析

ChatGPT拆分出5個函數:

  • load_csv(file_path) 負責從csv文件中載入數據集,返回DataFrame;
  • convert_strings_to_numeric(df) 負責將DataFrame中的非數值類型數據轉換為數值類型,並記錄轉換映射表;
  • handle_missing_values(df) 負責處理缺失值;
  • split_data(df) 負責將數據集拆分為訓練集和測試集;
  • prepare_data(file_path) 將上面4給函數串起來,構成一個pipeline。

不得不說,ChatGPT有一次完美地完成了任務!並且函數名起得非常好,看函數名就能知道函數的功能,比很多中國程式員用拼音或縮寫命名函數友好多了。

擴展代碼

重構後的代碼結構已經非常清晰了,但是還是有缺陷,那就是不夠靈活,很多規則都是寫死的。為了讓代碼更靈活、可擴展性更強,我們一般會將變數以參數的形式傳入。

任務目標

重構上面的代碼,以參數的形式從命令行傳入以下內容:

  • csv格式數據集的路徑
  • 拆分訓練集和驗證集的大小
  • 閾值,缺失值大於此閾值則刪除記錄,小於等於此閾值則處理缺失值

輸出結果

import pandas as pd
import numpy as np
import argparse

def load_csv(file_path):
    return pd.read_csv(file_path)

def convert_strings_to_numeric(df):
    conversion_map = {}
    for column in df.columns:
        if df[column].dtype == 'O':
            unique_values = df[column].unique()
            conversion_map[column] = {unique_values[i]: i for i in range(len(unique_values))}
            df[column] = df[column].map(conversion_map[column])
    return df, conversion_map

def handle_missing_values(df, threshold):
    missing_value_counts = df.isnull().sum()
    for column, missing_count in missing_value_counts.items():
        if missing_count > threshold:
            df.drop(df[df[column].isnull()].index, inplace=True)
        elif missing_count <= threshold:
            df[column].fillna(df[column].mean(), inplace=True)
    return df

def split_data(df, split_ratio):
    train_df = df.sample(frac=split_ratio, random_state=0)
    val_df = df.drop(train_df.index)
    return train_df, val_df

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description='Prepare data for machine learning.')
    parser.add_argument('file_path', help='Path to the csv file.')
    parser.add_argument('--split-ratio', type=float, default=0.8, help='Ratio of the training set size.')
    parser.add_argument('--threshold', type=int, default=1, help='Threshold for handling missing values.')
    args = parser.parse_args()

    df = load_csv(args.file_path)
    df, conversion_map = convert_strings_to_numeric(df)
    df = handle_missing_values(df, args.threshold)
    train_df, val_df = split_data(df, args.split_ratio)

 

分析

ChatGPT很好地理解了我們的意圖,引入了argparse模塊來管理和解析命令行參數,關鍵是參數名起的也非常合理,參數說明也非常準確(儘管是英文的)。參數都正確地傳入了所屬的函數,又一次完美的完成了任務。

總結

ChatGPT根據我們提供的規範,在創建、重構、擴展一個簡單的數據預處理Python腳本方面做得非常出色,每一步的結果都符合要求。雖然這不是一個複雜任務,確實日常工作中最常見的基本工作。ChatGPT的表現確實驚艷了眾人,預示著它朝著成為真正有用的編程助手邁出重要的一步。

最終我們從如下幾個方面將ChatGPT和我們的數據工程師做了對比:

可見ChatGPT在編碼速度和編碼習慣上都完勝人類工程師。這讓我不得不開始擔心程式員未來的飯碗。是的,你沒有看錯!程式員這個曾經被認為是最不可能被AI取代的職業,如今將面臨來自ChatGPT的巨大挑戰。根據測試,ChatGPT已經通過Google L3級工程師測試,這意味著大部分基礎coding的工作可以由ChatGPT完成。儘管ChatGPT在涉及業務的任務上表現不佳,但未來更可能的工作方式是架構師或設計師於ChatGPT協同完成工作,不再需要編碼的碼農。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這一篇主要介紹的是電商網站的統計功能,後臺使用的是Java語言,springMvc框架結合前端Jquer,前端趨勢展示組件使用的是百度開源框架Echarts,這個應該大家或多或少的都有瞭解過,下麵我結合實際項目案例給大家看下項目中是如何實現的。 一、前端頁面到百度下載趨勢圖echarts.js插件, ...
  • ##2.使用I/O復用技術和線程池 網路中有很多用戶會嘗試去connect()這個WebServer上正在listen的這個port,而監聽到的這些連接會排隊等待被accept()。由於用戶連接請求是隨機到達的非同步事件,每當監聽socket(listenfd)listen到新的客戶連接並且放入監聽隊 ...
  • 一、什麼是異常 異常就是程式運行時發生錯誤的信號(在程式出現錯誤時,則會產生一個異常,若程式沒有處理它,則會拋出該異常,程式的運行也隨之終止),在python中,錯誤觸發的異常如下 1 語法錯誤 語法錯誤,根本過不了python解釋器的語法檢測,必須在程式執行前就改正。 # 語法錯誤示範一 if # ...
  • @ResponseBody註解的作用是將controller的方法返回的對象 通過適當的轉換器 轉換為指定的格式之後,寫入到response對象的body區(響應體中),通常用來返回JSON數據或者是XML。 數據,需要註意的呢,在使用此註解之後不會再走視圖處理器,而是直接將數據寫入到輸入流中,它的 ...
  • 自從學了Python後就逼迫用Python來處理Excel,所有操作用Python實現。目的是鞏固Python,與增強數據處理能力。這也是我寫這篇文章的初衷。廢話不說了,直接進入正題。 數據是網上找到的銷售數據,長這樣: 一、關聯公式:Vlookup vlookup是excel幾乎最常用的公式,一般 ...
  • 文章整理自 博學谷狂野架構師 什麼是JMM 併發編程領域的關鍵問題 線程之間的通信 線程的通信是指線程之間以何種機制來交換信息。在編程中,線程之間的通信機制有兩種,共用記憶體和消息傳遞。 ​ 在共用記憶體的併發模型里,線程之間共用程式的公共狀態,線程之間通過寫-讀記憶體中的公共狀態來隱式進行通信,典型的共 ...
  • Spire.XLS for C++ 是一個 Excel 庫,供開發人員在任何類型的 C++ 應用程式中操作 Excel 文檔(XLS、XLSX、XLSB 和 XLSM)。 本文演示瞭如何以兩種不同的方式將 Spire.XLS for C++ 集成到您的 C++ 應用程式中。 通過 NuGet 安裝S ...
  • 一、Spring Boot 是什麼 世界上最好的文檔來源自官方的《Spring Boot Reference Guide》,是這樣介紹的: Spring Boot makes it easy to create stand-alone, production-grade Spring based A ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...