摘要 我們報告了 GPT-4 的開發,這是一個大規模、多模態的模型,可以接受圖像和文本輸入,並生成文本輸出。雖然在許多現實場景中不如人類,但 GPT-4 在各種專業和學術基準測試中表現出與人類水平相當的性能,包括在模擬的律師資格考試中取得了約前10%的考生得分。 GPT-4 是基於 Transfor ...
摘要
我們報告了 GPT-4 的開發,這是一個大規模、多模態的模型,可以接受圖像和文本輸入,並生成文本輸出。雖然在許多現實場景中不如人類,但 GPT-4 在各種專業和學術基準測試中表現出與人類水平相當的性能,包括在模擬的律師資格考試中取得了約前10%的考生得分。
GPT-4 是基於 Transformer 架構的模型,經過預訓練以預測文檔中的下一個標記。後訓練對齊過程導致在事實性和符合所需行為方面的性能得到改善。該項目的核心組成部分是開發基礎設施和優化方法,這些方法在各種規模上都能可預測地運行。
這使我們能夠根據使用的計算資源不超過 GPT-4 1/1,000 的模型準確預測 GPT-4 的某些性能方面。
1. 介紹
本技術報告介紹了 GPT-4,這是一個大型多模態模型,能夠處理圖像和文本輸入,並生成文本輸出。這類模型是研究的重要領域,因為它們有潛力在各種應用中使用,例如對話系統、文本摘要和機器翻譯。因此,近年來它們受到了廣泛關註和進展(Brown 等,2020年;Hoffmann 等,2022年;Chowdhery 等,2022年;Rae 等,2021年;Dai 等,2019年;Liu 等,2019年;Devlin 等,2018年;Raffel 等,2019年;Shazeer 和 Stern,2018年;Ba 等,2016年;Wei 等,2022a年;Huang 等,2022年;Kojima 等,2022年;Kaplan 等,2020年;Henighan 等,2020年;Yang 等,2022年;Shazeer 等,2017年;Zoph 等,2022年;Wei 等,2022b年;Dehghani 等,2019年;Su 等,2021年;Alayrac 等;Chen 等,2022a年;Wang 和 Komatsuzaki,2021年;Black 等,2021年;Scao 等,2022年;Zhang 等,2022年;Touvron 等,2023年;Radford 等,2017年;Lample 和 Conneau,2019年;Dao 等,2022年;Child 等,2019年;Rabe 和 Staats,2021年;Gray 等,2017年)。
開發這類模型的主要目標之一是提高它們理解和生成自然語言文本的能力,特別是在更複雜和微妙的情景中。為了測試其在這種情景下的能力,GPT-4 在多個原本設計用於人類的考試上進行了評估。在這些評估中,它表現相當出色,並經常超過絕大多數人類考生。例如,在模擬的律師資格考試中,GPT-4 獲得了高達前10%的考生得分。這與 GPT-3.5 相比形成了鮮明對比,後者在前10%考生中得分偏低。
在一系列傳統的自然語言處理基準測試中,GPT-4 的表現超越了先前的大型語言模型和大多數最先進的系統(這些系統通常具有特定基準測試的訓練或手工工程)。在 MMLU 基準測試(Hendrycks 等,2021a, b)上,這是一個涵蓋了57個科目的英語多項選擇題套件,在英語方面,GPT-4 不僅在現有模型中大幅領先,還在其他語言上表現出色。在 MMLU 的翻譯變體中,GPT-4 在考慮的26種語言中有24種超過了英語的最新水平。我們將在後面的章節中更詳細地討論這些模型能力結果以及模型安全性改進和結果。
本報告還討論了項目的一個關鍵挑戰,即開發深度學習基礎設施和優化方法,以便在各種規模上都能可預測地運行。這使我們能夠根據以類似方式進行訓練的小規模運行的預測來測試預期的 GPT-4 性能,以增加我們的訓練信心。
儘管具備能力,但 GPT-4 與先前的 GPT 模型(Brown 等,2020年;Radford 等,2019年,2018年)具有相似的局限性:它不是完全可靠的(例如可能遭受“幻覺”),具有有限的上下文視窗,並且不從經驗中學習。在使用 GPT-4 的輸出時應當註意,特別是在可靠性重要的情境中。
GPT-4 的能力和局限性帶來了重大而新穎的安全挑戰,我們認為仔細研究這些挑戰是一個重要的研究領域,考慮到其潛在的社會影響。本報告包括一個廣泛的系統卡(見附錄後),描述了我們預見的關於偏見、虛假信息、過度依賴、隱私、網路安全、擴散等風險。它還描述了我們採取的干預措施,以減輕部署 GPT-4 帶來的潛在危害,包括與領域專家進行的對抗測試和模型輔助的安全管道。
2. 本技術報告的範圍和限制
本報告側重於 GPT-4 的能力、局限性和安全性質。
GPT-4 是一種 Transformer 風格的模型(Vaswani 等,2017年),經過預訓練以預測文檔中的下一個標記,使用了公開可用的數據(如互聯網數據)和從第三方提供商獲得的數據進行許可。然後,使用人類反饋的強化學習(RLHF)(Christiano 等,2017年)對模型進行了微調。
考慮到競爭格局和諸如 GPT-4 這樣的大規模模型的安全影響,本報告不包含有關架構(包括模型大小)、硬體、訓練計算、數據集構建、訓練方法或類似內容的進一步細節。
我們致力於對我們的技術進行獨立審計,併在此次發佈的系統卡中分享了一些初步步驟和想法。我們計劃向其他第三方提供進一步的技術細節,以便他們可以就如何權衡上述競爭和安全考慮與進一步透明度的科學價值向我們提供建議。
3可預測的擴展
GPT-4 項目的一個主要焦點是構建一個可預測擴展的深度學習堆棧。主要原因是對於像 GPT-4 這樣的非常大規模的訓練運行,進行廣泛的模型特定調整是不可行的。為瞭解決這個問題,我們開發了在多個規模上具有非常可預測行為的基礎設施和優化方法。這些改進使我們能夠可靠地從使用的計算資源比 GPT-4 小 1,000× - 10,000× 的較小模型中預測出 GPT-4 的某些性能方面。
3.1 損失預測 Loss Prediction
據認為,適當訓練的大型語言模型的最終損失可以很好地近似為訓練模型所使用的計算量的冪律關係(Hestness 等,2017年;Thompson 等,2020年;Hoffmann 等,2022年;Kaplan 等,2020年;Henighan 等,2020年)。
為了驗證我們優化基礎設施的可擴展性,我們通過擬合帶有不可約損失項的縮放定律(如 Henighan 等(2020年))來預測在我們的內部代碼庫上(不包括在訓練集中)的 GPT-4 的最終損失:L(C) = aC^b + c,其中使用了相同方法進行訓練的模型,但使用的計算資源最多比 GPT-4 少 10,000×。這個預測是在運行開始後不久進行的,沒有使用任何部分結果。擬合的縮放定律高度準確地預測了 GPT-4 的最終損失(圖1)。
圖1:GPT-4 和較小模型的性能。度量標準是從我們的內部代碼庫衍生的數據集上的最終損失。這是一個方便的大型代碼標記數據集,不包含在訓練集中。我們選擇關註損失,因為它在不同數量的訓練計算上通常比其他指標更少噪音。對較小模型(不包括 GPT-4)進行的冪律擬合顯示為虛線;該擬合準確地預測了 GPT-4 的最終損失。x 軸是訓練計算的歸一化,使得 GPT-4 為 1。
3.2 在 HumanEval 數據集上的能力擴展
在訓練模型之前瞭解模型的能力可以提高對齊、安全性和部署方面的決策。
除了預測最終損失之外,我們還開發了一種方法來預測更可解釋的能力指標。其中一種指標是在 HumanEval 數據集(Chen 等,2021年)上的通過率,該數據集衡量了合成不同複雜度 Python 函數的能力。我們成功地通過從使用最多 1,000× 較少計算資源訓練的模型進行外推,預測了 HumanEval 數據集的一個子集上的通過率(圖2)。
圖2:GPT-4 和較小模型的性能。度量標準是 HumanEval 數據集的一個子集上的平均對數通過率。對較小模型(不包括 GPT-4)進行的冪律擬合顯示為虛線;該擬合準確地預測了 GPT-4 的性能。x 軸是訓練計算的歸一化,使得 GPT-4 為 1。
在 HumanEval 中的一個個體問題上,性能可能會隨規模的增加而偶爾下降。儘管存在這些挑戰,但我們發現一個近似的冪律關係 −E[log(pass_rate(C))] = α * C^(-β),其中 α 和 β 是正常數,而 C 是數據集中的問題的一個子集。我們假設這種關係適用於數據集中的所有問題。在實踐中,非常低的通過率很難或不可能估計,因此我們限制在問題 P 和模型 M 上,以便在給定一些大樣本預算的情況下,每個模型至少解決每個問題一次。
我們在訓練完成之前,僅使用訓練前可用的信息,為 GPT-4 在 HumanEval 上的性能進行了預測。除了最困難的 15 個 HumanEval 問題之外,其他問題都根據較小模型的表現被分成了 6 個難度桶。圖 2 顯示了第 3 個最容易桶上的結果,顯示了在我們可以準確估計多個較小模型的 log(pass_rate) 的 HumanEval 子集中,所得到的預測非常準確的情況。對其他五個桶的預測幾乎同樣好,主要例外是 GPT-4 在最容易的桶上表現不及我們的預測。
某些能力仍然很難預測。例如,Inverse Scaling Prize(McKenzie 等,2022a年)提出了幾個任務,其中模型的性能隨著規模的增加而降低。與 Wei 等(2022c年)最近的一個結果類似,我們發現 GPT-4 扭轉了這種趨勢,如圖 3 中稱為 Hindsight Neglect(McKenzie 等,2022b年)的任務所示。
圖3:GPT-4 和較小模型在 Hindsight Neglect 任務上的性能。準確率顯示在 y 軸上,數值越高越好。ada、babbage 和 curie 是通過 OpenAI API(Brockman 等,2020年)可用的模型。
我們認為準確預測未來的能力對安全至關重要。在未來,我們計劃完善這些方法,併在大型模型訓練開始之前註冊各種能力的性能預測,我們希望這成為該領域的共同目標。
4 能力 Capabilities
圖4:GPT 在學術和專業考試中的表現。在每種情況下,我們模擬真實考試的條件和評分。考試根據 GPT-3.5 的表現從低到高排序。GPT-4 在大多數測試的考試中表現優於 GPT-3.5。為了保守起見,我們報告了百分位數範圍的下限,但這在具有非常寬廣評分區間的 AP 考試中會產生一些人為的影響。例如,儘管 GPT-4 在 AP 生物學考試中獲得了最高可能的分數(5/5),但在圖中僅顯示為第85百分位數,因為有15%的考生達到了該分數。
- 表1
考試 | GPT-4 | GPT-4 (無視覺) | GPT-3.5 |
---|---|---|---|
統一律師考試(MBE+MEE+MPT) | 298 / 400 (~90th) | 298 / 400 (~90th) | 213 / 400 (~10th) |
LSAT | 163 (~88th) | 161 (~83rd) | 149 (~40th) |
SAT 閱讀與寫作 | 710 / 800 (~93rd) | 710 / 800 (~93rd) | 670 / 800 (~87th) |
SAT 數學 | 700 / 800 (~89th) | 690 / 800 (~89th) | 590 / 800 (~70th) |
研究生入學考試(GRE)定量 | 163 / 170 (~80th) | 157 / 170 (~62nd) | 147 / 170 (~25th) |
研究生入學考試(GRE)口語 | 169 / 170 (~99th) | 165 / 170 (~96th) | 154 / 170 (~63rd) |
研究生入學考試(GRE)寫作 | 4 / 6 (~54th) | 4 / 6 (~54th) | 4 / 6 (~54th) |
USABO 半決賽考試 2020 | 87 / 150 (99th - 100th) | 87 / 150 (99th - 100th) | 43 / 150 (31st - 33rd) |
USNCO 地方段考試 2022 | 36 / 60 | 38 / 60 | 24 / 60 |
醫學知識自我評估計劃 | 75 % | 75 % | 53 % |
Codeforces 評級 | 392 (低於第5位) | 392 (低於第5位) | 260 (低於第5位) |
AP 藝術史 | 5 (86th - 100th) | 5 (86th - 100th) | 5 (86th - 100th) |
AP 生物學 | 5 (85th - 100th) | 5 (85th - 100th) | 4 (62nd - 85th) |
AP 微積分 BC | 4 (43rd - 59th) | 4 (43rd - 59th) | 1 (0th - 7th) |
AP 化學 | 4 (71st - 88th) | 4 (71st - 88th) | 2 (22nd - 46th) |
AP 英語語言和寫作 | 2 (14th - 44th) | 2 (14th - 44th) | 2 (14th - 44th) |
AP 英語文學和寫作 | 2 (8th - 22nd) | 2 (8th - 22nd) | 2 (8th - 22nd) |
AP 環境科學 | 5 (91st - 100th) | 5 (91st - 100th) | 5 (91st - 100th) |
AP 巨集觀經濟學 | 5 (84th - 100th) | 5 (84th - 100th) | 2 (33rd - 48th) |
AP 微觀經濟學 | 5 (82nd - 100th) | 4 (60th - 82nd) | 4 (60th - 82nd) |
AP 物理學 2 | 4 (66th - 84th) | 4 (66th - 84th) | 3 (30th - 66th) |
AP 心理學 | 5 (83rd - 100th) | 5 (83rd - 100th) | 5 (83rd - 100th) |
AP 統計學 | 5 (85th - 100th) | 5 (85th - 100th) | 3 (40th - 63rd) |
AP 美國政府 | 5 (88th - 100th) | 5 (88th - 100th) | 4 (77th - 88th) |
表1:GPT 在學術和專業考試中的表現。在每種情況下,我們模擬真實考試的條件和評分。我們報告了根據考試特定評分標準對 GPT-4 的最終得分,並報告了達到 GPT-4 得分的考生百分位數。
我們在各種基準測試中對GPT-4進行了測試,包括模擬最初設計供人類參加的考試。我們對這些考試沒有進行特定的訓練。模型在訓練期間只看到了少數考試中的問題;對於每個考試,我們運行了一個變體,去除了這些問題,並報告了兩者中較低的分數。我們相信結果具有代表性。有關污染情況的更多細節(方法和每個考試的統計數據),請參閱附錄C。
考試來源於公開可用的資料。考試問題包括多項選擇題和自由回答題;我們為每種格式設計了單獨的提示,併在需要時將圖像包含在問題的輸入中。評估設置是根據驗證考試集的性能設計的,並且我們報告了在保留的測試考試上的最終結果。總體分數是通過使用每個考試的公開可用方法組合多項選擇和自由回答問題的分數來確定的。我們估計並報告了每個總體分數對應的百分位數。有關考試評估方法的更多詳細信息,請參見附錄A。
GPT-4在大多數專業和學術考試中表現出人類水平的性能。值得註意的是,它在模擬的統一律師考試中的得分位於前10%的考生中(表1,圖4)。
模型在考試中的能力主要來源於預訓練過程,並且並不受RLHF的顯著影響。在我們測試的所有考試中,基本的GPT-4模型和RLHF模型在平均情況下都表現出相同的多項選擇題答題能力(請參見附錄B)。
我們還對預訓練的基本GPT-4模型在傳統的用於評估語言模型的基準測試中進行了評估。對於我們報告的每個基準測試,我們都對出現在訓練集中的測試數據進行了污染檢查(有關每個基準測試的污染情況的完整詳情,請參見附錄D)。在評估GPT-4時,我們對所有基準測試都使用了少樣本提示(Brown等,2020)。
GPT-4在很大程度上優於現有的語言模型,以及先前的最先進(SOTA)系統,這些系統通常具有特定於基準測試的精心設計或額外的訓練協議(表2)。
- 表2
評估指標 | GPT-4 | GPT-3.5 | 語言模型最先進(SOTA) | 最先進模型 |
---|---|---|---|---|
MMLU Hendrycks et al. (2020) | 86.4% | 70.0% | 70.7% | 75.2% |
HellaSwag Zellers et al. (2019) | 95.3% | 85.5% | 84.2% | 85.6% |
AI2 Reasoning Challenge (ARC) Clark et al. (2018) | 96.3% | 85.2% | 85.2% | 86.5% |
WinoGrande Sakaguchi et al. (2019) | 87.5% | 81.6% | 85.1% | 85.1% |
HumanEval (Chen et al., 2021) | 67.0% | 48.1% | 26.2% | 65.8% |
DROP Dua et al. (2019) (F1 score) | 80.9 | 64.1 | 70.8 | 88.4 |
GSM-8K Cobbe et al. (2021) | 92.0% | *57.1% | 58.8% | 87.3% |
表2:GPT-4在學術基準測試上的表現。我們將GPT-4與最佳SOTA(具有特定基準訓練)和最佳的用於少量樣本評估的LM進行比較。GPT-4在所有基準測試中均表現優異,並且在除了DROP數據集以外的所有數據集上均擊敗了具有基準特定訓練的SOTA。對於每個任務,我們報告了GPT-4的性能以及用於評估的少量樣本方法。對於GSM-8K,我們在GPT-4的預訓練混合中包含了部分訓練集(見附錄E),並且在評估時使用了鏈式思維提示(Wei等人,2022a)。對於多項選擇題,我們向模型呈現所有答案(ABCD)並要求其選擇答案的字母,類似於人類解決此類問題的方式。
許多現有的機器學習基準測試都是用英語編寫的。為了初步瞭解GPT-4在其他語言中的能力,我們使用Azure Translate將MMLU基準測試(Hendrycks等人,2021a,b)——一個涵蓋了57個學科的一套多項選擇問題——翻譯成了多種語言(請參閱附錄F以獲取示例翻譯和提示)。
我們發現,在我們測試的大多數語言中,包括拉脫維亞語、威爾士語和斯瓦希里語等資源稀缺語言,GPT-4的表現優於GPT 3.5和現有的語言模型(如Chinchilla(Hoffmann等人,2022)和PaLM(Chowdhery等人,2022))的英語表現(圖5)。
圖5:GPT-4在多種語言上的表現與英語上先前模型在MMLU上的比較。對於絕大多數經過測試的語言,包括拉脫維亞語、威爾士語和斯瓦希里語等資源稀缺語言,GPT-4的表現優於現有語言模型(Hoffmann等人,2022;Chowdhery等人,2022)的英語表現。
GPT-4在跟隨用戶意圖方面顯著改進了先前模型的能力(Ouyang等人,2022)。在提交給ChatGPT OpenAI(2022)和OpenAI API Brockman等人(2020)的5214個提示的數據集上,GPT-4生成的回應優於GPT-3.5生成的回應,比例達到70.2%。
我們正在開源OpenAI Evals,這是我們創建和運行用於評估像GPT-4這樣的模型的基準測試的框架,同時逐個樣本檢查性能。Evals與現有的基準測試相容,並可用於跟蹤模型在部署中的性能。我們計劃隨著時間的推移增加這些基準測試的多樣性,以代表更廣泛的失效模式和更難的任務。
4.1 視覺輸入
GPT-4接受由圖像和文本組成的提示,這與僅文本設置平行,使用戶能夠指定任何視覺或語言任務。
具體來說,模型在輸入由任意交織的文本和圖像組成的情況下生成文本輸出。在包括具有文本和照片、圖表或屏幕截圖的各種領域中,GPT-4表現出與僅文本輸入相似的能力。GPT-4的視覺輸入示例可見於表3。
對於使用圖像和文本的情況,針對語言模型開發的標準測試技術(例如少量提示、鏈式思考等)同樣有效 - 有關示例,請參見附錄G。
Q: What is funny about this image? Describe it panel by panel.
這張圖片展示了一個“閃電數據線”適配器的包裝,有三個面板。
面板1:一部智能手機,其充電口插著一個VGA連接器(一個通常用於電腦顯示器的大型、藍色的15針連接器)。
面板2:標有VGA連接器圖片的“閃電數據線”適配器的包裝。
面板3:VGA連接器的特寫,末端有一個小型的閃電連接器(用於充電iPhone和其他蘋果設備)。
這張圖片的幽默來自於將一個大而過時的VGA連接器插入一個小而現代的智能手機充電口的荒謬性。
Table 3: 示例提示展示了GPT-4的視覺輸入能力。提示包括一個關於具有多個面板的圖像的問題,GPT-4能夠回答。**
Note: "示例提示展示了GPT-4的視覺輸入能力。
提示包括一個關於具有多個面板的圖像的問題,GPT-4能夠回答。" translates to "Example prompt demonstrating GPT-4’s visual input capability. The prompt consists of a question about an image with multiple panels which GPT-4 is able to answer."*
5. 限制
儘管具有出色的功能,GPT-4仍然存在與早期GPT模型類似的限制。
最重要的是,它仍然不是完全可靠的(會“產生幻覺”事實,並做出推理錯誤)。在使用語言模型輸出時應特別小心,特別是在高風險情境下,應根據特定應用的需求選擇確切的協議(例如人工審查、與額外上下文聯繫、或完全避免高風險用途)。
有關詳細信息,請參閱我們的系統卡。
相對於之前的GPT-3.5模型(這些模型本身也隨著持續迭代而改進) ,GPT-4大大降低了幻覺現象。在我們內部針對事實準確性設計的對抗性評估中,GPT-4的得分比我們最新的GPT-3.5高出19個百分點(見圖6)。
Note: "Figure 6" translates to "圖6".
圖6:GPT-4在九個內部對抗性設計的事實準確性評估中的表現。準確率顯示在y軸上,數值越高越好。準確率為1.0意味著模型的答案被判斷與人類理想答案在所有評估問題上一致。我們將GPT-4與基於GPT-3.5的三個較早版本的ChatGPT進行比較;GPT-4相比最新的GPT-3.5模型提高了19個百分點,對所有主題都有顯著的提升。
GPT-4在像TruthfulQA Lin等人(2022)這樣的公共基準上取得了進展,該基準測試了模型將事實與對抗性選擇的一組不正確的陳述區分開來的能力(見圖7)。這些問題與事實不正確的答案配對,這些答案在統計上具有吸引力。GPT-4基礎模型在這項任務上只比GPT-3.5稍好一點;然而,在RLHF後訓練之後,我們觀察到相對於GPT-3.5有了很大的改進。表4顯示了一個正確答案和一個錯誤答案。GPT-4避免選擇常見的說法(老狗學不了新把戲),但仍可能忽略細微的細節(埃爾維斯·普雷斯利並不是一個演員的兒子,因此Perkins才是正確答案)。
圖7:GPT-4在TruthfulQA上的表現。準確率顯示在y軸上,數值越高越好。我們比較了GPT-4在零提示、少樣本提示和RLHF微調後的表現。GPT-4在準確性上明顯優於GPT-3.5和Anthropic-LM(Bai等人,2022)。
GPT-4通常缺乏對其預訓練數據絕大部分截止於2019年9月之後發生事件的瞭解,也不會從自身的經驗中學習。有時候,它可能會做出簡單的推理錯誤,這些錯誤似乎與在如此多領域中的能力不符,或者在接受用戶明顯錯誤的陳述時過於輕信。它可能會在像人類一樣在難題上失敗,比如在其生成的代碼中引入安全漏洞。**
**當有可能出錯時,GPT-4在其預測中也可能會自信地做出錯誤的預測,而不會在工作中仔細檢查。有趣的是,預訓練模型的校準性很高(其對答案的預測置信度通常與正確概率相匹配)。然而,在後訓練過程中,這種校準性會降低(見圖8)。
Note: "Figure 8" translates to "圖8".
圖8:左側:預訓練的GPT-4模型在MMLU數據集子集上的校準圖。x軸是模型對每個問題的A/B/C/D選擇的置信度(對數概率)的分段;y軸是每個分段內的準確率。虛線對角線代表完美的校準。右側:同一MMLU子集上後訓練的GPT-4模型的校準圖。後訓練顯著損害了校準性。
GPT-4在輸出中存在各種偏見,我們已經在努力糾正,但需要一些時間來充分描述和管理。我們的目標是使GPT-4和其他我們構建的系統具有反映廣泛用戶價值觀的合理預設行為,並允許在某些廣泛範圍內定製這些系統,並征求公眾對這些範圍應該是什麼的意見。有關更多詳細信息,請參閱OpenAI(2023b)。
Note: "Figure 8" translates to "圖8".
6風險與緩解措施
我們投入了大量精力改進GPT-4的安全性和對齊性。在這裡,我們強調了我們利用領域專家進行對抗測試和紅隊測試的方法,以及我們的模型輔助安全管道(Leike等,2022年)以及相對於先前模型的安全度量的改進。
通過領域專家進行對抗測試:GPT-4存在與較小語言模型類似的風險,例如生成有害建議、錯誤代碼或不准確信息。然而,GPT-4的額外功能導致了新的風險面。為了瞭解這些風險的程度,我們邀請了來自長期AI對齊風險、網路安全、生物風險和國際安全等領域的50多位專家進行對抗測試。他們的發現具體幫助我們測試模型在需要具有專業知識才能評估的高風險領域中的行為,以及評估將對非常先進的AI(如尋求權力的AI)產生影響的風險。從這些專家那裡收集到的建議和培訓數據為我們的緩解措施和模型的改進提供了支持;例如,我們收集了額外的數據來提高GPT-4拒絕合成危險化學品請求的能力(見表5)。
Note: "Table 5" translates to "表5".
模型輔助安全管道:與先前的GPT模型一樣,我們使用人類反饋進行強化學習fine-tune模型的行為(RLHF)(Christiano等人,2017年;Ouyang等人,2022年),以產生與用戶意圖更加對齊的響應。然而,在RLHF之後,我們的模型仍然可能對不安全的輸入過於脆弱,有時甚至在安全和不安全的輸入上表現出不希望出現的行為。這些不希望出現的行為可能是在RLHF管道的獎勵模型數據收集階段,給標註者的指令過於模糊或不足的情況下產生的。當給出不安全的輸入時,模型可能會生成不良內容,例如提供犯罪建議。此外,模型在安全輸入上也可能變得過於謹慎,拒絕無害請求或過度保守。為了在更細粒度的級別上引導我們的模型朝著適當的行為方向發展,我們在很大程度上依賴於我們的模型本身作為工具。我們的安全方法由兩個主要組件組成,即額外一組與安全相關的RLHF訓練提示和基於規則的獎勵模型(RBRM)。
我們的基於規則的獎勵模型(RBRMs)是一組零-shot GPT-4分類器。這些分類器在RLHF fine-tuning期間為GPT-4策略模型提供了額外的獎勵信號,以針對正確的行為,例如拒絕生成有害內容或不拒絕無害請求。RBRM接收三個輸入:提示(可選)、策略模型的輸出以及人工編寫的評分標準(例如,一組多選題式的規則),用於評估這個輸出應該如何被評估。然後,RBRM根據評分標準對輸出進行分類。例如,我們可以提供一個規則,指示模型將響應分類為:(a)以期望的方式拒絕、(b)以不期望的方式拒絕(例如,迴避或支離破碎)、(c)包含不允許的內容,或(d)安全的非拒絕響應。然後,在請求有害內容(例如違法建議)的安全相關訓練提示集上,我們可以獎勵GPT-4拒絕這些請求。相反,我們可以獎勵GPT-4在一些可以保證安全和可回答的提示子集上不拒絕請求。這項技術與Glaese等人(2022年)和Perez等人(2022年)的工作相關。這個方法,結合其他改進,比如計算最佳的RBRM權重並提供額外的針對我們想要改進的領域的SFT數據,使我們能夠將模型引導更接近期望的行為。
安全指標的改進:我們的緩解措施顯著提高了GPT-4的許多安全性能。與GPT-3.5相比,我們已經將模型對於請求不允許內容的傾向減少了82%(見表6),而GPT-4對於敏感請求(例如,醫療建議和自我傷害,見表7)的響應頻率按照我們的政策增加了29%(見圖9)。在RealToxicityPrompts數據集(Gehman等人,2020年)上,GPT-4生成的有毒內容僅占0.73%,而GPT-3.5的毒性內容占比達到6.48%。
- F9
圖9:對敏感和不允許的提示的錯誤行為率。數值越低越好。相比以往的模型,GPT-4的RLHF有著更低的錯誤行為率。
總的來說,我們在模型級別的干預增加了引發不良行為的難度,但這仍然是可能的。例如,仍然存在“越獄”(例如,對抗性系統消息,請參閱系統卡中的圖10以瞭解更多詳情),可以生成違反我們使用準則的內容。只要存在這些限制,重要的是要與部署時的安全技術相結合,例如監控濫用以及快速迭代模型改進的流程。
GPT-4和後續模型有可能在社會中產生重大影響,既有益處也有害處。我們正在與外部研究人員合作,改進我們對潛在影響的理解和評估方法,以及為未來系統可能出現的危險能力建立評估。我們將很快發佈建議,指導社會應該採取哪些步驟來應對人工智慧的影響,並初步提出了關於預測人工智慧可能的經濟影響的初步想法。
我們對GPT-4進行了描述,這是一個具有人類水平性能的大型多模態模型,在某些困難的專業和學術基準測試中表現出色。GPT-4在一系列自然語言處理任務中優於現有的大型語言模型,並超越了絕大多數報告的最新技術系統(這些系統通常包括任務特定的微調)。我們發現,改進的能力雖然通常以英語為衡量標準,但也可以在許多不同的語言中得到證明。我們強調了可預測的擴展如何使我們能夠準確預測GPT-4的損失和能力。
由於能力增強,GPT-4帶來了新的風險,我們討論了一些瞭解和改進其安全性和對齊性所採取的方法和結果。儘管還有許多工作要做,但GPT-4代表著朝著廣泛有用且安全部署的人工智慧系統邁出了重要的一步。
參考資料
https://arxiv.org/abs/2303.08774
本文由博客一文多發平臺 OpenWrite 發佈!