OpenAI開發者大會最新ChatGPT升級

OpenAI開發者大會最新ChatGPT升級

根據OpenAI最新官網2023年11月6日消息:
https://openai.com/blog/introducing-gpts

OpenAI發布GPT-4 Turbo:擴大上下文窗口與成本效益的重大突破

OpenAI推出語言模型的最新升級版——GPT-4 Turbo,有2023年4月的最新知識,突破性地增加上下文窗口至128K,GPT-4 Turbo能在單一提示下處理相當於超過300頁文本的資訊量,專門以文本處理和數據分析的可以有更大的資訊處理量。

上下文窗口(Context Window)是語言模型在生成文本時能夠考慮的最大文本範圍。換句話說,它決定模型在任何時間點可以回顧多少文字來理解和生成回應。對於像GPT-4這樣的模型而言,擴大上下文窗口代表著它能夠記憶和參照更長的對話或文本歷史,提高對上下文的理解能力和生成文本的連貫性。

性能優化部分,OpenAI的技術團隊成功降低運算成本,使得GPT-4 Turbo在輸入和輸出代幣的價格上,分別較前代模型GPT-4降低了三倍和兩倍。這一調整,對於廣大開發者和專案都能有效降低成本。

在人工智能的自然語言處理(NLP)領域中,代幣(Token)指的是文本中的基本組成單位,在處理文本數據時,模型會將文本拆分成許多個代幣,這些代幣可以是單詞、標點符號,或者其他任何語義上有意義的字符序列。

對於語言模型來說,每一次處理或生成的文本片段都是由一連串代幣組成的。代幣化(Tokenization)過程使模型能夠更好地理解和處理語言的結構,進而完成各種語言任務,如文本生成、翻譯或情感分析等。

此外,在使用某些AI服務(如OpenAI的GPT系列模型)時,「代幣」也可以指一個計價單位。當開發者使用這些模型的API時,他們會根據傳輸給模型的代幣數量以及從模型接收的代幣數量支付費用。這裡的代幣不僅包括單詞,還包括空格、標點符號等。因此,代幣在這種情況下既是處理信息的基本單位,也是計算使用成本的單位。

目前,GPT-4 Turbo已開放給所有付費開發者進行預覽試用,通過API傳入特定參數gpt-4-1106-preview即可體驗。OpenAI宣布將在接下來的幾週內,發布穩定的模型。

Function calling updates 函數呼叫更新

「函數呼叫更新」是人工智能模型的一項功能,它允許開發者指定他們應用程序的函數或是外部API的函數,然後模型會根據指令智能地選擇並輸出一個含有呼叫該函數所需參數的JSON對象。這代表模型能夠更加智能化地與應用程序的特定功能互動,簡化與自動化工作流程。

舉例來說,如果你告訴模型“打開車窗並關閉空調”,在最新的更新中,模型能夠理解這兩個請求並在單一回合中生成一個JSON對象,這個對象包含了執行這兩個操作所需的所有函數參數。在以前,這可能需要與模型進行多次交互才能完成,現在則可以更加快速和高效地一次處理多個請求。

此外,對於函數呼叫的準確性也進行了改進,代表GPT-4 Turbo在選擇函數參數時更加準確。這樣的改進對於開發者來說極為重要,因為這可以確保應用程序能夠正確且有效地執行用戶的請求。

Improved instruction following and JSON mode
改進的指令跟隨和 JSON 模式

GPT-4 Turbo 的設計讓它在處理需要精確執行指令的任務時更加出色。代表,如果你要求模型按照一定格式回答問題,如指定使用XML格式,GPT-4 Turbo能夠更精準地遵守這樣的規則。

此外,GPT-4 Turbo支援新推出的JSON模式。在這種模式下,當你向模型提出請求時,它會以有效的JSON格式回應。這對於那些需要在應用程序中直接使用模型生成的數據的開發者特別有用。

新引入的API參數response_format允許開發者指示模型產生一個語法上正確的JSON物件,這就代表開發者可以更容易地將模型的回應整合到自己的系統中,而不必擔心解析錯誤或格式不一致的問題。

這些功能使得GPT-4 Turbo成為一個對開發者更友好、更具有實用性的工具,尤其是那些需要模型直接生成結構化數據輸出的開發者。

Reproducible outputs and log probabilities
可重複的輸出和對數機率

新引入的種子(seed)參數讓GPT模型能夠產生可重現的輸出結果。通常,語言模型的回應會因為隨機性的關係每次略有不同,但是當使用種子參數時,模型能夠在多次請求時提供一致的回應。這對於需要重現模型行為的情境——比如調試(debugging)、編寫單元測試(unit tests),或是需要精確控制模型行為的場合——是非常有用的。

此外,OpenAI即將推出的一項新功能是能夠返回GPT-4 Turbo和GPT-3.5 Turbo生成的最可能輸出代幣的對數概率(log probabilities)。這項功能對於開發者來說特別有用,因為它能夠幫助建立如搜索經驗中的自動完成(autocomplete)等功能。對數概率提供了對模型預測結果信心水平的一種量化,開發者可以用這些信息來細調他們的系統。

Updated GPT-3.5 Turbo 更新的 GPT-3.5 Turbo

OpenAI 在推出GPT-4 Turbo的同時,也更新了GPT-3.5版本,命名為GPT-3.5 Turbo。這個新版本的特點是預設支援一個更大的上下文視窗——16K字符。這個擴展的上下文窗口允許模型處理更長的文本片段,提升對前文內容的理解和回應的相關性。

GPT-3.5 Turbo包括了幾項改進功能:

改進指令追蹤:模型更準確理解和執行特定的指令。
JSON模式:與GPT-4 Turbo相同,這使得模型能夠產生有效的JSON回應。
平行函數呼叫:這個功能允許模型同時處理多個函數呼叫,提高效率。
OpenAI內部的評估顯示,GPT-3.5 Turbo在需要遵循特定格式的任務上,比如生成JSON、XML和YAML格式的數據,性能提升了38%。開發者可以通過在API中調用gpt-3.5-turbo-1106來訪問這個新模型。

已經在使用舊版gpt-3.5-turbo的應用程序將在12月11日自動升級到新版本。但是,如果開發者願意繼續使用舊版的GPT-3.5 Turbo模型,他們可以使用到2024年6月13日,通過在API中指定gpt-3.5-turbo-0613來實現這一點。

Assistants API, Retrieval, and Code Interpreter
助理 API、檢索和程式碼解釋器

OpenAI推出Assistants API,希望協助開發者在他們自己的應用程式中建立類似於助理(agent-like)的體驗。所謂的"助理"是一種具有特定指令、利用附加知識的專用AI,它能夠呼叫各種模型和工具來完成任務。

新的Assistants API帶來了一些新的功能,例如:

程式碼解釋器(Code Interpreter):可以在一個安全的沙箱執行環境中編寫和執行Python代碼,並且能夠生成圖表和圖形,處理不同數據和格式的檔案。
檢索(Retrieval):這項功能能使助理獲得模型之外的知識,比如專有的領域數據、產品信息或用戶提供的文檔。
函數呼叫(Function calling):允許助理呼叫開發者定義的函數,並將函數的響應整合進他們的消息中。
Assistants API的設計旨在提供靈活性,其用途涵蓋了從自然語言數據分析應用到代碼輔助、人工智能假期規劃器、語音控制的DJ,到智能視覺畫布等多種情境。

該API引入了持久且無限長的對話線程,允許開發者將對話線程的狀態管理工作交給OpenAI,從而克服了上下文視窗的限制。使用Assistants API時,開發者只需將每條新消息添加到現有的對話線程中即可。

開發者可以在不編寫任何代碼的情況下,通過訪問Assistants playground來試用這個API的Beta版。與平台的其他部分一樣,傳遞到 OpenAI API 的数据和文件永永遠不會用於訓練我們的模型,開發人員可以認為合適時删除數據。

New modalities in the API
API 中的新模式

GPT-4 Turbo with vision 視覺的 GPT-4 Turbo

GPT-4 Turbo 現在支援圖像輸入功能,這項新特性允許開發者在聊天完成 API 中直接使用圖像作為輸入。這項功能可以用於多種應用場景,例如:

生成對圖像的標題
詳細分析真實世界中的圖像
閱讀包含圖表的文件
舉例來說,BeMyEyes 就利用這項技術來幫助盲人或低視力者完成日常任務,像是識別產品標籤或者在商店中導航。

開發者可以通過 API 中的 gpt-4-vision-preview 來訪問這個圖像處理功能。OpenAI 計畫在 GPT-4 Turbo 的穩定版本中推出視覺支持作為其功能的一部分。

使用這項服務的成本會根據傳入的圖像大小來決定。例如,如果開發者傳入一個 1080×1080 像素的圖像,它的成本將是 0.00765 美元。想要了解更多有關這項技術的細節,可以參考 OpenAI 提供的願景指南。

DALL·E 3 

開發者現在可以通過指定 dall-e-3 為模型,利用 OpenAI 的圖像 API,將最新推出的 DALL·E 3 整合到自己的應用程序和產品中。DALL·E 3 是一種 AI 系統,它可以根據用戶的描述創造出新的圖像內容。

Snap、可口可樂和 Shutterstock 等大型企業已經在使用 DALL·E 3,以程式化的方式為客戶和市場活動生成圖像和設計。這對於快速產生創意視覺內容特別有用。

這個 API 還包括了內建的內容審核功能,以協助開發人員防止其應用程式被不當使用。這是為了確保生成的圖像符合特定的使用標準和規範。

對於想使用 DALL·E 3 的開發者,OpenAI 提供了不同的圖像格式和品質選項,以滿足不同的需求和預算。每生成一張圖像的價格從 $0.04 美元(以匯率32.2計算約台幣1.29元)起,具體價格會根據所需的圖像質量和解析度來確定。

想了解如何開始使用 API 中的 DALL·E 3,開發者可以參考 OpenAI 提供的入門指南,這個指南將提供相關的資訊和指導。

Text-to-speech (TTS) 文字轉語音 (TTS)

開發人員如今可以透過文字轉語音(Text-to-Speech, TTS)API,將文字轉換成近似人類發音的語音。這項新的 TTS 模型提供了六種不同的預設語音,用戶可以根據需求選擇使用。

該模型分為兩個變體:tts-1 和 tts-1-hd。tts-1 是為了即時的應用場景而優化,例如需要快速回應的交互式應用;而 tts-1-hd 則是為了提供更高品質的語音輸出而優化,適合那些對語音質量有較高要求的應用場景。

對於價格,基礎收費從每1000個輸入字元0.015美元起。這個價格使得開發人員能夠根據自己的需求和應用的規模來計劃成本。

OpenAI 還提供了一個 TTS 指南,幫助開發人員了解如何開始使用這項服務,指南中包含了如何設置和使用 TTS API 的具體步驟和範例。這可以幫助開發人員更容易地將文字轉語音功能整合到他們的應用中。

Model customization 型號客製
GPT-4 fine tuning experimental access
GPT-4微調實驗接入

OpenAI正在發展一個針對GPT-4微調(fine-tuning)的實驗性計劃。微調是一種自定義過程,讓開發人員能夠根據特定的應用案例或數據集來調整模型的表現。

從目前的初步結果來看,相比於GPT-3.5,GPT-4微調在提升模型性能方面需要更多的工作,這代表要想讓GPT-4微調帶來對基本模型的有意義提升,單純的微調策略可能不如在GPT-3.5上取得的效果那麼顯著。這可能是因為GPT-4本身已經在多個維度實現了顯著進步,使得額外的改善空間相對縮小。

隨著GPT-4微調的質量和安全性逐步提高,那些正在積極利用GPT-3.5進行微調的開發者們,將會在他們的微調控制台中看到一個選項,允許他們申請加入GPT-4的微調計劃。這為開發者提供了一個機會,可以在一個更進階的模型上實驗和優化他們的應用。

Custom models 客製化型號

OpenAI推出了一個自定義模型計劃,這是為那些需要比傳統微調更深層次自定義模型的組織所設計的,特別是那些擁有極其龐大專有數據集(至少數十億token)的領域。在這個計劃中,被選中的組織將有機會與OpenAI的專門研究人員團隊合作,來根據他們特定的領域需求訓練定制版的GPT-4模型。

這個過程包括對模型訓練流程的每一個步驟進行修改,從進行針對特定領域的額外預訓練,到為特定領域進行量身定製的自訂強化學習(Reinforcement Learning, RL)的後期訓練流程。這樣做的目的是為了讓模型能夠更精確地適應組織的具體需求。

與此同時,這些組織將獨家擁有對他們定制模型的訪問權利。遵循OpenAI既有的企業隱私政策,這些自定義模型不會被提供給其他客戶使用,也不會被用於訓練其他模型。此外,為了訓練這些自定義模型所提供的專有資料,將不會在任何其他情況下被重用。

需要注意的是,這將是一個非常限量且成本高昂的計劃,只有特別有興趣且符合資格的組織才能申請加入。這顯示了OpenAI在模型定制化方面的極致服務,也體現了其在保護客戶隱私和數據專有性方面的嚴格政策。

Lower prices and higher rate limits
更低的價格和更高的費率限制

OpenAI宣布在其平台上降低了多項服務的價格,目的是將成本節省傳遞給開發者。以下是新的價格結構,所有價格都是根據每1,000個代幣(token)來計算的:

GPT-4 Turbo 的輸入代幣比GPT-4的價格低三倍,價格是每1,000個代幣$0.01美元;輸出代幣的價格則低了兩倍,為每1,000個代幣$0.03美元。

在這裡提到的「輸入代幣」與「輸出代幣」代表使用GPT-4 Turbo模型時,輸入到系統的文字量(輸入代幣)和系統生成的文字量(輸出代幣)所對應的成本。

輸入代幣(Input Tokens): 指的是你提供給模型的文字,例如問題、指令或者其他任何形式的輸入數據。GPT-4 Turbo的輸入代幣價格是每1,000個代幣$0.01美元,這比原來的GPT-4模型的價格低了三倍。

輸出代幣(Output Tokens): 指的是模型產生並返回給你的文字,例如回答、生成的文本或其他回應。GPT-4 Turbo的輸出代幣價格是每1,000個代幣$0.03美元,這比原來的GPT-4模型的價格低了兩倍。
GPT-3.5 Turbo 的輸入代幣比之前的16K型號便宜三倍,現在的價格是每1,000個代幣$0.001美元;輸出代幣的價格也低了兩倍,現在是每1,000個代幣$0.002美元。那些之前使用GPT-3.5 Turbo 4K的開發者現在在輸入代幣上能享受到33%的減價,新價格是每1,000個代幣$0.001美元。值得注意的是,這些新的更低價格僅適用於當天推出的新款GPT-3.5 Turbo。


經過微調的GPT-3.5 Turbo 4K模型的輸入代幣價格降低了四倍,現在是每1,000個代幣$0.003美元;輸出代幣的價格降低了2.7倍,現在是每1,000個代幣$0.006美元。而且,微調現在支援新的GPT-3.5 Turbo模型以4K的價格處理16K的上下文。這些新價格同樣適用於微調過的gpt-3.5-turbo-0613模型。


總之,這些價格的下調是OpenAI為了讓開發者在使用其人工智能模型時能更加經濟地進行開發與應用,尤其是在處理大量數據的情境下。這些變更有助於使人工智能技術更加親民和易於取得。

Lower prices 較低的價格

GPT-4 Turbo本次價格調整:

輸入代幣的價格從GPT-4的價格降低到每1,000代幣$0.01美元,便宜了3倍。
輸出代幣的價格降低到每1,000代幣$0.03美元,便宜了2倍。

GPT-3.5 Turbo的價格調整:

輸入代幣的價格比之前的16K模型便宜3倍,現在是每1,000代幣$0.001美元。
輸出代幣的價格比之前的16K模型便宜2倍,現在是每1,000代幣$0.002美元。

先前使用GPT-3.5 Turbo 4K的開發者現在使用新版GPT-3.5 Turbo輸入代幣的價格降低了33%,為每1,000代幣$0.001美元。
這些較低的價格只適用於新推出的GPT-3.5 Turbo。

經過微調的GPT-3.5 Turbo 4K模型的價格調整:

輸入代幣的價格降低了4倍,現在是每1,000代幣$0.003美元。
輸出代幣的價格降低了2.7倍,現在是每1,000代幣$0.006美元。
新的GPT-3.5 Turbo支援以相同的價格處理更長的文本(16K上下文),和之前的4K模型價格相同。
這些新價格同樣適用於經過微調的gpt-3.5-turbo-0613模型。



Higher rate limits 更高的速率限制

OpenAI為了支持客戶發展和擴大他們的應用程序,對所有付費的GPT-4客戶提供了更高的使用上限。具體來說,客戶可以在一分鐘內使用的代幣數量限制提高了一倍。這意味著客戶現在每分鐘能夠處理更多的數據。

客戶可以在他們的速率限制頁面查看更新後的新限制。速率限制頁面通常會在客戶的帳戶管理儀表板上。

此外,OpenAI公開了使用等級表,這些等級會決定自動速率限制的增加。這樣客戶就能了解隨著他們使用量的增加,他們的使用限制將會如何自動調整,確保透明度和可預測性。

最後,如果客戶需要更高的使用限制,他們現在可以直接從帳戶設置中發起請求。這使得客戶可以根據自己的需要調整使用量,更靈活地擴展應用程序。

Copyright Shield 版權護盾

OpenAI強調他們致力於保護客戶的版權,並且他們的系統中已經內建了相關的保護措施。現在,他們將這些保護措施提升至新的水平,推出了一項名為“版權護盾”的服務。

“版權護盾”這項服務的核心承諾是,如果OpenAI的客戶在使用ChatGPT Enterprise或者他們的開發者平台的通用功能時,遭遇了有關版權侵權的法律索賠,OpenAI將會介入。在這種情況下,OpenAI不僅會提供辯護支持,還會承擔相關的法律費用。

簡而言之,這意味著OpenAI提供了一個附加的安全網給使用他們平台的企業,如果客戶按照規定使用OpenAI的產品而不幸面臨版權訴訟,OpenAI將提供協助和經濟支援,以處理這些版權問題。這項服務目前適用於ChatGPT Enterprise版本和開發者平台上一般可用的功能。

Whisper v3 and Consistency Decoder
Whisper v3 和一致性解碼器

OpenAI宣布發布了Whisper large-v3,這是他們開源的自動語音識別(ASR)模型的新版本。新版本的特點是在多種語言上的性能得到了提升。OpenAI也計劃在未來的某個時間點,將這個新版本的Whisper模型整合到他們的API中,這意味著開發者將能夠透過API使用到Whisper v3的功能。

此外,OpenAI還開源了一種新的解碼器,稱為Consistency Decoder。這是針對Stable Diffusion VAE(變分自編碼器)解碼器的一個替代品,可以直接替換。使用這個新的解碼器,可以對所有與Stable Diffusion 1.0+ VAE兼容的圖片進行改進,特別是在文字、人臉以及直線的處理上有顯著的提升。這意味著生成的圖像質量將會更高,尤其是在這些特定的元素上。



張貼留言

0 留言