Google長期在人工智慧領域處於領先地位,但在過去的一年裡,OpenAI憑借其創新技術在這一領域取得領先,特別是在多模態AI方面表現出色。為了搶回龍頭地位,Google推出Gemini的多模態AI系統,目的是為了重新吸引市場的注意力。
先談一下多模態AI系統,它的特點是能夠處理和理解多種不同類型的數據,包括文字、圖像和聲音等。這種AI系統不僅能處理單一模式的數據,而且能結合多種數據來加強理解能力和決策效率。在多模態AI的世界裡,關鍵在於不同類型數據的整合和互動。舉例來說,一個多模態AI系統可能會將視覺數據(如圖像或視頻)與語言數據(如文字或語音)結合起來,從而更深入地理解一個場景或解答一個問題。
這種技術的應用非常廣泛,例如:
- 圖片和影片中的對象識別和場景理解,結合文字描述加強識別的準確性。
- 自然語言處理,結合語音和文字數據來提高語言理解和生成的質量。
- 智能助手和聊天機器人,能夠理解和生成多種類型的數據,提供更自然和豐富的用戶互動體驗。
- 醫學影像分析,結合醫學報告的文字描述和影像數據,進行更準確的診斷。
面對多模態AI,挑戰在於如何有效地整合和處理來自不同來源的數據,以及如何訓練模型來理解這些數據間的相互關聯和互動方式。
在Google公布出來的數據,在文本、影片、語音都超過了GPT-4,從Google公布的結果,目前是SOTA(state-of-the-art)等級的模型,SOTA是指目前最先進的模型,直接翻譯成中文是指藝術的狀態,表達一個領域的最高級別,在ChatGPT有GPT-4、DALL·E和Whisper,就目前都已經達到高度可用的狀態。GPT-4針對文本、DALL·E針對圖像、Whisper針對語音。
根據傳聞Gemini比ChatGPT用上五倍算力,Gemini Ultra在32個常用的學術基準的30個上超過了GPT-4,在MMLU(Massive Multitask Language Understanding),領域超越人類專家,MMLU通常包括大量的任務和問題,涵蓋廣泛的主題和語言處理技能,如閱讀理解、常識推理、事實核查等。這種評估方法的目的是為了更全面地測試和挑戰AI模型在理解和處理語言方面的能力。
這些測試涵蓋了各種語言技能和知識領域,主要包括:
閱讀理解:測試模型能否理解和分析給定文本中的信息,這可能包括理解故事情節、文章主旨或文本細節。
常識推理:評估模型在使用常識知識進行推理時的能力,例如判斷日常生活中的邏輯關係或事物的一般特性。
事實核查:檢查模型在識別和核實事實性陳述時的準確性,這可能包括確認歷史事件、科學概念或當前事務的真實性。
語言分析:測試模型在理解語言結構、語法和詞彙多樣性方面的能力。
情感分析:評估模型在識別和解釋文本中的情感和觀點時的表現。
對話理解:測試模型在理解和生成對話內容方面的能力,這可能涉及回答問題、進行交流或創建連貫的對話。
跨語言理解:評估模型在處理不同語言的文本和任務時的能力,特別是在翻譯和跨語言溝通方面。
這些測試通常旨在模擬真實世界中語言理解的多樣性和複雜性,以全面評估AI模型的語言處理能力。
Gemini相關的其他數據在Google的deepmind網站裡面有
https://deepmind.google/technologies/gemini/#capabilities
另外Google還給出了報告的文件檔案
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
這次Gemini推出三種用途,Ultra是最高等級,用再企業與Data Center,Pro看起來是比較廣泛使用類似對標ChatGPT的產品,Nano則是邊緣運算的系列,可以離線使用,Pixel 8 Pro的用戶可以使用。之前2023年10月12日在臺灣上市。
Gemini 1.0的多模態推理功能在他的展示影片裡面展示了數學和物理問題只有用手寫就能處理,而AlphaCode2可以寫出比85%人類軟體工程師效能更好的軟體。
下面試關於AlphaCode2的報告:
https://storage.googleapis.com/deepmindmedia/AlphaCode2/AlphaCode2_Tech_Report.pdf
Google也另外發表Cloud TPU v5p的TPU系統,專門訓練頂尖AI模型所設計用,之前Google Cloud TPU v4和v5e用來訓練Gemini 1.0 ,TPU(Tensor Processing Unit)是Google專門為機器學習設計的一種加速器,用於加快特定於機器學習的工作負載,尤其是與TensorFlow框架一起使用時。
現在可以在Bard試用
Bard (google.com)
0 留言