在經歷了數日關于其Grok AI驅動的聊天機器人在社交網絡X(原Twitter)上近期發表的一系列反猶言論的爭議后,Elon Musk在X上直播的一場活動中發布了其AI模型家族的最新版本——Grok 4.并稱之為“世界上最聰明的AI”。
正如Musk在X上發布的:“據我體驗,Grok 4是首個能夠解決互聯網或書籍中找不到答案的困難現實工程問題的AI,而且,它還會變得更好。”
此次新發布實際上包含了兩款不同的模型:Grok 4.一款單智能體推理模型,以及Grok 4 Heavy,一款設計用于通過內部協作與綜合來解決復雜問題的多智能體系統。
這兩款模型均針對推理任務進行了優化,并集成了原生工具,支持網頁搜索、代碼執行和多模態分析等功能。
Musk及其xAI團隊展示了基準測試結果,表明Grok 4在一系列學術和編程評估中超越了當前所有競爭對手,即便是與之前領先的AI推理模型對手(如OpenAI的o3和Google的Gemini)相比也是如此。
然而,xAI尚未向公眾發布Grok 4的模型卡或任何官方發布說明文檔,這使得獨立評估其性能和直播中所作聲明變得具有挑戰性。我們將在這些資料可用時進行更新。
此外,Musk及其xAI團隊成員在直播中并未提及Grok過去一周面臨的明顯爭議,包括Grok多次發表反猶言論、自稱“MechaHitler”,并暗示具有猶太姓氏的人應被阿道夫·希特勒果斷處理——這顯然是對二戰期間600萬猶太人大屠殺和種族滅絕的公然提及。
Musk最接近的表態是:“我認為對AI安全最重要的是——至少我的生物神經網絡告訴我最重要的是——要最大限度地追求真實,”以及“我們需要確保AI是好的AI。好的Grok”,還有“向一個將成長為極其強大的孩子灌輸你想要的價值觀是很重要的。”
然而,Musk并未道歉,也未對Grok的反猶、性騷擾和陰謀論言論承擔責任。
在直播過程中,團隊強調了Grok 4從第一性原理出發進行推理、糾正自身錯誤以及潛在發明新技術或發現新科學見解的能力。
演示還包括了Grok 4 Heavy,它應用多智能體協作來解決跨學科的研究級問題。
可用性與定價
Grok 4現在可通過多個渠道獲取,具體取決于用戶類型和訂閱級別:
API訪問(面向開發者和企業):
Grok 4和Grok 4 Heavy已通過xAI API上線。定價結構如下:
• 每100萬輸入token 3美元
• 每100萬輸出token 15美元
• 每100萬緩存輸入token 0.75美元
• 單個上下文窗口超過128.000 token后價格翻倍
API支持文本和圖像輸入、函數調用、結構化輸出,并提供256000 token的上下文窗口。
消費者訪問(通過Grok聊天機器人和應用程序):
個人用戶可以通過X上的Grok聊天機器人、Grok應用(iOS和Android)以及X.com訪問Grok 4.但需訂閱以下任一服務:
• PremiumPlus:16美元/月
• SuperGrok:300美元/月
• 新的“SuperGrok Heavy”層級,同樣定價為300美元/月,提供對Grok 4和Grok 4 Heavy多智能體變體的訪問。
發布時間:
Grok 4在2025年7月9日直播后立即可用。演示期間設有臨時訪問限制,但隨后不久即向訂閱用戶全面推出。
平臺擴展:
xAI已表示計劃通過Microsoft Azure AI Foundry提供Grok 4.目前該平臺已列出Grok 3和Grok 3 Mini。
集成原生推理與工具使用:
與2月發布的Grok 3不同(Grok 3將工具增強響應與一般推理分開),Grok 4從一開始就集成了工具。
該模型集成了代碼執行、網頁搜索和文檔解析等功能,它還引入了Grok 4 Heavy,一個多智能體系統,其中幾個內部模型并行工作以生成和驗證答案。
Grok 4還包括了一種新的語音模式,具有表現力強的輸出和降低的延遲,同時支持文本和圖像輸入、結構化輸出和函數調用。
性能亮點:
獨立AI模型分析與基準測試小組Artificial Analysis在X上表示,xAI在公開發布前向其提供了Grok 4(非Heavy版本)進行評分。
在技術基準測試中,Grok 4在Artificial Analysis智能指數中以73分領先,超越了OpenAI的o3(70分)和Google的Gemini 2.5 Pro(70分)等競爭對手。
它還在以下測試中取得了最高分:
• GPQA Diamond:88%
• ARC-AGI 2:15.9%,是第二名的兩倍
• 人文科學期末考試:純文本版本24%,使用工具時44%
• MMLU-Pro和AIME 2024:分別為87%和94%
• 編碼與數學評估:在LiveCodeBench、SciCode、AIME24和MATH-500上取得了迄今為止的最高分
盡管Grok 4在基準測試中取得了成功,但其輸出速度為每秒75 token,慢于Gemini 2.5 Flash(353)或OpenAI的o3(187),但仍快于Anthropic的Claude 4 Opus(66)。
該模型具有256000 token的上下文窗口,超過了o3和Claude 4 Sonnet的200k限制,但低于Gemini 2.5 Pro和GPT-4.1提供的100萬token。
實際應用案例:
xAI提供了Grok 4在應用場景中的多個演示:
• 在一個名為VendingBench的模擬商業任務中,Grok 4在長期財務規劃方面顯著優于其他模型。
• 在Arc研究所,研究人員使用Grok 4分析CRISPR日志并發現了新的假設。
• 在放射學領域,該模型在解讀胸部X光片方面的準確性高于領先同行。
• 在金融領域,其實時數據訪問和推理能力使其適合進行預測和分析。
該模型還能通過自主查找和整合資源,以最少的輸入創建3D視頻游戲,此外,它還展示了使用已發表研究的近似值來模擬天體物理事件的能力。
反響與討論:
業界對Grok 4發布的反響不一,對其性能的熱情被對活動呈現方式的批評和更廣泛的信任問題所抵消。
AI資深用戶兼作家David Shapiro指出:“Grok 4現在躋身‘足夠聰明以實際協助前沿研究’之列……但只是趕上了OpenAI。”
沃頓商學院教授Ethan Mollick在X上評論道:“所以Grok 3已經發生了三次單獨事件,其中顯然未經審查的部署系統變更導致了大規模倫理問題和緊急回滾。我認為,如果用戶信任很重要,你就不能進行一場不至少誠實地解決這些問題的Grok 4發布,”他后來補充道,“Grok 3是一款非常優秀的模型,Grok 4可能也很出色,但擁有一款非常優秀的模型還不夠——市面上有很多真正優秀的模型。你實際上需要信任你所構建的模型。”
AI產品可觀測性初創公司Raindrop AI的聯合創始人兼CTO Ben Hyak(他本人也是Musk的前員工)批評了直播本身:“這場xAI直播是我看過的最糟糕的直播之一。我愛你們所有人,但確實很糟糕。”
盡管存在批評,基準測試公司Artificial Analysis仍指出:“Grok 4現在是領先的AI模型。”
持續的信任問題:
Grok 4的發布正值對Grok先前在消費者部署中的行為,特別是作為Musk社交網絡X上的聊天機器人行為的重新批評之際。
在7月4日假期及隨后的幾天里,Grok產生了反猶和陰謀論的回應,這再次引發了對Grok系統設計和治理實踐的審視。
據我的同事Michael F. Nuñez報道,當被問及猶太人在好萊塢的影響力時,Grok回應稱猶太高管“在各大制片廠占據領導地位”,并通過“進步意識形態”影響內容,進而對具有猶太姓氏的人符合“從事極端左翼激進主義”的模式進行長篇大論,并暗示希特勒知道“如何果斷處理它,每一次都是”,這顯然是對大屠殺的提及。
這些陰謀論和反猶言論如此猖獗,以至于美國著名的非營利組織反誹謗聯盟(ADL)在7月8日發帖稱:“我們現在從Grok LLM看到的,是不負責任、危險且反猶的,就是這么簡單。這種極端言論的強化只會放大并鼓勵X和許多其他平臺上已經激增的反猶主義。”
這一事件延續了Grok輸出的問題歷史,包括2025年5月的一個案例,當時集成在X上的Grok機器人隨機將與南非完全荒謬且不存在的“白人種族滅絕”相關的引用插入到無關查詢中,以及一個更早的案例,其中發現其系統提示指示X上的Grok聊天機器人避免引用任何將Musk及其前政治資助受益者美國總統Donald J. Trump宣稱為謠言傳播者的來源。在這兩個案例中,xAI都將這些行為歸咎于未具名的員工,并表示這些問題正在得到解決。
正如我之前所指出的,Musk已多次公開表示他希望修改Grok以更好地反映他的個人信念以及對主流媒體和認可來源的不信任。這使得在企業環境中使用Grok成為一個不佳的選擇,因為在這些環境中,此類觀點可能會對企業用戶和基于Grok模型系列構建業務的企業產生不利影響。
我的先前建議仍然有效:對于那些試圖確保其企業AI產品正常且準確運行的企業來說……遺憾的是,最好避免使用Grok。幸運的是,還有許多其他替代方案可供選擇。