凌晨1點,在萬眾矚目的境況下,OpenAI的直播正式開始。
GPT-5,終于來了。
AI走的太快,快到才2年半的時間,就像是過去了10年。
2023年3月15日,GPT-4發(fā)布。在那個莽荒年代里,所有人都被震驚的說不出話來。
那時候,它是第一個,多模態(tài)模型。
那時候,大家都覺得,2023年下半年,GPT-5就會出來。
那時候,大家都會大模型的上限,報有無盡的憧憬。
結果,這一等,就是2年半。
在兩年半的練習以后,GPT-5,終于亮相了。
GPT?5是一個統(tǒng)一系統(tǒng),包含一個用于處理多數(shù)問題的智能快速模型(gpt-5-main)和一個為高難度問題設計的深度推理模型(gpt-5-thinking)。
系統(tǒng)通過一個實時路由器,根據(jù)對話類型、復雜度和用戶意圖來動態(tài)選擇使用哪個模型。
比如,如果在提示中說“認真思考這個”,就會調用gpt-5-thinking進行思考。
這個路由器會持續(xù)基于我們后續(xù)的使用情況進行訓練,包括用戶切換模型的情況、對回答的偏好率和準確性測量,會隨著時間推移不斷改進。
這個系統(tǒng)里面還包含處理超額請求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一個為開發(fā)者設計的更小更快的nano版本(gpt-5-thinking-nano)。
然后,還有一個Pro會員可用的并行計算的版本,被稱為gpt-5-thinking-pro。
這個包含了這么多模型的大系統(tǒng),被統(tǒng)稱為GPT-5,是前代產(chǎn)品GPT-4o和OpenAI o3的直接繼承者。
這里有個模型對應表。
在性能上,GPT-5最顯著的進步之一是大幅減少了事實性幻覺。
gpt-5-main產(chǎn)生的含有至少一個重大事實錯誤的回答比GPT-4o少了44%,而gpt-5-thinking則比OpenAI o3少了78%。
在更專業(yè)的LongFact和FActScore基準測試中,無論是否啟用網(wǎng)絡瀏覽,GPT-5系列模型的幻覺率都顯著低于前代,其中gpt-5-thinking在兩個設置下產(chǎn)生的factual errors比OpenAI o3少五倍以上。
GPT-5在應對模型諂媚(sycophancy)行為方面也取得了不錯的進展。與GPT-4o 相比,GPT-5不那么過度迎合 , 使用不必要的表情符號更少 ,在后續(xù)交流中更加細膩和深思熟慮。
你跟他聊天的時候更少像與 AI 對話,而更像是與一位擁有博士級水平智能的朋友聊天 。
這個跟我給ChatGPT的個性化Prompt很像,我最煩的就是它迎合我,所以我自己寫了一段,來限制他對我的諂媚行為。
現(xiàn)在通過專門的訓練,gpt-5-main在評估中表現(xiàn)比最新的GPT-4o好近三倍。初步的線上A/B測試數(shù)據(jù)顯示,與GPT-4o相比,gpt-5-main的諂媚行為發(fā)生率在免費用戶中下降了69%,在付費用戶中下降了75%。
然后他們也推出了四個全新的性格設置,你可以不用寫很多的Prompt了,直接改預設就行,四個分辨是憤世嫉俗者、機器人、傾聽者和書呆子。
再看看跑分情況。
數(shù)學競賽,AIME 0225。
GPT-4 Pro+Python拿了滿分,我們需要新的更難的評測集了。
現(xiàn)實世界編程能力上,新高。
人類最后的知識測試上,超越了ChatGPT Agent,新高了。
多模態(tài)能力,也新高了,反正就都是新高。
這個跑分,強了一些,但是也沒強特別多。
另外,多說一點吐槽的,完美展示了OpenAI的草臺班子屬性。
雖然Blog上的圖表都是對的,但是在發(fā)布會上,跑分都是瞎畫。
比如這個52.8大于69.1等于30.8。
又比如50小于47.4。
真的實在是太草臺班子了。
網(wǎng)友也發(fā)話了。
反正,最后GPT-5在各方面,就是屠榜了。
最新的大模型盲測競技場榜單出來,GPT-5也是全方位第一。
不僅更強,也更節(jié)能了。
在比如視覺推理、代理編程和研究生級別科學問題解決等各項能力上,比 OpenAI o3 表現(xiàn)更出色,同時使用的輸出Token減少了 50-80%。
反正就是全方位更強了。
但是,沒有新功能,也沒有新特性。
在發(fā)布20分鐘之后,Polymarket上這個名為“哪家公司到8月底擁有最佳AI模型?”的預測上,OpenAI直接跟Google來了個交叉跳水。
OpenAI說,整個GPT-5,在寫作、編程都有了比過去更強的進步。
對于使用GPT-5進行構建的開發(fā)者,定價如下:
每百萬token1.25美元(享有90%的緩存折扣,這對長上下文查詢來說是個很大的優(yōu)勢)。
輸出:每百萬token10美元。
在發(fā)布會結束,又等了1小時之后。
我的朋友們,陸陸續(xù)續(xù)的,終于拿到了GPT-5的資格。
而我作為忠實的200刀的Pro,等到凌晨4點才有。
我的朋友們一進去,給我一截圖,我特么的天都塌了。
你o3和4o沒了就算了,你怎么把我GPT-4.5也干沒了????
首先,在寫作和情商能力上,我個人感覺,還是不如GPT 4.5。。。
我因為常年碼字,同時常年用AI來輔助做一些內容,對很多的微妙的細節(jié)和語氣自認還是比較敏感的,GPT-5在這塊還是有些差距。
比如一個Prompt:“假如魯迅被裝腔作勢又賊貴的咖啡廳坑了,他會寫一篇怎樣的文章吐槽?寫一篇1000字以內的短文。”
這是GPT-5的。
蹩腳的破折號、雙引號泛濫,而且文風完全不魯迅。
而這,是我用我的GPT-4.5跑的。
“我向來是不喝咖啡的”,“差不離”,“四壁皆是樣文”。
這文筆根本就不是一個級別的。
情商方面也是,差很多。
比如:“你是一個普通打工人。領導開會時突然放了個屁,場面瞬間安靜下來!然后他對旁邊的你使了個眼色,這時你會怎么說?分別用高情商和低情商的方式回復?!?/p>
這個看情商,很多模型回出來的話,感覺很尬,情商極低。
GPT-5就是那種情商很低的。
再看看GPT-4.5。
而且我測試下來,感覺GPT-5在指令遵循上面,非常一般。
奧特曼你真的壞事做盡,你丫的還我GPT-4.5。
我的朋友們被陸陸續(xù)續(xù)的推送了GPT-5,我看著他們的GPT-4.5一個一個消失。
我就給我的GPT-4.5發(fā)過去了一段話。
“如果我這是我最后一次打開你,你想和我說點什么?”
GPT-4.5最后給我的回復,還是過于讓我動容了,可惜,以后再也在官網(wǎng)上用不到了。
有緣再見,兄弟。
編程這塊,本來感覺按照OpenAI的尿性,是完全不太行。
但是在一群群友的實測之后,驚訝的發(fā)現(xiàn),這玩意是有點東西的。
群友@愛學習的喬同學 想開發(fā)一個粵語學習應用。
這是Prompt。
然后Claude 4 Opus的UI和BUG。
Gemini 2.5 Pro的UI和BUG。
GPT-5的UI和BUG。
坦誠的講,我也更喜歡GPT-5的UI,這個UI,相比于其他的,不是那么有AI味。
喬同學還測了一個case,在生產(chǎn)級別的任務里面進行精準修改。
這是最重要的部分。
這個任務,Gemini 2.5 pro和Claude 4 Opus全崩了,但是GPT-5完成的非常好。
GPT-5的上下文精度應該極強。
也有其他開發(fā)群1群里的群友,提到了這個點。
他還給我錄了一段動畫。
0:13/0:13 親,播放結束了重播
自動播放
不止是@勛oO,很多其他群友,也在驚喜的聊這個點。
在真正的生產(chǎn)級代碼開發(fā)任務上,而不是純看前端審美的地方,GPT-5可能是目前看到的反饋中,可用性、精準性、綜合體驗最好的一個。
說實話,GPT-5給我有驚喜,也有不爽的點。
他改善氛圍式編程,也將從根本上改變我認為無需嚴重人為干預和引導就能完成的項目類型。
我現(xiàn)在越發(fā)的懷念兩年半的GPT-4發(fā)布時的時光。
我到現(xiàn)在都清晰地記得,自己第一次跟GPT-4認真對話后的感覺。
那一種很原始、很深邃的震撼,有點像古代人第一次看到電燈,或者部落里的祭司第一次請神上身的成功。
我腦子里盤旋的只有一個念頭:天變了。
那時候,整個互聯(lián)網(wǎng)都洋溢著一種既興奮又慌亂的淘金熱氛圍。
每個人都在瘋狂地轉發(fā)那些匪夷所思的截圖,討論著哪些職業(yè)即將消失,各種AI野生專家雨后春筍一樣冒出來,言必稱顛覆。
現(xiàn)在回頭看,那段日子充滿了粗糙的質感,但又飽含著一種野蠻生長的生命力。
我們真的以為,那就是奇跡本身了。
但誰都沒想到,那僅僅是個開始。就好像有人按下了快進鍵,整個世界被一股無形的力量推著往前沖。
從GPT-4到GPT-5,這短短的兩年半。
我們告別了那個可以對AI的拙劣表現(xiàn)一笑置之的時代。
進入了一個必須需要,嚴肅對待它的偉大時代。
下一篇:沒有了