GPT-5实测:编程能力碾压前代,但马斯克为啥说它不如Grok?

等了两年半,OpenAI的GPT-5终于来了。8月7日发布会那天,山姆·奥尔特曼把话说得特别满:“跟GPT-5对话就像跟领域博士聊天”,甚至还补了一刀,“我试过用回GPT-4,效果相当糟糕”。这话听着就让人好奇,这模型到底强到什么程度?

作为天天跟代码打交道的程序员,我第一时间上手试了试。说实话,有些功能确实惊艳,但发布会现场就被眼尖的网友扒出数据图表错误,马斯克更是直接转发测试说GPT-5不如他家Grok 4。今天咱们就从技术细节到实际体验,好好聊聊GPT-5到底值不值得期待。

GPT-5发布页面

一、实测三大核心升级:从代码生成到健康咨询

1. 编程能力:一键生成完整网站,准确率提升44%

OpenAI说GPT-5是"迄今为止最强大的编码模型",这话不算吹牛。我拿公司一个内部管理系统的前端页面测试,只给了文字描述和功能清单,它居然在5分钟内生成了一个带响应式设计的完整单页应用,连交互逻辑都写好了。

看专业测试数据更直观。在SWE-bench Verified这个从GitHub扒真实编程任务的测试里,GPT-5思考后的首次尝试准确率达到74.9%,比GPT-4o的30.8%高出一大截,甚至超过了Anthropic刚发布的Claude Opus 4.1(74.5%)。不过有意思的是,发布会现场展示这个数据时,有网友发现柱状图高度和数字对不上,显得GPT-5优势更大,这就有点尴尬了。

GPT-5编码能力对比

2. 健康咨询:错误率从15.8%降到1.6%,但别当医生用

健康咨询这块进步挺明显。我假装问"长期失眠要不要吃褪黑素",GPT-5不仅分析了利弊,还主动追问我的失眠频率、是否有其他症状,最后特别强调"这不能替代医疗建议"。

专业测试里,GPT-5在HealthBench Hard Hallucinations的错误率只有1.6%,而GPT-4o是15.8%。不过OpenAI反复提醒,这功能只是辅助理解健康信息,真生病还得看医生。

健康咨询功能示例

3. 性格模式:四种风格切换,写诗确实有内味儿了

新出的四种性格模式挺好玩。我让它用不同风格写"程序员加班"的俳句:

  • 书呆子模式:“for循环深处/栈溢出的月光/调试到天明”
  • 愤世嫉俗者模式:“deadline是枷锁/键盘敲打着自由/工资卡空空”

确实能感觉到语气和风格的明显差异,比GPT-4那种千篇一律的调调有意思多了。

性格模式功能展示

二、最让人惊喜的进步:终于不瞎编了?

GPT模型最让人头疼的"幻觉"问题,这次确实改善不少。OpenAI给的数据是:GPT-5响应错误率4.8%,而GPT-4o是20.6%,o3模型22%。我试了几个冷门知识点,比如"1983年第7届全运会乒乓球男单冠军",GPT-5直接说"没有找到准确数据",而不是像以前那样编一个名字出来。

错误率对比分析

三、争议:是颠覆性突破还是资本催熟的产物?

发布会刚结束,马斯克就来拆台了,转发了ARC-AGI测试结果,显示Grok 4得分15.9%,GPT-5只有9.9%。虽然这个测试侧重什么还不清楚,但大佬公开叫板总归让场面有点难看。

马斯克质疑GPT-5性能

更有意思的是,有AI研究员说GPT-5其实是"渐进式优化"。现在大模型训练遇到了瓶颈,数据快用完了,参数增加带来的提升越来越小。加上OpenAI刚融了83亿,估值3000亿美元,这节骨眼上发布GPT-5,很难不让人联想到资本运作的需要。

四、普通用户怎么用?微软用户有福了

最实际的是,现在用微软Copilot就能体验GPT-5,Windows、Mac、手机端都能免费试。我试了下用Copilot生成Python爬虫代码,确实比以前快不少,连异常处理都考虑到了。

Copilot界面示例

价格方面,API调用费用比GPT-4o还便宜,输入每百万token1.25美元,输出10美元。对开发者来说挺友好,但普通用户可能更关心免费额度够不够用——每天"几个小时"的聊天限制,估计大多数人都够用了。

最后说几句

用了几天GPT-5,感觉确实强,但要说"颠覆性"还差点意思。编程、写作这些场景提升明显,但像数学推理这种硬核能力,在Humanity’s Last Exam测试里,GPT-5 Pro+得分42%,还不如Grok 4 Heavy的44.4%。

学科能力测试对比

或许大模型真的到了需要新突破的阶段,光靠堆参数和数据已经不够了。不过对咱们普通用户来说,免费能用这么强的模型,还要啥自行车呢?反正我已经把ChatGPT默认模型切到GPT-5了,回不去了回不去了。


 上一篇
当AI开始讲 当AI开始讲"感情":GPT-4o保卫战背后的人机关系革命
GPT-5发布本该是场技术狂欢,结果OpenAI却捅了马蜂窝。 8月8日,OpenAI上架GPT-5的同时,突然下架了包括GPT-4o在内的所有旧模型,全球用户被强制"升级"。按CEO山姆·奥特曼的说法,新模型完成了&q
2025-08-11
下一篇 
13款宝藏App实测:免费还好用,这波真挖到宝了 13款宝藏App实测:免费还好用,这波真挖到宝了
作为一个常年跟代码和各种应用打交道的人,我试了不少App,要么收费套路深,要么广告多到让人想卸载。但这次发现的13款,真的有点东西——全部免费,功能还特实用。安卓用户能用上10款,苹果用户8款,亲测无坑,咱们一个个说。 1. 蜂软扫描:手
2025-08-08
  目录