新闻中心 >> 公司新闻 >>

GPT-5发布！OpenAI：博士级专家团队

2025-08-09 18:00:14

【导语】北京时间8月8日凌晨，OpenAI震撼发布GPT-5，标志着人工智能向通用智能迈出重要一步。山姆·奥尔特曼称其为“博士级专家”，但发布会后评价却褒贬不一。GPT-5在编程、写作、多模态、医疗咨询等方面全面进化，同(tóng)时(shí)引(yǐn)入(rù)四(sì)种(zhǒng)“人(rén)格(gé)模(mó)式(shì)”，商(shāng)业(yè)化(huà)策略也颇具竞争力。然(rán)而(ér)，PPT翻(fān)车与幻觉争议却让这款模型备受质疑。尽管如此，GPT-5正悄然重塑人类与AI的关系，成为潜在的“超级智能”。那么，这款“口袋里的博士级专家团队”表现究竟如何？让我们一探究竟。

北京时间8月8日凌晨1点，OpenAI正式发布GPT-5。山姆·奥尔特曼(Sam Altman)称GPT-5是“迈向通用人工智能(AGI)的重要一步”。他还表示，GPT-5就像是一位真正的博士级专家，精通任何你需要的领域。

然而发布会后大家对于GPT-5的评价直接两极分化，有说超预期的，也有失望“就这？”的。为什么会这样？我们先来看看GPT-5到底升级了啥？

编程、写作、多模态、医疗咨询全面进化

这场一个多小时的发布会，OpenAI的功能展示占据了绝大多数戏份。

首先是编程能力，GPT-5直接刷新了行业天花板，在SWE-Bench Verified(代码修复测试)中得分74.9%，在Aider Polyglot(多语言编程测试)中得分88%，远超前代模型。在发布会上，OpenAI后期训练负责人Yann Dubois现场演示了GPT-5如何根据指令快速生成法语学习、并带有互动游戏的网站，甚至能自动处理交互设计、进度记录等功能。短短几分钟就有这样精致的页面，确实让人惊艳。

多模态理解方面，GPT-5在一系列多模式基准测试中表现出色，涵盖视觉、基于视频、空间和科学推理。更强的多模态性能意味着，可以更准确地推理图像和其他非文本输入，无论是解释图表，总结演示文稿的照片还是回答有关图表的问题。

写作方面，OpenAI毫不谦虚地称GPT-5为“GPT-5是迄今(jīn)为(wèi)止(zhǐ)最(zuì)强(qiáng)大的写作协作工具”。该模型能够帮助用户将粗略的想法转化为引人入胜、富有文学深度和节奏感的文字作品。

健康咨询方面，在HealthBench Hard(医疗问答测试)中，GPT-5得分46.2%。OpenAI表示，与以前的模型相比，GPT-5更像是一个积极的思想伙伴，主动标记潜在的问题并提出问题以提供更多有用的答案。OpenAI强调，该模型还提供了更精确和可靠的响应，适应用户的上下(xià)文，知(zhī)识水平和地理位置，使其能够在广泛的场景中提供更安全和更有用的响应。

想象一下，将我们的体检报告上传交给AI来辅助判断，或许能够更好地、更及时地制定诊疗决策。发布(bù)会(huì)上(shàng)，OpenAI也(yě)邀(yāo)请(qǐng)了(le)一(yī)位(wèi)同(tóng)时(shí)患(huàn)有(yǒu)三(sān)种(zhǒng)癌(ái)症(zhèng)的(de)女(nǚ)士(shì)分(fēn)享(xiǎng)了(le)经(jīng)历(lì)。这(zhè)名换(huàn)着(zhe)通(tōng)过(guò)上(shàng)传(chuán)病(bìng)例(lì)报(bào)告(gào)到(dào)ChatGPT，更(gèng)好(hǎo)地(de)理(lǐ)解(jiě)了(le)报(bào)告(gào)中(zhōng)专(zhuān)业(yè)的(de)医(yī)疗术语，在确诊初期对于自己面临的情况有了更清晰的理解。甚至由于病情的复杂程度，当专家把治疗决定全交给这位女士时，她选择了GPT来结合(hé)海(hǎi)量(liàng)信(xìn)息(xi)分(fēn)析(xī)报(bào)告(gào)，并(bìng)最(zuì)终(zhōng)辅(fǔ)助(zhù)这(zhè)位(wèi)患(huàn)者(zhě)做(zuò)出(chū)了(le)正(zhèng)确(què)的(de)决(jué)定(dìng)。

除(chú)了(le)以(yǐ)上(shàng)升(shēng)级(jí)外(wài)，GPT-5还(hái)在(zài)降(jiàng)低(dī)幻(huàn)觉(jué)影响方面取得突破。在启用网页搜索时，GPT-5响应的事实错误率较GPT-4o降低约45%;深度思考模式下，错误率较OpenAI o3降低近80%，大幅减少了“一本正经胡说八道”的情况。更难得的是，GPT-5在严守事实的同时(shí)，指(zhǐ)令(lìng)遵(zūn)循(xún)能(néng)力(lì)跃(yuè)升(shēng)，拍(pāi)马(mǎ)屁(pì)的(de)倾(qīng)向(xiàng)也(yě)大(dà)大(dà)降(jiàng)低(dī)。

为(wèi)了(le)让(ràng)对(duì)话(huà)更(gèng)有(yǒu)趣(qù)，GPT-5还(hái)引(yǐn)入(rù)了(le)批(pī)判(pàn)者(zhě)(Cynic)、分(fēn)析(xī)者(zhě)(Robot)、倾(qīng)听(tīng)者(zhě)(Listener)和书呆子(Nerd)四种“人格模式”供用户选择。比如让模型以“书呆子”模式详细解释量子力学原理，或以“倾听者”模式提供情感支持。

从免费用户到Pro套餐，API定价竞争力凸显

OpenAI的商业化策略同样值得关注。免费用户可直接使用GPT-5(普通版，带推理功能)，但每月使用额度有限，触及上限后，系统会自动切换到GPT-5-mini(轻量型);Plus订阅用户除了能使用这些模型外，还享有更高的使用限额。而每月200美元的Pro套餐可无限使用GPT-5，并解锁更强的GPT-5 Pro版本(适合处理复杂任务)和GPT-5 Thinking(延长推理时间)。

对于开发者，OpenAI的API定价也颇具竞争力：GPT-5输入1.25美元/百万tokens，输出10美元/百万tokens;GPT-5 mini输入0.25美元/百万tokens，输出2美元/百万tokens;GPT-5 nano输入0.05美元/百万tokens，输出0.4美元/百万tokens。相较主要对手Anthropic与Google，GPT-5在不仅具备竞争力，甚至更为亲民。

性能飞跃能否掩盖PPT翻车与幻觉争议？

既然GPT-5的提升如此显著，为何评价还会两极分化？先说说发布会上出现的低级错误，比如在介绍GPT-5性能时OpenAI播放的几页PPT，实在是让人捉摸不透，这神奇的图表也成为发布会的一大亮(槽)点，52.8>69.1，让人质疑OpenAI的严谨性。奥特曼用“GPT-6来改进”的调侃缓解尴尬，但网友似乎并不买账。除此之外还有演示中神奇的大炮轨迹...也是让人无力吐槽。

另外，尽管OpenAI表示GPT-5的幻觉率大幅降低，但在实际测试中，模型仍会因训练数据的局限性而犯错。官方Demo里“幻觉降低”的片段，被网友揪出了错误。

GPT-5的发布并未让竞争对手沉默。马斯克也赶来补刀，转发GPT-5在ARC-AGI-2测试中未能击败Grok 4的截图。并表示在今年年底前发布Grok 5。

写在最后：

尽管GPT-5存在争议，但不可否认的是，这款模型正悄然重塑人类与AI的关系——从工具，到伙伴，再到如今潜在的“超级智能”。那么，在你看来这个口袋里的(de)“博(bó)士(shì)级(jí)专(zhuān)家(jiā)团(tuán)队(duì)”表(biǎo)现(xiàn)是(shì)否(fǒu)超(chāo)预(yù)期(qī)？

供(gōng)稿(gǎo)单(dān)位(wèi)：重(zhòng)庆(qìng)天(tiān)极(jí)网(wǎng)络(luò)有(yǒu)限(xiàn)公(gōng)司(sī)

审(shěn)核(hé)专(zhuān)家(jiā)：李志高高级工程师/重庆天极网络有限公司总裁

声明：除原创内容及特别说明之外，部分图片来源网络，非商业用途，仅作为科普传播素材，版权归原作者所有，若有侵权，请联系删除。

上一篇：【夜读丨科学参汤】上到火箭下到头盖骨，3D打印都能“印”出啥? 下一篇：成都世运会开幕式，藏着哪些令人惊叹的黑科技？

GPT-5发布！OpenAI：博士级专家团队

相关新闻

中国“人造太阳”找到突破密度极限方法

中国“人造太阳”找到突破密度极限方法

中国“人造太阳”找到突破密度极限方法

产品中心

产品应用

新闻中心

服务与支持

关于