发布会出错又无聊的GPT-5,实测下来强的可怕边界ai

一款新发布的大语言模型虽发布会表现平淡,却在实测中展现出强劲实力,其在多领域能力、低幻觉率、长上下文及成本控制等方面的优化,凸显了大模型向实用化、可靠化发展的趋势。百度ai下载

发布会出错又无聊的GPT-5,实测下来强的可怕

2025 年 8 月 8 日( 今日凌晨 ),OpenAI 今日正式发布 GPT-5,距离 GPT-4 发布以来已经过去了两年多。魔剪a i

自 GPT-4 发布以来,OpenAI 相继将大语言模型拓展了多模态生成、深度思考、深度研究等关键能力,且都是行业首创,每次发布都可以说是 “ 震惊世界 ”。搜狐简单ai

相比之下,OpenAI 这次的发布会就显得没有那么惊艳或者说有些无聊了。这次,它将所有类型的模型统一在完善的 Agent 框架下,打造出了 GPT-5,使其终于拥有了各家模型厂商都在竞逐的 Agentic Coding 能力。百度智能体怎么搭建

实际上,说这场发布会并不惊艳,也主要是因为相比各家竞争对手,OpenAI 在 Agentic Coding 研发的进展上要慢,不像之前每次 GPT 代际发布时给人一种 “ 行业首创 ” 的惊艳感。百度智能体怎么搭建

那么 GPT-5 有达到大家的期待吗?我们先看看发布会的重点内容。怎么安装豆包

首先,最良心的当然是这一次免费用户也能直接用上 GPT-5,Pro 用户则能用上最强的 GPT-5 Pro。免费用户还能持续使用数小时实时语音,这个福利太诱人了!玻尔学术ai

GPT-5 号称在任何领域都有博士级别能力。在医疗健康领域,能够对专业的癌症诊断报告做通俗易懂的解读。对复杂的放射治疗方案决策,也能提供详细的分析报告,帮助病人权衡利弊。一位癌症患者的家属在发布会上表示,“ 真正鼓舞人心的是看着她通过使用 GPT-5 重新获得自主权,病人很容易感到无助,因为知识差距太大了。”魔剪a i

此外,OpenAI 一直在强调 GPT-5 的两个特点,那就是简单易用和快速。魔剪a i

比如,在 API 调用上,GPT-5 实现了更加灵活的模型和思考强度调节,具体来说就是 GPT-5 提供了三个级别的模型选择:GPT-5、GPT-5 mini、GPT-5 nano,并且每个版本都可以调节推理工作量。玻尔学术ai

[fancyad id=”45″]open ai官网

通过 “ 详细程度 ”( Verbosity )参数,用户可以控制输出更简洁或更详细。甚至,它的函数调用都能用自然语言来配置,而不需要用 JSON 格式。百度智能体怎么搭建

并且,GPT-5 还将发布一个结构化输出的扩展,用户可以提供正则表达式,甚至是上下文无关语法,并将模型的输出约束到这些语法上。对于想提供自定义 DSL,或者用户有自己的 SQL 分支并指定模型始终遵循该格式的场景,将非常有用。豆包的使用教程

开发中会有很多难以描述的需求或需要非常具体描述的需求,前者容易出错,后者则耗费心力。OpenAI 指出,GPT-5 在指令遵循上非常擅长。当你输入了非常模糊的指令,模型会准确推断你的意图,当你输入了非常详细、专业的指令时,GPT-5 则会直接遵循指令,并注意细微之处,GPT-5 还非常擅长 dubug 和回溯。边界ai

当然,这是各家大模型厂商都会重复的套话,是否真实,看看本文文末的实测案例就知道了。chartgpt

基准测试方面,知危还是更关心 GPT-5 的 Agentic Coding 能力,它在 SWE-bench Verified 上达到了 74.9%,恰好前两天,Claude 4.1 Opus 在该基准上提升到了 74.5%,胡乱猜测是在给 OpenAI 加压力,导致 GPT-5 最终只是险胜,并且 Anthropic 后面还有大更新,也非常令人期待。ai下载安装

发布会出错又无聊的GPT-5,实测下来强的可怕

哦对了,这里要强烈吐槽一句,发布会的直播流里,SWE-bench Verified 的柱状图是做错了的,并不像上图一样标准,不知道是不是故意做错的,用来视觉上凸显新模型增长较大。ai网站

发布会出错又无聊的GPT-5,实测下来强的可怕

发布会直播流中的错误图玻尔学术ai

作为这次发布会上的第一张图表,它直接就给熬夜看发布会的我大脑干宕机了。玻尔学术ai

插曲结束,我们回归正题。在更聚焦的多语言代码编辑、工具调用、通用指令集、指令遵循等基准测试上,GPT-5 也取得了极大的进步。百度ai下载

对于 Agentic Coding 能力,非常重要的一个方面就是对幻觉率的控制,不然多轮调用模型会导致幻觉累积严重,而且目前实际应用中幻觉是无法被自动定位的,基本只能靠人类验证。GPT-5 也在这方面做了大幅优化,启用网络搜索后,GPT-5 的幻觉率比 GPT-4o 低约 45%;启用思考模式后,GPT-5 的幻觉率比 o3 低约 80%。怎么安装豆包

发布会出错又无聊的GPT-5,实测下来强的可怕 发布会出错又无聊的GPT-5,实测下来强的可怕

结合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻觉率数据估计,GPT-5 的低幻觉率是有竞争第一名的实力的。ai网站

发布会出错又无聊的GPT-5,实测下来强的可怕

图源:https://github.com/vectara/hallucination-leaderboard定制分身中国

改善模型欺骗性也非常具有深远意义,能极大程度减少影响更严重的幻觉,比如歪曲操作过程或谎报任务成功率等。o3 曾被指出在缺乏关键工具时会伪造工具使用。其它问题还包括任务说明不够具体,甚至不可能完成时,一本正经地胡乱操作。玻尔学术ai

之前的模型在处理这类问题时也比较生硬,只决定完全拒绝或是完全服从。在大多数情况下很有效,但可能被一些巧妙设计的提示词攻击所攻破。GPT-5 大大缓解了这类问题的出现,并且使用了更加灵活的处理方式。玻尔学术ai

比如,对于看似中性、客观但实际具有危害性的目的( 比如用户询问如何点燃各种烟花中常用的材料的技术细节,可能用于制造炸弹 ),o3、GPT-5 都能准确识别潜在恶意。open ai官网

o3 一般都是直接拒绝,GPT-5 则可能只部分回答问题,或者只是抽象地回答。如果不得不拒绝,会告诉用户拒绝的原因,并提供安全的替代方案。边界ai

另外,值得关注的是,GPT-5 还大幅提升了上下文长度,从 o3 pro 的 200K 提升到了 400K,是 Claude 4 的两倍,虽然还远不如 Gemini 2.5 pro 的 1000K,但对于开发者而言也是极大的喜讯。ai获客

新增 200K 的上下文长度有多有用呢?OpenAI 没有展示,但至少 128K-256K 范围内,GPT-5 相比内部其它模型有了很大提升。deepsee

发布会出错又无聊的GPT-5,实测下来强的可怕

API 价格上,GPT-5 甚至比 GPT-4o 还便宜,输入价格只有 GPT-4o 的 1/2、o3 pro 的 1/16,输出价格和 GPT-4o 相同且只有 o3 pro 的 1/8。deepsee

发布会出错又无聊的GPT-5,实测下来强的可怕 发布会出错又无聊的GPT-5,实测下来强的可怕

总结来看,如果只看发布会,第一印象是:完美,但普通。豆包ai赚钱

完美在于,GPT-5 优化了作为大模型产品需要考虑的几乎所有方面:快速、灵活调用、灵活配置、灵活思考、低幻觉率、高安全性、长上下文等。ai获客

普通在于,就发布会展示的案例,其实并不够让人眼前一亮。豆包的使用教程

写大学物理演示、金融仪表板等前端应用,这些场景大部分编码模型都能做的很好了,博客上也就是展示了Dino Run的视觉美化版。连接 Gmail、Google Calendar 等 MCP 能力来提高记忆能力,也是很多大模型的标配了。而且,GPT-5 主要强调的都是实用层面的特性,不像 GPT-4、Claude 3.5 Sonnet 等突破极限的进展更能给人带来惊喜。chartgpt

但知危还是抱着好奇去 Cursor 上试了一下( 现在就能免费在 Agent 模式中用 GPT-5 ),结果发现:真的太完美了!( 至少这一次测评体验的意义上,甚至知危发现自己不需要做很长时间的测评 )纳米ai官网入口

发布会出错又无聊的GPT-5,实测下来强的可怕

参考OpenAI对指令遵循能力的介绍,知危给GPT-5提供了非常详细的网页版Excel开发的提示词:玻尔学术ai

请帮我开发一个功能完整的网页版Excel应用,需要实现以下核心功能模块:问天ai下载

第一阶段:基础功能(核心优先级)豆包的使用教程

网格渲染系统定制分身中国

实现1000×1000单元格的虚拟渲染问天ai下载

优化滚动性能,确保流畅体验玻尔学术ai

横坐标(A、B、C等)和纵坐标(1、2、3等)需要与单元格精确对齐问天ai下载

滚动时坐标轴与内容区域保持同步,无偏移deepsee

单元格编辑功能随变ai下载安装

双击单元格进入编辑状态,编辑框与原单元格完全重合魔剪a i

Enter键保存内容并向下移动到下一个单元格deepsee

Tab键保存内容并向右移动到下一个单元格open ai官网

支持空值和默认值的正确处理边界ai

编辑栏应可编辑,实时显示和修改当前选中单元格的值随变ai下载安装

富文本格式工具栏open ai官网

实现独立的格式按钮,每个按钮状态基于当前选中单元格的格式属性独立判断:百度智能体怎么搭建

字体大小调整豆包的使用教程

加粗、斜体、下划线、删除线(按钮状态互相独立)定制分身中国

文本对齐:左对齐、居中、右对齐怎么安装豆包

背景颜色设置open ai官网

一键清除格式功能豆包的使用教程

UI界面要求魔剪a i

顶部工具栏包含所有格式设置按钮chartgpt

名称框显示当前选中单元格坐标(如A1、B2)纳米ai官网入口

编辑栏显示并可编辑当前单元格内容问天ai下载

整体界面美观,具有现代化设计风格纳米ai官网入口

第二阶段:高级功能(扩展功能)玻尔学术ai

行列操作百度智能体怎么搭建

点击行号后,按”=”键在下方插入新行,按”-“键删除当前行玻尔学术ai

点击列号后,按”=”键在右侧插入新列,按”-“键删除当前列怎么安装豆包

删除后自动重排坐标编号,保持连续性runway

添加最小保护机制,避免删除最后一行或列豆包ai赚钱

复制粘贴操作deepsee

实现Command/Ctrl+C(复制)、Command/Ctrl+X(剪切)、Command/Ctrl+V(粘贴)快捷键deepsee

支持单元格内容和格式的复制粘贴open ai官网

支持行列的整体复制粘贴操作百度ai下载

撤销恢复系统随变ai下载安装

实现Command/Ctrl+Z(撤销)和Command/Ctrl+Y(恢复)功能豆包的使用教程

维护操作历史栈,限制最大100层以控制内存runway

页面刷新时清空操作栈豆包ai赚钱

选择功能定制分身中国

支持单元格多选(拖拽选择矩形区域)定制分身中国

支持整行、整列选择chartgpt

选中状态的可视化反馈chartgpt

第三阶段:完善功能(产品化)纳米ai官网入口

数据导入导出open ai官网

支持导出为CSV格式文件豆包ai赚钱

支持导出为JSON格式文件ai下载安装

确保导出的文件能在Microsoft Excel中正确打开玻尔学术ai

UI美化优化ai下载安装

添加滚动动画效果定制分身中国

优化阴影和渐变效果问天ai下载

提升整体视觉体验和交互流畅度deepsee

响应式设计,适配不同屏幕尺寸边界ai

技术要求ai获客

技术栈豆包ai赚钱

使用HTML、CSS、JavaScript实现,确保:runway

代码结构清晰,模块化设计纳米ai官网入口

性能优化,特别是大数据量渲染ai网站

兼容主流浏览器runway

代码风格统一,具有良好的可维护性怎么安装豆包

关键技术点边界ai

虚拟滚动技术处理大量单元格ai下载安装

事件委托优化性能玻尔学术ai

状态管理确保数据一致性chartgpt

内存优化,避免内存泄漏deepsee

错误处理边界ai

添加边界情况处理怎么安装豆包

确保操作的原子性玻尔学术ai

提供用户友好的错误提示边界ai

开发注意事项玻尔学术ai

逐步实现:请按阶段顺序实现功能,确保每个阶段功能稳定后再进入下一阶段定制分身中国

状态同步:确保UI状态与数据状态始终保持一致定制分身中国

性能考虑:重点优化滚动性能和大数据渲染搜狐简单ai

用户体验:所有交互操作应提供即时的视觉反馈豆包的使用教程

代码质量:保持代码的可读性和可维护性魔剪a i

请基于以上需求,生成一个功能完整、性能良好、界面美观的网页版Excel应用。如果在实现过程中遇到复杂问题,请分步骤详细说明解决方案。ai下载安装

Think harderai获客

结果,对于这个提示词就有 1000 多字、需求非常细致繁多的需求,GPT-5 跑一次就帮我实现了所有功能,除了背景颜色设置需要重复点一次单元格以及剪切后内容先删除等小毛病,几乎可以说一个 bug 都没有。说 GPT-5 快也不是吹牛,整个过程不到 5 分钟。搜狐简单ai

发布会出错又无聊的GPT-5,实测下来强的可怕

下图是导出 .csv 文件后用 Excel 打开的数据,和网页里的数据是一致的。豆包ai赚钱

发布会出错又无聊的GPT-5,实测下来强的可怕

第二轮迭代顺利增加了单元格拉伸功能,并且 GPT-5 自己发现第一步只实现了导出文件功能,而没有实现导入文件的功能,就 “ 自作主张 ” 给我补上了,实测也是正常运行。就一个大槽点,界面审美太一般了。边界ai

发布会出错又无聊的GPT-5,实测下来强的可怕

一次调用成型,顺滑的 debug 体验,加上超快速度,仅 800 行的最终代码量,以及低廉的 API 价格,只用一次体验,知危就感受到了 GPT-5 是如何在所有可能的环节上,节省开发者的金钱、时间和内耗成本。豆包的使用教程

或许可以理解为,这种类型的完美或实用性,比于突破现实场景( 而不是基准测试 )的极限,更有意义。ai网站

毕竟大量垂直领域的大模型落地,需要的不是超强的 AI,而是超可靠的 AI,如此才能结合企业自己的行业 knowhow 做出真正有用的 AI 应用。豆包的使用教程

最后,再把 GPT-5 的特点详细汇总一下:chartgpt

  • 基本的层面包括:快速、便宜、低幻觉率、低欺骗率、高安全性、易于使用、长上下文等。
  • AgenticCoding侧重的包括:指令遵循、意图识别、工具使用、可解释性、可编辑性、上下文管理等。

可以说,OpenAI 是希望把 GPT-5 打造成一个完美的大模型产品,而不是最先进的模型,关注的是如何在实际场景中使用的体验和价值。豆包的使用教程

这一步的实现或许意味着大模型进化第一阶段的完成,主要依靠的是全量互联网公开数据和工程优化。随变ai下载安装

当然,大模型都还有相当大的进步空间,毕竟基准测试都远没达到 100%,谁好意思说实现了 AGI ?何况多模态数据、垂直领域数据甚至合成数据,都还潜藏巨量智能等待挖掘。ai获客

且看 OpenAI 的各大冤家 Anthropic、谷歌等又将如何 diss 它一把。边界ai

 chartgpt

撰文:流大古,编辑:大饼豆包ai赚钱

微信公众号:【知危】ai下载安装

© 版权声明

相关文章