发布会出错又无聊的GPT-5，实测下来强的可怕百度智能体怎么搭建

行业动态11个月前更新人人都是产品经理

424 0 0

一款新发布的大语言模型虽发布会表现平淡，却在实测中展现出强劲实力，其在多领域能力、低幻觉率、长上下文及成本控制等方面的优化，凸显了大模型向实用化、可靠化发展的趋势。玻尔学术ai

2025 年 8 月 8 日（今日凌晨），OpenAI 今日正式发布 GPT-5，距离 GPT-4 发布以来已经过去了两年多。定制分身中国

自 GPT-4 发布以来，OpenAI 相继将大语言模型拓展了多模态生成、深度思考、深度研究等关键能力，且都是行业首创，每次发布都可以说是 “ 震惊世界 ”。open ai官网

相比之下，OpenAI 这次的发布会就显得没有那么惊艳或者说有些无聊了。这次，它将所有类型的模型统一在完善的 Agent 框架下，打造出了 GPT-5，使其终于拥有了各家模型厂商都在竞逐的 Agentic Coding 能力。搜狐简单ai

实际上，说这场发布会并不惊艳，也主要是因为相比各家竞争对手，OpenAI 在 Agentic Coding 研发的进展上要慢，不像之前每次 GPT 代际发布时给人一种 “ 行业首创 ” 的惊艳感。玻尔学术ai

那么 GPT-5 有达到大家的期待吗？我们先看看发布会的重点内容。百度ai下载

首先，最良心的当然是这一次免费用户也能直接用上 GPT-5，Pro 用户则能用上最强的 GPT-5 Pro。免费用户还能持续使用数小时实时语音，这个福利太诱人了！问天ai下载

GPT-5 号称在任何领域都有博士级别能力。在医疗健康领域，能够对专业的癌症诊断报告做通俗易懂的解读。对复杂的放射治疗方案决策，也能提供详细的分析报告，帮助病人权衡利弊。一位癌症患者的家属在发布会上表示，“ 真正鼓舞人心的是看着她通过使用 GPT-5 重新获得自主权，病人很容易感到无助，因为知识差距太大了。”百度ai下载

此外，OpenAI 一直在强调 GPT-5 的两个特点，那就是简单易用和快速。ai下载安装

比如，在 API 调用上，GPT-5 实现了更加灵活的模型和思考强度调节，具体来说就是 GPT-5 提供了三个级别的模型选择：GPT-5、GPT-5 mini、GPT-5 nano，并且每个版本都可以调节推理工作量。open ai官网

[fancyad id=”45″]问天ai下载

通过 “ 详细程度 ”（ Verbosity ）参数，用户可以控制输出更简洁或更详细。甚至，它的函数调用都能用自然语言来配置，而不需要用 JSON 格式。随变ai下载安装

并且，GPT-5 还将发布一个结构化输出的扩展，用户可以提供正则表达式，甚至是上下文无关语法，并将模型的输出约束到这些语法上。对于想提供自定义 DSL，或者用户有自己的 SQL 分支并指定模型始终遵循该格式的场景，将非常有用。怎么安装豆包

开发中会有很多难以描述的需求或需要非常具体描述的需求，前者容易出错，后者则耗费心力。OpenAI 指出，GPT-5 在指令遵循上非常擅长。当你输入了非常模糊的指令，模型会准确推断你的意图，当你输入了非常详细、专业的指令时，GPT-5 则会直接遵循指令，并注意细微之处，GPT-5 还非常擅长 dubug 和回溯。豆包ai赚钱

当然，这是各家大模型厂商都会重复的套话，是否真实，看看本文文末的实测案例就知道了。搜狐简单ai

基准测试方面，知危还是更关心 GPT-5 的 Agentic Coding 能力，它在 SWE-bench Verified 上达到了 74.9%，恰好前两天，Claude 4.1 Opus 在该基准上提升到了 74.5%，胡乱猜测是在给 OpenAI 加压力，导致 GPT-5 最终只是险胜，并且 Anthropic 后面还有大更新，也非常令人期待。怎么安装豆包

哦对了，这里要强烈吐槽一句，发布会的直播流里，SWE-bench Verified 的柱状图是做错了的，并不像上图一样标准，不知道是不是故意做错的，用来视觉上凸显新模型增长较大。deepsee

发布会直播流中的错误图怎么安装豆包

作为这次发布会上的第一张图表，它直接就给熬夜看发布会的我大脑干宕机了。魔剪a i

插曲结束，我们回归正题。在更聚焦的多语言代码编辑、工具调用、通用指令集、指令遵循等基准测试上，GPT-5 也取得了极大的进步。豆包的使用教程

对于 Agentic Coding 能力，非常重要的一个方面就是对幻觉率的控制，不然多轮调用模型会导致幻觉累积严重，而且目前实际应用中幻觉是无法被自动定位的，基本只能靠人类验证。GPT-5 也在这方面做了大幅优化，启用网络搜索后，GPT-5 的幻觉率比 GPT-4o 低约 45%；启用思考模式后，GPT-5 的幻觉率比 o3 低约 80%。搜狐简单ai

结合 2025 年 8 月 7 日更新的 Hallucination Leaderboard 的 GPT-4o 幻觉率数据估计，GPT-5 的低幻觉率是有竞争第一名的实力的。怎么安装豆包

图源：https://github.com/vectara/hallucination-leaderboard玻尔学术ai

改善模型欺骗性也非常具有深远意义，能极大程度减少影响更严重的幻觉，比如歪曲操作过程或谎报任务成功率等。o3 曾被指出在缺乏关键工具时会伪造工具使用。其它问题还包括任务说明不够具体，甚至不可能完成时，一本正经地胡乱操作。百度智能体怎么搭建

之前的模型在处理这类问题时也比较生硬，只决定完全拒绝或是完全服从。在大多数情况下很有效，但可能被一些巧妙设计的提示词攻击所攻破。GPT-5 大大缓解了这类问题的出现，并且使用了更加灵活的处理方式。ai获客

比如，对于看似中性、客观但实际具有危害性的目的（比如用户询问如何点燃各种烟花中常用的材料的技术细节，可能用于制造炸弹），o3、GPT-5 都能准确识别潜在恶意。deepsee

o3 一般都是直接拒绝，GPT-5 则可能只部分回答问题，或者只是抽象地回答。如果不得不拒绝，会告诉用户拒绝的原因，并提供安全的替代方案。ai下载安装

另外，值得关注的是，GPT-5 还大幅提升了上下文长度，从 o3 pro 的 200K 提升到了 400K，是 Claude 4 的两倍，虽然还远不如 Gemini 2.5 pro 的 1000K，但对于开发者而言也是极大的喜讯。搜狐简单ai

新增 200K 的上下文长度有多有用呢？OpenAI 没有展示，但至少 128K-256K 范围内，GPT-5 相比内部其它模型有了很大提升。魔剪a i

API 价格上，GPT-5 甚至比 GPT-4o 还便宜，输入价格只有 GPT-4o 的 1/2、o3 pro 的 1/16，输出价格和 GPT-4o 相同且只有 o3 pro 的 1/8。定制分身中国

总结来看，如果只看发布会，第一印象是：完美，但普通。魔剪a i

完美在于，GPT-5 优化了作为大模型产品需要考虑的几乎所有方面：快速、灵活调用、灵活配置、灵活思考、低幻觉率、高安全性、长上下文等。deepsee

普通在于，就发布会展示的案例，其实并不够让人眼前一亮。纳米ai官网入口

写大学物理演示、金融仪表板等前端应用，这些场景大部分编码模型都能做的很好了，博客上也就是展示了Dino Run的视觉美化版。连接 Gmail、Google Calendar 等 MCP 能力来提高记忆能力，也是很多大模型的标配了。而且，GPT-5 主要强调的都是实用层面的特性，不像 GPT-4、Claude 3.5 Sonnet 等突破极限的进展更能给人带来惊喜。百度ai下载

但知危还是抱着好奇去 Cursor 上试了一下（现在就能免费在 Agent 模式中用 GPT-5 ），结果发现：真的太完美了！（至少这一次测评体验的意义上，甚至知危发现自己不需要做很长时间的测评）玻尔学术ai

参考OpenAI对指令遵循能力的介绍，知危给GPT-5提供了非常详细的网页版Excel开发的提示词：open ai官网

请帮我开发一个功能完整的网页版Excel应用，需要实现以下核心功能模块：随变ai下载安装

第一阶段：基础功能（核心优先级）豆包ai赚钱

网格渲染系统百度智能体怎么搭建

实现1000×1000单元格的虚拟渲染定制分身中国

优化滚动性能，确保流畅体验魔剪a i

横坐标（A、B、C等）和纵坐标（1、2、3等）需要与单元格精确对齐ai网站

滚动时坐标轴与内容区域保持同步，无偏移搜狐简单ai

单元格编辑功能runway

双击单元格进入编辑状态，编辑框与原单元格完全重合豆包的使用教程

Enter键保存内容并向下移动到下一个单元格豆包ai赚钱

Tab键保存内容并向右移动到下一个单元格问天ai下载

支持空值和默认值的正确处理边界ai

编辑栏应可编辑，实时显示和修改当前选中单元格的值deepsee

富文本格式工具栏ai获客

实现独立的格式按钮，每个按钮状态基于当前选中单元格的格式属性独立判断：怎么安装豆包

字体大小调整定制分身中国

加粗、斜体、下划线、删除线（按钮状态互相独立）纳米ai官网入口

文本对齐：左对齐、居中、右对齐chartgpt

背景颜色设置chartgpt

一键清除格式功能魔剪a i

UI界面要求deepsee

顶部工具栏包含所有格式设置按钮open ai官网

名称框显示当前选中单元格坐标（如A1、B2）问天ai下载

编辑栏显示并可编辑当前单元格内容玻尔学术ai

整体界面美观，具有现代化设计风格问天ai下载

第二阶段：高级功能（扩展功能）边界ai

行列操作百度智能体怎么搭建

点击行号后，按”=”键在下方插入新行，按”-“键删除当前行ai下载安装

点击列号后，按”=”键在右侧插入新列，按”-“键删除当前列ai下载安装

删除后自动重排坐标编号，保持连续性豆包ai赚钱

添加最小保护机制，避免删除最后一行或列open ai官网

复制粘贴操作边界ai

实现Command/Ctrl+C（复制）、Command/Ctrl+X（剪切）、Command/Ctrl+V（粘贴）快捷键deepsee

支持单元格内容和格式的复制粘贴豆包的使用教程

支持行列的整体复制粘贴操作deepsee

撤销恢复系统边界ai

实现Command/Ctrl+Z（撤销）和Command/Ctrl+Y（恢复）功能deepsee

维护操作历史栈，限制最大100层以控制内存搜狐简单ai

页面刷新时清空操作栈chartgpt

选择功能问天ai下载

支持单元格多选（拖拽选择矩形区域）玻尔学术ai

支持整行、整列选择百度智能体怎么搭建

选中状态的可视化反馈魔剪a i

第三阶段：完善功能（产品化）open ai官网

数据导入导出chartgpt

支持导出为CSV格式文件定制分身中国

支持导出为JSON格式文件搜狐简单ai

确保导出的文件能在Microsoft Excel中正确打开豆包的使用教程

UI美化优化随变ai下载安装

添加滚动动画效果魔剪a i

优化阴影和渐变效果边界ai

提升整体视觉体验和交互流畅度open ai官网

响应式设计，适配不同屏幕尺寸豆包的使用教程

技术要求deepsee

技术栈ai下载安装

使用HTML、CSS、JavaScript实现，确保：deepsee

代码结构清晰，模块化设计问天ai下载

性能优化，特别是大数据量渲染搜狐简单ai

兼容主流浏览器玻尔学术ai

代码风格统一，具有良好的可维护性runway

关键技术点豆包ai赚钱

虚拟滚动技术处理大量单元格open ai官网

事件委托优化性能豆包ai赚钱

状态管理确保数据一致性chartgpt

内存优化，避免内存泄漏百度智能体怎么搭建

错误处理问天ai下载

添加边界情况处理魔剪a i

确保操作的原子性chartgpt

提供用户友好的错误提示边界ai

开发注意事项边界ai

逐步实现：请按阶段顺序实现功能，确保每个阶段功能稳定后再进入下一阶段搜狐简单ai

状态同步：确保UI状态与数据状态始终保持一致百度智能体怎么搭建

性能考虑：重点优化滚动性能和大数据渲染搜狐简单ai

用户体验：所有交互操作应提供即时的视觉反馈魔剪a i

代码质量：保持代码的可读性和可维护性随变ai下载安装

请基于以上需求，生成一个功能完整、性能良好、界面美观的网页版Excel应用。如果在实现过程中遇到复杂问题，请分步骤详细说明解决方案。定制分身中国

Think harder问天ai下载