实测完主流大模型编程与Agent能力，我发现了。。。魔剪a i

420 0 0

今天，苍何将通过一系列实测案例，带你深入了解这些主流大模型在实际应用中的表现。从可视化欧拉恒等式到设计带有动画效果的天气卡片，从创建《木兰辞》的动态页面到电商产品详情页管理工具的开发，这些测试将全方位展示各模型的能力。你将看到它们在代码质量、UI设计、多模态分析等方面的优劣。随变ai下载安装

不瞒你说，这是一篇拖了一个多月的文章。runway

那个时候，大模型纷纷狂发，GPT5、Claude4、Gemini2.5 Pro、Kimi K2，doubao 1.6 、Qwen 3、GLM 4.5 等陆续出来。问天ai下载

除此之外，vibe coding 工具也是一路狂飙，先不说 Cursor、Trae 吧，后来追上的 Claude Code 火了后，AI CLI 工具也疯狂连发。问天ai下载

腾讯、字节、阿里等大厂疯狂更新自家大模型和 AI 编程工具。边界ai

但对很多人来说，真的有点学不过来了，这其中就包括我。玻尔学术ai

特别是涉及 code 能力、 Agent 能力、多模态能力，到底哪个大模型好，目前我们的差距在哪儿？优势在哪儿？魔剪a i

于是大概一个多月前，我就整理测了主流模型的能力表现。（截图部分）chartgpt

从这些测评 case，对大模型的拷打，多少能得到一些我们想要的答案。边界ai

但一直没有好好发出来，是因为这一个多月来，太多要详测的东西了。chartgpt

今天终于有时间能发出来了，但由于文章篇幅限制问题，这一篇就先对比下 doubao 1.6、 Kimi K2、Claude Sonnet 4、Gemini 2.5 Pro、Qwen 3。open ai官网

保命申明：部分 case 及灵感灵感来源网络，如有侵权，请联系作者。其中豆包大模型 1.6 是基于火山方舟测试。搜狐简单ai

可视化欧拉恒等式纳米ai官网入口

首先，我给各模型出了个不算太难但很能体现功底的题目：可视化欧拉恒等式创建一个交互式工具来可视化欧拉恒等式chartgpt

这是 Kimi K2 效果：定制分身中国

这是豆包 APP 效果：百度智能体怎么搭建

Gemini 2.5 Pro 效果如下：百度智能体怎么搭建

Claude Sonnet 4 出来的效果：ai网站

试了 Qwen 3-Coder，是这个效果：百度智能体怎么搭建

结论：整体效果大差不差，豆包大模型1.6等国内模型和 Claude 展现出的效果接近，但前端美观度上，Claude 在这个 case 里面保持了些许领先吧。runway

带有动画效果的天气卡片deepsee

再来看个不算太难但很能体现设计功底的题目：带有动画效果的天气卡片随变ai下载安装

你是 Apple Inc 的 UI 设计师，以 iOS 18 的设计风格做一个带有动画效果的天气卡片，要求是使用 HTML、CSS 和基础 JavaScript，使用横板天气页面（拥有 4 个天气卡片 (晴天，大风，暴雨，暴雪))。应足够美观，实现一定的交互效果。deepsee

先看下豆包大模型1.6的效果：随变ai下载安装

然后是 Kimi K2：纳米ai官网入口

看下 Gemini 2.5 pro 的效果：怎么安装豆包

这是 Claude 4 效果：问天ai下载

最后看下 Qwen 3 出来的效果：随变ai下载安装

结论：这一轮中 Kimi K2 稍微有点不及预期，但 Qwen 3 和 doubao 1.6 表现不错，甚至比 Gemini 2.5 pro 稍微好些。豆包ai赚钱

为了方便对比，我还特意做了豆包大模型 1.6 和 Gemini 2.5 pro 同框：ai下载安装

Gemini2.5 Pro 生成的结果功能上没问题，但整体设计偏保守，动画效果简单，交互反馈不够细腻。晴天卡片上的太阳就像个静止的emoji，大风卡片的云朵动效卡顿得像PPT翻页。ai获客

豆包大模型1.6完美复刻了 iOS 18 的毛玻璃效果，连高斯模糊参数都调得和官网一致，看来豆包大模型1.6 在 UI 设计细节处理上确实下了一番功夫！open ai官网

设计 breakout 游戏ai获客

再来看个经典的游戏场景：设计 breakout 游戏怎么安装豆包

创建一个简单的breakout游戏作为单个html页面。搜狐简单ai

先看下豆包大模型1.6 效果：问天ai下载

接下来是 Kimi K2 效果：open ai官网

Gemini2.5 Pro 效果如下：百度智能体怎么搭建

Claude 效果如下：边界ai

Qwen3 出来的效果：百度智能体怎么搭建

结论：这一轮国产模型胜过 Claude 和 Gemini 2.5 Pro，无论是效果还是真实可玩性上，相对来说，豆包大模型 1.6 和 Qwen 3 效果最好。open ai官网

《木兰辞》的动态页面runway

接下来是一个有意思的 case：《木兰辞》的动态页面边界ai

帮我创建一个竖排展示《木兰辞》的动态页面，页面整体采用深色背景，文字为白色或浅色，字体简洁，适合长时间阅读。具体要求如下：问天ai下载

1、清除掉原诗文的格式，只保留标点。所有文字竖向排列，也即使垂直方向从上到下排列。2、整体为白色文字，背景色为纯黑色，字体为宋体。页面的 Padding 为10px。根据展示效果自动调整好大小。ai下载安装

3、风格简约高级。搜狐简单ai

4、屏幕最右侧第一列垂直展示诗文标题，标题字号比正文大 5 px。open ai官网

5、从右侧第二列开始，依次继续垂直自上而下逐字展示诗词内容。每一竖列排满后，朝该列左侧方向换下一列就像展示。以此类推。魔剪a i

6、每一列文字只有当距离底部 Padding 为 20px 时，才需要起新的一列。但注意，不要让标点打头。ai网站

7、每列文字左侧都有竖向的细白色分割线。纳米ai官网入口

豆包 APP 效果如下：问天ai下载

Kimi K2 效果如下：ai网站

Gemini2.5 Pro 效果：问天ai下载

Claude 4 效果：定制分身中国

Qwen 3 效果：搜狐简单ai

结论：这个 case，表现最好的当属豆包 APP，无论是文字效果还是底部 Padding 都不错，Kimi K2 和 Claude 4 勉强也过得去，但 Qwen 3 和 Gemini 2.5 Pro 就有点抽象了，Gemini 2.5 Pro 直接出不来效果，Qwen 3 没遵循我的要求。定制分身中国

六边形弹力小球测试runway

六边形弹力小球测试属于测试模型能力的经典 Case，我们看看各家模型能力如何。提示词：runway

编写一个 Python 程序，使用 Pymunk 和 Pygame 模拟以下场景：一个正六边形围绕其中心点以恒定角速度缓慢旋转，六边形的六条边作为刚体墙壁，内部有一个小球。小球受重力、摩擦力和弹力的影响，在六边形内部弹跳。中心点位置保持不变，模拟小球的弹跳运动轨迹，并显示动画效果。确保物理模拟真实，包含碰撞检测和适当的物理参数（如摩擦系数、弹性系数）。代码需包含详细注释，说明每个部分的功能。open ai官网

这个测试相当有难度，需要精确的物理计算和碰撞检测。魔剪a i

来看看 Kimi K2 出来的：chartgpt

Claude4 的效果如下：runway

另外我同时对比了下用豆包大模型 1.6 和 Minimax agent 做出来的效果：边界ai

结论：部分模型无法直出效果，Claude4、豆包大模型 1.6碰撞检测精准，没有出现穿透边界的情况，且六边形旋转与小球运动完全同步。百度智能体怎么搭建

电商产品详情页管理工具边界ai

下面来看个实际编程 case，做电商产品详情页管理工具，提示词如下：runway

从零开始实现一个web电商产品详情页管理工具，包括图片预览、SKU选择、动态定价和性能优化豆包的使用教程

1、强调超大字体或数字突出核心要点，画面中有超大视觉元素强调重点，与小元素的比例形成反差deepsee

2、中英文混用，中文大字体粗体，英文小字作为点缀怎么安装豆包

3、简洁的勾线图形化作为数据可视化或者配图元素搜狐简单ai

4、运用高亮色自身透明度渐变制造科技感，但是不同高亮色不要互相渐变魔剪a i

5、模仿 apple 官网的动效，向下滚动鼠标配合动效ai获客

6、数据可以引用在线的图表组件，样式需要跟主题一致ai获客

7、使用 Framer Motion （通过CDN引入）问天ai下载

8、使用HTML5、TailwindCSS 3.0+（通过CDN引入）和必要的JavaScript玻尔学术ai

9、使用专业图标库如Font Awesome或Material Icons（通过CDN引入）问天ai下载

先看下豆包 APP 效果：百度ai下载

Kimi K2 效果：chartgpt

Gemini 2.5 pro 效果：ai网站

Claude 4 效果：魔剪a i

结论：这个 case 明显可以看到豆包大模型 1.6 的表现有点突出，Claude 4 也还不错，我还把豆包大模型 1.6 和 Kimi 做下下对比放在一起，效果感受一下：搜狐简单ai

迷宫可视化工具runway

下面来 PK 一下迷宫生成与路径查找，这个 case 可以说能很好的考察模型的编程和 agent 能力。提示词如下：runway

创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫，并逐步可视化 A* 算法的求解过程。使用画布和动画，使其具有视觉吸引力。玻尔学术ai

同样，先来看看豆包大模型 1.6 生成的效果：随变ai下载安装

再来看看 Kimi K2：玻尔学术ai

Gemini 2.5 pro 效果：纳米ai官网入口

Claude 4 效果：ai获客

Qwen 3 效果：怎么安装豆包

结论：整体都完成了任务，但从迷宫设计落错上，豆包大模型 1.6 和 Kimi K2 效果表现更好，动画效果更流畅，甚至在ai网站

– 墙壁碰撞时有轻微的震动反馈。问天ai下载

我也单独把 Qwen 3 和豆包大模型 1.6 拿出来对比了下，就这个 case 来说，豆包大模型 1.6 效果更好一些。魔剪a i

CSV文件分析并做图表ai网站

提取 CSV 文件信息分析后做图表能力，我分别测了各大模型，目前感受下来，差距不大。豆包的使用教程

分析一份CSV文件中的销售数据，计算总收入并生成图表。边界ai

这是豆包大模型 1.6 的结果：怎么安装豆包

这是 Kimi K2 效果：ai获客

Gemini 2.5 pro：搜狐简单ai

其余几个模型基本效果类似，就不一一截图了。chartgpt

图片识别-逻辑计算搜狐简单ai

这个 case 主要考察大模型的多模态理解以及逻辑计算能力，提示词如下：搜狐简单ai

从图片中获取商品的价格，再分别计算后相加怎么安装豆包

这个是素材图片：纳米ai官网入口

测试图片中包含：豆包的使用教程

主图：商品特写，每个商品都有价格
图片中商品的价格分别为：进口香蕉600g/份¥6.98、灵芝盆栽1束/份¥19.9、千禧小西红柿500g/盒¥6.98、洪湖小龙虾¥8.9。将这些价格相加可得：6.98+19.9+6.98+8.9=42.76元。

这里识别效果最好的是豆包大模型 1.6，它额外指出了：额外指出：”注意图片右下角有领劵活动，建议用户凑单更划算”百度智能体怎么搭建

视频识别-动作评分玻尔学术ai

给一个猫咪跳水运动的视频，给到不同模型，发现在火山上体验的豆包大模型 1.6 支持视频解析。chartgpt

可以看到回复中能理解视频并做分析。随变ai下载安装

而 Kimi、Claude 4 暂时还不支持该能力：百度ai下载

目前测下来，豆包大模型 1.6 和 Gemini 2.5 pro 在这块上不分伯仲。豆包的使用教程

特别值得一提的是，豆包大模型 1.6 原生就支持定位能力，效果非常给力。随变ai下载安装

说到多模态这块，大家还记得豆包Seedream 4.0，效果相当炸裂。ai网站

总结怎么安装豆包

由于篇幅有限，只能提供比较明显的对比；实则我测试过好多横向对比。怎么安装豆包

可以看到，就编码和 Agent 能力，真的不是 Claude 一家独大，我们测试了非常多的 case，表明，像豆包大模型1.6、Kimi、Qwen 3 表现都还不错，有时候甚至超过了 Claude 4.问天ai下载

而对于多模态能力，Claude 4 更不值一提，豆包大模型 1.6 的多模态能力测下来效果是最好的。搜狐简单ai

所以，Claude，是什么让你如此猖狂？视我们为敌对，一直封禁？魔剪a i

经过这一轮细节控大比拼，我发现一个有趣的现象：虽然市面上有很多优秀的 AI 大模型，但在某些特定领域，豆包大模型 1.6 的表现确实令人印象深刻：问天ai下载

● UI设计能力：豆包大模型 1.6 对视觉细节的把握堪称一绝，连阴影参数都调得恰到好处玻尔学术ai

● 代码质量：结构清晰、注释详尽，物理参数设置合理随变ai下载安装

● 工具集成：原生支持MCP协议，与外部工具协同工作更加顺畅玻尔学术ai

● 多模态分析：不仅能识别内容，还能提供专业级深度分析百度ai下载

当然，其他模型也各有所长：Kimi K2在文本处理上更胜一筹，Claude Sonnet 4.5的逻辑推理能力突出，Gemini2.5 Pro的创意写作能力非凡，Minimax在特定领域知识丰富，Qwen3-Coder的代码生成效率惊人。ai下载安装

几个月后，我相信，模型能力又将会有天翻地覆变化。随变ai下载安装

让我们好好见证下这个时代吧。随变ai下载安装

chartgpt

作者【苍何】，微信公众号：【苍何】怎么安装豆包

# 行业动态ai网站

文章版权归作者所有，未经允许请勿转载。边界ai

GenAI时代广告应该是怎么样的？2500万美元退出后再创业，这位连续创业者如何用AI广告再造独角兽？豆包ai赚钱

人人都是产品经理怎么安装豆包

323

“无限量”供应Claude，就是AI IDE们的百亿补贴问天ai下载

人人都是产品经理问天ai下载

389

顶级VC BVP最新判断：软件3.0时代来了，这5个才是AI编程的最大机会随变ai下载安装

人人都是产品经理定制分身中国

377

AI这趟车普通人搭不上，你能做的仅仅是不被淘汰而已。怎么安装豆包

人人都是产品经理豆包的使用教程

276

太抽象了，文章被NotebookLM变成播客ai获客

人人都是产品经理纳米ai官网入口

427

聊聊Nano-Banana背后的谷歌，到底在下一盘什么大棋ai获客

人人都是产品经理百度智能体怎么搭建

312