GLM-4.5V 是怎么炼成的ai获客

行业动态11个月前更新人人都是产品经理

308 0 0

GLM-4.5V 的发布，无疑是这一赛道上的又一里程碑。它不仅在多模态理解和推理上实现了显著提升，更通过其独特的架构设计、精细化的数据构建以及强化学习的应用，展示了强大的性能和广泛的应用潜力。百度智能体怎么搭建

昨晚，GLM-4.5V 发布在开源多模态这一赛道，把桌子掀了百度智能体怎么搭建

「多模态」智谱再次上桌，glm-4.5V 开源搜狐简单ai

实际用起来，也很不错deepsee

比如我问问它：这是哪玻尔学术ai

完全正确！这张就是我在柔佛的上空拍的ai下载安装

ahhhhhhhhhh 他找到了！ai下载安装

原图是这个，反正我一眼没看出来ai网站

下面，我们一起来看看 GLM-4.5V，是如何训练的纳米ai官网入口

划重点：以推理为中心ai获客

[fancyad id=”45″]随变ai下载安装

本文将从性能、架构、预训练和后训练（监督微调+强化学习）四个纬度来拆解，所用图表、数据源于技术报告：《GLM-4.1V-Thinking and GLM-4.5V Technical Report》deepsee

GLM-4.5V 的技术报告ai获客

性能ai下载安装

在多模态理解和推理上，GLM-4.5V 比起之前模型，大幅提升runway

GLM-4.5 对比之前的模型怎么安装豆包

在上图中，GLM-4.5V 于STEM、空间推理、GUI Agent、OCR与文档、代码、视频理解、视觉定位和通用VQA等领域，全面超越了前代模型豆包ai赚钱

GLM-4.5V 的背后，是强化学习（RL）框架ai下载安装

经过强化学习，模型提升不少随变ai下载安装

在RL后，编码（Coding）任务上增益高达 +10.6%，在 STEM 问题上也获得了 +6.7% 的提升玻尔学术ai

下面这个图，则是更全面的对比ai网站

GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..ai下载安装

GLM-4.5V 在 MMStar (75.3)、MMMU Pro(65.2)、MathVista (84.6)、ChartQAPro (64.0) 和 **WebVoyager **(84.4) 等几乎所有高难度任务上，均取得了最佳成绩随变ai下载安装

架构问天ai下载

GLM-4.5V 的架构设计，围绕“原生多模态、高分辨率、强时序理解”三个目标怎么安装豆包

这背后，是视觉编码器 (ViT Encoder)、MLP 投影层 (MLP Projector) 和语言解码器 (LLM Decoder) 三个组件豆包ai赚钱

GLM-4.5V 的架构边界ai

视觉编码器随变ai下载安装

基于 AIMv2-Huge 初始化，通过引入 2D-ROPE 和 3D 卷积，使其能够原生处理任意分辨率的图像和视频，并有效捕捉时序信息随变ai下载安装

语言解码器deepsee

基于 GLM-4.5-Air，通过扩展 3D-RoPE，增强了对多模态输入中空间位置的理解能力豆包的使用教程

原生时序理解ai下载安装

在处理视频时，模型会在每一帧的视觉特征后插入一个时间戳 Token，让模型明确感知到帧与帧之间的真实时间间隔，极大地提升了视频理解和定位的准确性chartgpt

预训练豆包的使用教程

GLM-4.5V 的预训练，分为数据构建和训练范式两部分豆包的使用教程

数据构建chartgpt

GLM-4.5V 的预训练语料，涵盖了多维度数据，包括：搜狐简单ai

图像-文本对数据chartgpt

通过一个包含启发式过滤、CLIP-Score 筛选、概念平衡重采样和事实中心化重述 (Factual-centered recaptioning) 的精细化流程，构建了超过 100 亿对的高质量图文数据豆包的使用教程

每个图像都有更好的重述百度智能体怎么搭建

如上图，重述模型能将“一个北方红雀在唱歌”这种简单描述，丰富为“一只北方红雀栖息在树枝上，背景是晴朗的蓝天”，在保留事实的同时，极大地提升了描述的细节和信息密度。ai下载安装

交错图文数据百度智能体怎么搭建

从网页、学术书籍中提取高质量的图文混排内容，让模型学习复杂的逻辑关系和领域知识deepsee

OCR 数据搜狐简单ai

构建了包含 2.2 亿张图像的 OCR 数据集，涵盖合成文档、自然场景文字和学术文档，全面提升文字识别能力随变ai下载安装

定位数据 (Grounding Data)定制分身中国

构建了包含 4000 万自然图像标注和超过 1.4 亿 GUI 界面问答对的混合定位数据集，赋予模型精确的像素级理解能力百度智能体怎么搭建

视频数据玻尔学术ai

通过精细的人工标注，构建了能够捕捉复杂动作、场景文字和电影元素的高质量视频数据集。ai网站

训练范式：两阶段，长上下文搜狐简单ai

GLM-4.5V 的训练采用两阶段策略：open ai官网

多模态预训练随变ai下载安装

在 8192 的序列长度下，使用除视频外的所有数据进行 12 万步训练纳米ai官网入口

长上下文持续训练百度ai下载：将序列长度扩展至 32,768，并加入视频数据，进行额外的 1 万步训练，使模型具备处理高分辨率图像、长视频和长文档的能力

后训练：SFT 与 RL百度智能体怎么搭建

后训练阶段是 GLM-4.5V 提升推理能力的关键，包含有监督微调 (SFT) 和强化学习 (RL) 两个步骤玻尔学术ai

有监督微调 (SFT)：对齐思维范式runway

SFT 的目的是对齐模型的思维和表达方式，使其学会以“思考链 (Chain-of-Thought)”的形式进行推理定制分身中国

标准格式ai获客

所有训练数据都遵循 <think>{思考过程}</think><answer>{最终答案}</answer> 的标准格式百度ai下载

答案提取定制分身中国：对于需要精确答案的任务，最终答案用特殊的 <|begin_of_box|> 和 <|end_of_box|> 包裹，便于后续 RL 阶段的奖励模型进行准确判断

双模态支持豆包ai赚钱：GLM-4.5V 通过在 SFT 阶段混合“思考”与“非思考”数据，并引入特殊 token /nothink，实现了可灵活切换的两种推理模式，兼顾性能与效率

强化学习 (RL)：释放模型潜能玻尔学术ai

GLM-4.5V 通过大规模、跨领域的强化学习，来提升推理能力纳米ai官网入口

RLCS 课程学习采样玻尔学术ai

为了提升训练效率，团队提出了 Reinforcement Learning with Curriculum Sampling (RLCS)该策略能根据模型的当前能力，动态地选择“难度适中”的训练样本，避免在过易或过难的问题上浪费算力，从而最大化每一步训练的收益。随变ai下载安装

健壮的奖励系统边界ai

RL 的成败很大程度上取决于奖励信号的质量。GLM-4.5V 建立了一个领域特定的奖励系统，为数学、OCR、GUI 等不同任务设计了专门的验证逻辑，避免了“奖励黑客 (Reward Hacking)”现象runway

奖励信号对模型训练的影响随变ai下载安装

如上图所示，即使在 STEM 领域有高质量的奖励信号，但只要在多图 VQA 任务中存在一个有缺陷的奖励模型，就会导致整个训练过程在 150 步后全面崩溃边界ai

这说明，任何一个短板，都可能成为溃堤蚁穴，对于 RL 训练来说豆包ai赚钱

跨域泛化与协同RL 不仅提升了模型在特定领域的能力，还带来了显著的跨域泛化效果边界ai

RL 的训练，带来的不同领域的影响玻尔学术ai

如上图：在单一领域进行 RL 训练，能提升其他领域的能力ai获客

例如，仅在 GUI Agent 数据上训练，就能带动 STEM、OCR、视觉定位和通用 VQA 的性能提升open ai官网

这说明不同多模态能力之间存在共享的底层逻辑而将所有领域数据混合训练（Mix All），则能在大多数领域取得比单领域训练更强的效果，实现了“1+1 > 2”的协同增效玻尔学术ai

以上问天ai下载

GLM-4.5V 的训练，包含以下deepsee

架构：原生支持高分辨率、长视频和时序理解
预训练：精细化的数据构建和两阶段训练
SFT：将模型与“思考链”的推理范式对齐，为 RL 阶段做好了准备
RL：通过 RLCS、健壮的奖励系统和跨域训练

以及…蹲后续：GLM-4.5V-355B玻尔学术ai

作者【赛博禅心】，微信公众号：【赛博禅心】定制分身中国

# 行业动态豆包ai赚钱

文章版权归作者所有，未经允许请勿转载。随变ai下载安装

AI引爆全球失业潮，美国大学生毕业即失业！全球大厂联手裁员上万边界ai

人人都是产品经理定制分身中国

386

26岁获腾讯投资：这个“反孤独”AI产品如何改变AI陪伴赛道魔剪a i

人人都是产品经理open ai官网

245

AI简历优化师：如何靠AI帮人改简历，单份收费99怎么安装豆包

人人都是产品经理玻尔学术ai

378

2年就过气！ChatGPT催生的百万年薪岗位，大厂不愿意招了豆包的使用教程

人人都是产品经理纳米ai官网入口

502

OpenAI的新论文，为什么被业内嘲讽是营销？chartgpt

人人都是产品经理deepsee

254

阿里Qwen3能否成为下一个DeepSeek？ai下载安装