GLM-4.5V 是怎么炼成的chartgpt

GLM-4.5V 的发布,无疑是这一赛道上的又一里程碑。它不仅在多模态理解和推理上实现了显著提升,更通过其独特的架构设计、精细化的数据构建以及强化学习的应用,展示了强大的性能和广泛的应用潜力。怎么安装豆包

GLM-4.5V 是怎么炼成的

昨晚,GLM-4.5V 发布在开源多模态这一赛道,把桌子掀了chartgpt

「多模态」智谱再次上桌,glm-4.5V 开源runway

实际用起来,也很不错怎么安装豆包

比如我问问它:这是哪玻尔学术ai

GLM-4.5V 是怎么炼成的

完全正确!这张就是我在柔佛的上空拍的边界ai

GLM-4.5V 是怎么炼成的

ahhhhhhhhhh 他找到了!怎么安装豆包

原图是这个,反正我一眼没看出来纳米ai官网入口

下面,我们一起来看看 GLM-4.5V,是如何训练的玻尔学术ai

划重点:以推理为中心随变ai下载安装

[fancyad id=”45″]deepsee

本文将从性能、架构、预训练和后训练(监督微调+强化学习)四个纬度来拆解,所用图表、数据源于技术报告:《GLM-4.1V-Thinking and GLM-4.5V Technical Report》边界ai

GLM-4.5V 是怎么炼成的

GLM-4.5V 的技术报告ai网站

性能豆包的使用教程

在多模态理解和推理上,GLM-4.5V 比起之前模型,大幅提升搜狐简单ai

GLM-4.5V 是怎么炼成的

GLM-4.5 对比 之前的模型deepsee

在上图中,GLM-4.5V 于STEM、空间推理、GUI Agent、OCR与文档、代码、视频理解、视觉定位和通用VQA等领域,全面超越了前代模型runway

GLM-4.5V 的背后,是强化学习(RL)框架deepsee

GLM-4.5V 是怎么炼成的

经过强化学习,模型提升不少deepsee

在RL后,编码(Coding)任务上增益高达 +10.6%,在 STEM 问题上也获得了 +6.7% 的提升搜狐简单ai

下面这个图,则是更全面的对比runway

GLM-4.5V 是怎么炼成的

GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..怎么安装豆包

GLM-4.5V 在 MMStar (75.3)、MMMU Pro(65.2)、MathVista (84.6)、ChartQAPro (64.0) 和 **WebVoyager **(84.4) 等几乎所有高难度任务上,均取得了最佳成绩玻尔学术ai

架构豆包的使用教程

GLM-4.5V 的架构设计,围绕“原生多模态、高分辨率、强时序理解”三个目标边界ai

这背后,是 视觉编码器 (ViT Encoder)、MLP 投影层 (MLP Projector) 和 语言解码器 (LLM Decoder) 三个组件ai获客

GLM-4.5V 是怎么炼成的

GLM-4.5V 的架构runway

视觉编码器chartgpt

基于 AIMv2-Huge 初始化,通过引入 2D-ROPE 和 3D 卷积,使其能够原生处理任意分辨率的图像和视频,并有效捕捉时序信息豆包的使用教程

语言解码器玻尔学术ai

基于 GLM-4.5-Air,通过扩展 3D-RoPE,增强了对多模态输入中空间位置的理解能力豆包ai赚钱

原生时序理解搜狐简单ai

在处理视频时,模型会在每一帧的视觉特征后插入一个时间戳 Token,让模型明确感知到帧与帧之间的真实时间间隔,极大地提升了视频理解和定位的准确性纳米ai官网入口

预训练runway

GLM-4.5V 的预训练,分为数据构建和训练范式两部分定制分身中国

数据构建魔剪a i

GLM-4.5V 的预训练语料,涵盖了多维度数据,包括:runway

图像-文本对数据百度智能体怎么搭建

通过一个包含启发式过滤、CLIP-Score 筛选、概念平衡重采样和事实中心化重述 (Factual-centered recaptioning) 的精细化流程,构建了超过 100 亿对的高质量图文数据deepsee

GLM-4.5V 是怎么炼成的

每个图像都有更好的重述随变ai下载安装

如上图,重述模型能将“一个北方红雀在唱歌”这种简单描述,丰富为“一只北方红雀栖息在树枝上,背景是晴朗的蓝天”,在保留事实的同时,极大地提升了描述的细节和信息密度。chartgpt

交错图文数据问天ai下载

从网页、学术书籍中提取高质量的图文混排内容,让模型学习复杂的逻辑关系和领域知识定制分身中国

OCR 数据ai下载安装

构建了包含 2.2 亿张图像的 OCR 数据集,涵盖合成文档、自然场景文字和学术文档,全面提升文字识别能力豆包的使用教程

定位数据 (Grounding Data)豆包ai赚钱

构建了包含 4000 万自然图像标注和超过 1.4 亿 GUI 界面问答对的混合定位数据集,赋予模型精确的像素级理解能力魔剪a i

视频数据豆包ai赚钱

通过精细的人工标注,构建了能够捕捉复杂动作、场景文字和电影元素的高质量视频数据集。纳米ai官网入口

训练范式:两阶段,长上下文边界ai

GLM-4.5V 的训练采用两阶段策略:纳米ai官网入口

多模态预训练魔剪a i

在 8192 的序列长度下,使用除视频外的所有数据进行 12 万步训练runway

长上下文持续训练定制分身中国:将序列长度扩展至 32,768,并加入视频数据,进行额外的 1 万步训练,使模型具备处理高分辨率图像、长视频和长文档的能力

后训练:SFT 与 RL百度ai下载

后训练阶段是 GLM-4.5V 提升推理能力的关键,包含有监督微调 (SFT) 和强化学习 (RL) 两个步骤定制分身中国

有监督微调 (SFT):对齐思维范式玻尔学术ai

SFT 的目的是对齐模型的思维和表达方式,使其学会以“思考链 (Chain-of-Thought)”的形式进行推理问天ai下载

标准格式随变ai下载安装

所有训练数据都遵循 <think>{思考过程}</think><answer>{最终答案}</answer> 的标准格式ai下载安装

答案提取搜狐简单ai:对于需要精确答案的任务,最终答案用特殊的 <|begin_of_box|> 和 <|end_of_box|> 包裹,便于后续 RL 阶段的奖励模型进行准确判断

双模态支持纳米ai官网入口:GLM-4.5V 通过在 SFT 阶段混合“思考”与“非思考”数据,并引入特殊 token /nothink,实现了可灵活切换的两种推理模式,兼顾性能与效率

强化学习 (RL):释放模型潜能ai下载安装

GLM-4.5V 通过大规模、跨领域的强化学习,来提升推理能力chartgpt

RLCS 课程学习采样ai获客

为了提升训练效率,团队提出了 Reinforcement Learning with Curriculum Sampling (RLCS)该策略能根据模型的当前能力,动态地选择“难度适中”的训练样本,避免在过易或过难的问题上浪费算力,从而最大化每一步训练的收益。魔剪a i

健壮的奖励系统豆包ai赚钱

RL 的成败很大程度上取决于奖励信号的质量。GLM-4.5V 建立了一个领域特定的奖励系统,为数学、OCR、GUI 等不同任务设计了专门的验证逻辑,避免了“奖励黑客 (Reward Hacking)”现象怎么安装豆包

GLM-4.5V 是怎么炼成的

奖励信号对模型训练的影响纳米ai官网入口

如上图所示,即使在 STEM 领域有高质量的奖励信号,但只要在多图 VQA 任务中存在一个有缺陷的奖励模型,就会导致整个训练过程在 150 步后全面崩溃runway

这说明,任何一个短板,都可能成为溃堤蚁穴,对于 RL 训练来说chartgpt

跨域泛化与协同RL 不仅提升了模型在特定领域的能力,还带来了显著的跨域泛化效果豆包的使用教程

GLM-4.5V 是怎么炼成的

RL 的训练,带来的不同领域的影响豆包的使用教程

如上图:在单一领域进行 RL 训练,能提升其他领域的能力定制分身中国

例如,仅在 GUI Agent 数据上训练,就能带动 STEM、OCR、视觉定位和通用 VQA 的性能提升百度智能体怎么搭建

这说明不同多模态能力之间存在共享的底层逻辑而将所有领域数据混合训练(Mix All),则能在大多数领域取得比单领域训练更强的效果,实现了“1+1 > 2”的协同增效问天ai下载

以上搜狐简单ai

GLM-4.5V 的训练,包含以下纳米ai官网入口

  • 架构:原生支持高分辨率、长视频和时序理解
  • 预训练:精细化的数据构建和两阶段训练
  • SFT:将模型与“思考链”的推理范式对齐,为 RL 阶段做好了准备
  • RL:通过 RLCS、健壮的奖励系统和跨域训练

以及…蹲后续:GLM-4.5V-355B问天ai下载

作者【赛博禅心】,微信公众号:【赛博禅心】百度ai下载

© 版权声明

相关文章