MiniMax 海螺视频团队不藏了!
初次开源就揭晓了一个困扰行业已久的问题的谜底——
为什么往第一阶段的视觉分词器里砸再多算力,也无法擢升第二阶段的生成终局?

翻译成大口语即是,诚然图像 / 视频生成模子的参数越作念越大、算力越堆越猛,但用户实验体验下来总有一种奥妙的感受——这些高大的干与与产出似乎不成正比,模子离十足的确可用老是差一段距离。
So why?问题,大要率就出在视觉分词器(Tokenizer)这个东西身上了。
当算力不再是谜底时,的确需要被再行凝视的,其实是生成模子的"发轫"。
在现时主流的两阶段生成框架中(分词器 + 生成模子),业界依然在视觉分词器的预老师上干与了大宗算力与数据,但一个窘态的事实是:
这些资本,简直莫得线性地蜕变为生成质料的擢升。
而 MiniMax 海螺视频团队,不啻挑战了这一现实——用实考据明" Tokenizer 的 scaling 能够擢升模子性能"。
更关键的是,还带来了一款开箱即用、专为"下一代生成模子"打造的可彭胀视觉分词器预老师框架—— Visual Tokenizer Pre-training(以下简称 VTP)。
只需换上这个视觉分词器,即可在不改变下流主模子(如 DiT)任何老师设置的情况下,终了端到端生成性能的倍数级擢升。
底下防御来看——
传统 Tokenizer 的舛误:更好的重建≠更好的生成
要显露 VTP 存在的赞佩,率先咱们需要回到更基础的问题上——
Tokenizer 是什么?它又为如何此关键?
以 AI 生图为例,现时主流的生图模子简直清一色接管了"两阶段"生成框架:
第一阶段(压缩):使用视觉 Tokenizer(如 VAE)这个组件,将原始图像压缩并映射到一个潜在空间(latent space)中;
第二阶段(收复生成):再由以扩散模子为中枢的生成器(如 DiT),在这个潜在空间中学习散布,并逐步收复、生成最终图像。
用一张图来描摹这个过程 be like(先压缩后收复):

而 Tokenizer,即是在第一阶段中负责压缩图片信息的组件。
淌若莫得这个组件,扩散模子就得平直在数百万像素构成的原始像素空间中进行"去噪"和生成——其臆测复杂度和内存支拨将是天文数字。
因此,Tokenizer 称得上是让模子能够在耗尽级显卡上运行起来的"关键元勋"。
除此除外,Tokenize 过程所得的低维潜在表征,其质料平直决定了最毕生成图像的语义保真度、细节丰富度以及合座真实性,是以业界也广大合计——
从某种进程上来说,Tokenize 简直决定了后续生成模子的上限。
基于此,东谈主们在酌量如何擢升下流生成模子的质料时,也异曲同工地将重点放在了"如何精确复刻原始像素"上,即条目模子将压缩后的潜在特征(latent)尽可能精确地收复为原始图像。

而问题,也正出在这里。
传统 Tokenizer 在追求"像素级重建"时,时时会过度千里迷于捕捉图像的局部纹理、噪点等低层信息,从而忽视了生成任务的确依赖的高层语义与合座结构。
这就像学渣为了应付锻练,只想着死记硬背各式试题,却十足不睬解题目背后的知识点与逻辑结构。终局的确到了需要举一反三、处治新问题的技艺,一下就傻眼了。
在论文中,海螺视频团队将这一气候界说为"预老师缩放问题"(Pre-training Scaling Problem):
更好的像素级重建精度并不行带来更高质料的生成终局。
如图所示,传统仅基于"重建"办法老师的 Tokenizer(灰线),跟着算力干与加多,模子的生成性能不仅莫得擢升,反而逐步趋于有余以致稍稍下落。(ps:gFID 估量生成质料,越小越好)

由此,论文得出第一个关键发现:重建作念得越好,生成反而可能越差。换言之,传统 VAE 所依赖的纯重建老师范式,在面向生成任务时存在根人道局限。
那么,VTP 是如何破局的呢?
VTP 破局之谈:从像素级重建到强调"显露力"的遑急性
事实上,VTP 并非横空出世,而是海螺视频团队在长久实行中反复试错与默契迭代的居品。
一些早期探索:从易学性到通用表征学习
在早期使命 VA-VAE 中,团队矜重到:
有些"压缩后的特征"能让后续的扩散模子学得又快又好,而另一些则不行。
基于此,他们淡薄了"易学性"这一见解——即不同的潜在表征(latents)关于下流生成模子的学习难度天渊之别,并生机通过优化 latent 的某些"友好特质"(如均匀性、频域散布等)来转折改善生成终局。
然而实行发现,这些步调虽有一定终局,却未波及内容。按团队我方的话来说即是:
尝试将易学性等价为可精确臆测的单一方针(举例频域散布、均匀性、scale 不变性、低秩效应等等)有些过于渴望了,这些方针可能和易学性有一定关联,但远不是沿路。
即是说,当优化办法被戒指在少数可测量方针上时,模子时时只是学会了在特定方针上"刷分",而莫得从根底上学会显露图像的结构与语义(内容上仍未脱离"重建"鸿沟)。

在 VA-VAE 中,团队曾尝试将易学性对应到 latent 散布的"均匀性"
而经过继续反想,团队逐步意志到 VA-VAE 和自后的许多尝试,其深层办法并非只是是优化几个方针,而是在试图让 latents 具备某些更高档的"结构"。其背后逻辑在于:
假如某种 latents 关于图像中的实体、位置关联具有高度结构化的抒发,那么这种结构化抒发关于下流 diffusion 建模来说也会更浮松、更容易,这些方面的生成终局也当然会更好。
这就好比另一种层面上的"正途至简"——当模子的确掌抓了物体、关联与语义这些视觉天下的内容限定时,它能支吾的任务当然也就越多了(以不变应万变)。

因此,与其为"易学性"想象脆弱的代理方针,不如平直让 Tokenizer 去学习东谈主类视觉系统自己所依赖的那种高度结构化、语义化的通用表征。
毕竟像 CLIP、DINOv2 这么的当代通用表征学习步调,恰是在大规模数据上自动化地学习了这种"东谈主类对王人"的视觉抒发,才在多种下流任务中进展出强盛的泛化才智。
至此,团队的酌量要点认真从"像素级重建"转向了强调显露力的"通用表征学习"。
VTP:讲求"压缩即智能"内容
基于这一默契调度,VTP 的想象原则变得荒谬澄莹。团队示意:
咱们应该交融悉数已知有用的表征学习步调来构建一个 Tokenizer。

具体而言,VTP 这次率先终明晰从只练"重建"到"显露、重建、生成"的鸠集优化。
一是通过图文对比学习,建设高层语义显露。
在老师时,团队会给模子看大宗图像 - 文本配对数据(如"一只猫在沙发上"与对应图片),然后条目图片的特征向量和翰墨的特征向量尽可能接近。
这和之前的 CLIP 想路持之以恒,但办法更聚焦。CLIP 追求的是广义的图文匹配才智,而 VTP 则条目 Tokenizer 在压缩图像为紧凑的潜在编码时,必须保留与文本对王人的语义结构。
这意味着,生成模子后续接管到的每一个潜在示意,自己就依然是"有语义的"——它不只是一堆像素的压缩,而是佩戴了"猫"、"沙发"等见解偏执关联的结构化抒发。和以往比较,"语义注入"被提前到了压缩阶段。
二是通过自监督学习,掌抓空间结构与视觉知识。
在 VTP 框架中,自监督学习模块通过联接掩码图像建模(MIM) 和自蒸馏(DINO 格调),"迫使"模子去显露图片的空间关联和物体结构。
这个过程会"逼着" Tokenizer 来复兴不同问题:
通过自蒸馏复兴:抛开具体的像素细节,这张图片最中枢的视觉主题或见解是什么?(全局语义)
通过 MIM 复兴:凭据你看到的"冰山一角",你能推断出悉数这个词"冰山"的花样和结构吗?(结构推理)
二者协同复兴:为了识别图片主题或从局部重建合座,哪些视觉印迹是决定性、不可缺失的?(聚焦中枢)
这一套经过走下来,模子对图像的显露便不再停留在像素层面,而是构建起了结构化的视觉默契。
三是通过重建,保留必要的底层视觉细节。
VTP 依然保留了重建办法,但它的定位发生了变化——其作用不再是"越准越好",而是确保潜在空间中仍然保有生成所需的纹理、热诚与角落等细节信息。
这三严惩法并非孤单进行,而是通过一个结伴的多任务亏蚀函数进行鸠集优化:

最终,VTP 赢得的不是一个在某个方针上"越过优秀"的压缩器,而是一个自带显露才智、对生成模子相当友好的视觉 Tokenizer。
这里也补充一个细节:为什么他们不像许多使命一样平直使用现存的 CLIP 或 DINOv2 手脚 Tokenizer,而非要干与巨大算力从新预老师一个?
其中枢想考在于两点(团队原话如下):
表征简直很遑急,咱们想要作念到很极致。在咱们的视角下表征包含了自监督、对比学习、以致是重建(这些只是已知比较老到的步调,实验上渴望的表征远不啻这些),市面上莫得一个能够很好地融汇这些步调的模子,咱们需要我方老师一个。
基于表征的 Tokenizer 有策动具备 scaling 的后劲,预老师是最合理的终了姿色。淌若平直欺诈已有模子蒸馏或者移动,会因为 setting 过于复杂而龙套 scaling 的性质,也会受限于已有的模子规格而无法作念充分的论证。
是以,聘用"从新初始"的 VTP,其实验进展究竟如何呢?
初次展示了 Tokenizer 的 Scaling Law
概述而言,团队通过 VTP 得出了两大关键发现:
显露力是驱动生成的关键身分
视觉 Tokenizer 也具备明确的 Scaling Law
先说第少许。
VTP 用实考据明,淌若只作念重建的话,干与资源越多生成反而可能越差。
下图中,代表重建才智的 rFID 从 2.0 降至 0.5,重建终局变好;但代表生成才智的 gFID 从 55.04 升至 58.56,生成终局变差。

而一朝注入"显露力"(即引入 CLIP 图文对比 /SSL 自监督任务),模子的生成质料(gFID)会跟着显露才智(Linear Probe)的擢升而同步变好——
二者呈现较着的正关联,且这种擢升会跟着老师臆测量加多继续激动。比较之下,短缺"显露力"的传统 AE Only 有策动,其生成质料和显露才智很快堕入停滞。

更进一步,团队在同等算力下对比了不同组合,阐述" CLIP+SSL+AE "的鸠集老师姿色上限最高,生成与显露方针均最优。

基于此,团队老师的 VTP 在显露、重建、生成方面均交出了可以的答卷——
在 ImageNet 上的零样分内类准确率达到78.2%,向上了原版 CLIP 的 75.5%,依然具备强通用视觉显露才智;在重建才智上向上了 Stable Diffusion 的 VAE, rFID 低至0.36;在生成才智上向上了此前的校正步调 VA-VAE,gFID 低至2.81。

更关键的是,在达到调换生成质料的前提下,VTP 的老师管理速率比 LDM 快 5.7 倍、比 VA-VAE 快 4.1 倍,大幅缩小了老师资本。

这一系列进展共同印证了团队的判断:Tokenizer 的"语义显露力"而非单纯的像素重建精度,才是驱动生成性能与遵循擢升的中枢能源。
再说第二点,亦然更具冲突性的少许。
团队在实验中发现,VTP 初次展示了 Tokenizer 的 Scaling Law,即生成性能可以随预老师中干与的臆测量、参数目和数据规模有用增长。
仅从算力维度对比,在不改革下流 DiT 尺度老师设置的前提下,单纯将 Tokenizer 的预老师臆测量放大,VTP 就能为最毕生成终局带来65.8% 的性能擢升,且擢升弧线仍未触顶。
反不雅传统自编码器(AE),其性能在仅干与约 1/10臆测量时便已有余,且连接加多算力不仅收益一丁点儿,以致可能导致生成质料倒退。

以上发现标明,接下来除了在主模子上干与更多参数 / 算力 / 数据除外,还可以通过 Tokenizer 的 scaling 来擢升悉数这个词生成系统的性能。
这个论断,乍一看可能会让东谈主有点转不外弯:什么技艺,Tokenizer 也初始谈 scaling 了?
在大模子语境里," Scaling Law "简直自然只属于主模子——参数更大、数据更多、算力更猛,性能就该连接往上走。至于 Tokenizer,则长久被视作一个"前置模块",主打一个够用就行,作念完重建任务就退场。
但 VTP 的出现却改变了这一现实,团队示意:
VTP 在 latents 易学性和通用表征学习之间建设起了明确关联,从而第一次将 Tokenizer 手脚 scaling 的主角,展现出全面的 scaling 弧线和彭胀标的。
即是说,淌若 Tokenizer 只是被用来精确复刻像素,那么无论若何堆算力,擢升都将很快见顶;而一朝 Tokenizer 学到的是具备语义结构、对下流更友好的通用表征,事情就十足不一样了。

比如对悉数这个词行业来说,由于 VTP在 Tokenizer 层面就依然结伴了语义对王人、结构默契和细节抒发,因此其产出的视觉表征自然具备多任务协同的后劲。
这有点像先把天下翻译成了一种结伴、结构化的"视觉说话"。
一朝这套说话详情下来,下流无论是理撤职务(如分类、检测),如故生成任务(如图像合成、裁剪),都不再需要各自"再行学若何描画这个天下",而只是站在团结套底层抒发之上,作念不同的事情。
从这个角度看,VTP 自然相宜用来构建"显露 - 生成结伴模子"。正如团队所言:
Tokenizer 层面的结伴,是更内容的结伴。
也因此,这次 VTP 的开源就不只单只是提供了一个组件那么通俗了。
其更大的价值或然在于,它为悉数这个词行业提供了一条新的、且被实考据明行之有用的旅途——
在主模子除外,Tokenizer 相似是一个值得长久干与、且具备明确 scaling 薪金的中枢步调。
现在,VTP 的论文和模子权重依然公开,出手才智强的一又友也可以尝试体验下:
换一个视觉 Tokenizer,模子性能就能变得不一样的 feeling(手动狗头)。
【传送门】
代码:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1
模子:https://huggingface.co/collections/MiniMaxAI/vtp
一键三连「点赞」「转发」「提神心」
宽贷在指摘区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见
上一篇:禁毒之路 健康同业|垫江县举行禁毒主题自行车骑行行径
下一篇:没有了
