MiniMax海螺视频团队初次开源：Tokenizer也具备明确的Scaling Law

精品精品亚洲高清a毛片

热点资讯

服务项目

你的位置：精品精品亚洲高清a毛片 > 服务项目 > MiniMax海螺视频团队初次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队初次开源：Tokenizer也具备明确的Scaling Law

2025-12-24 11:20 点击次数：140

MiniMax 海螺视频团队不藏了！

初次开源就揭晓了一个困扰行业已久的问题的谜底——

为什么往第一阶段的视觉分词器里砸再多算力，也无法擢升第二阶段的生成终局？

翻译成大口语即是，诚然图像 / 视频生成模子的参数越作念越大、算力越堆越猛，但用户实验体验下来总有一种奥妙的感受——这些高大的干与与产出似乎不成正比，模子离十足的确可用老是差一段距离。

So why？问题，大要率就出在视觉分词器（Tokenizer）这个东西身上了。

当算力不再是谜底时，的确需要被再行凝视的，其实是生成模子的"发轫"。

在现时主流的两阶段生成框架中（分词器 + 生成模子），业界依然在视觉分词器的预老师上干与了大宗算力与数据，但一个窘态的事实是：

这些资本，简直莫得线性地蜕变为生成质料的擢升。

而 MiniMax 海螺视频团队，不啻挑战了这一现实——用实考据明" Tokenizer 的 scaling 能够擢升模子性能"。

更关键的是，还带来了一款开箱即用、专为"下一代生成模子"打造的可彭胀视觉分词器预老师框架—— Visual Tokenizer Pre-training（以下简称 VTP）。

只需换上这个视觉分词器，即可在不改变下流主模子（如 DiT）任何老师设置的情况下，终了端到端生成性能的倍数级擢升。

底下防御来看——

传统 Tokenizer 的舛误：更好的重建≠更好的生成

要显露 VTP 存在的赞佩，率先咱们需要回到更基础的问题上——

Tokenizer 是什么？它又为如何此关键？

以 AI 生图为例，现时主流的生图模子简直清一色接管了"两阶段"生成框架：

第一阶段（压缩）：使用视觉 Tokenizer（如 VAE）这个组件，将原始图像压缩并映射到一个潜在空间（latent space）中；

第二阶段（收复生成）：再由以扩散模子为中枢的生成器（如 DiT），在这个潜在空间中学习散布，并逐步收复、生成最终图像。

用一张图来描摹这个过程 be like（先压缩后收复）：

而 Tokenizer，即是在第一阶段中负责压缩图片信息的组件。

淌若莫得这个组件，扩散模子就得平直在数百万像素构成的原始像素空间中进行"去噪"和生成——其臆测复杂度和内存支拨将是天文数字。

因此，Tokenizer 称得上是让模子能够在耗尽级显卡上运行起来的"关键元勋"。

除此除外，Tokenize 过程所得的低维潜在表征，其质料平直决定了最毕生成图像的语义保真度、细节丰富度以及合座真实性，是以业界也广大合计——

从某种进程上来说，Tokenize 简直决定了后续生成模子的上限。

基于此，东谈主们在酌量如何擢升下流生成模子的质料时，也异曲同工地将重点放在了"如何精确复刻原始像素"上，即条目模子将压缩后的潜在特征（latent）尽可能精确地收复为原始图像。

而问题，也正出在这里。

传统 Tokenizer 在追求"像素级重建"时，时时会过度千里迷于捕捉图像的局部纹理、噪点等低层信息，从而忽视了生成任务的确依赖的高层语义与合座结构。

这就像学渣为了应付锻练，只想着死记硬背各式试题，却十足不睬解题目背后的知识点与逻辑结构。终局的确到了需要举一反三、处治新问题的技艺，一下就傻眼了。

在论文中，海螺视频团队将这一气候界说为"预老师缩放问题"（Pre-training Scaling Problem）：

更好的像素级重建精度并不行带来更高质料的生成终局。

如图所示，传统仅基于"重建"办法老师的 Tokenizer（灰线），跟着算力干与加多，模子的生成性能不仅莫得擢升，反而逐步趋于有余以致稍稍下落。（ps：gFID 估量生成质料，越小越好）

由此，论文得出第一个关键发现：重建作念得越好，生成反而可能越差。换言之，传统 VAE 所依赖的纯重建老师范式，在面向生成任务时存在根人道局限。

那么，VTP 是如何破局的呢？

VTP 破局之谈：从像素级重建到强调"显露力"的遑急性

事实上，VTP 并非横空出世，而是海螺视频团队在长久实行中反复试错与默契迭代的居品。

一些早期探索：从易学性到通用表征学习

在早期使命 VA-VAE 中，团队矜重到：

有些"压缩后的特征"能让后续的扩散模子学得又快又好，而另一些则不行。

基于此，他们淡薄了"易学性"这一见解——即不同的潜在表征（latents）关于下流生成模子的学习难度天渊之别，并生机通过优化 latent 的某些"友好特质"（如均匀性、频域散布等）来转折改善生成终局。

然而实行发现，这些步调虽有一定终局，却未波及内容。按团队我方的话来说即是：

尝试将易学性等价为可精确臆测的单一方针（举例频域散布、均匀性、scale 不变性、低秩效应等等）有些过于渴望了，这些方针可能和易学性有一定关联，但远不是沿路。

即是说，当优化办法被戒指在少数可测量方针上时，模子时时只是学会了在特定方针上"刷分"，而莫得从根底上学会显露图像的结构与语义（内容上仍未脱离"重建"鸿沟）。

在 VA-VAE 中，团队曾尝试将易学性对应到 latent 散布的"均匀性"

而经过继续反想，团队逐步意志到 VA-VAE 和自后的许多尝试，其深层办法并非只是是优化几个方针，而是在试图让 latents 具备某些更高档的"结构"。其背后逻辑在于：

假如某种 latents 关于图像中的实体、位置关联具有高度结构化的抒发，那么这种结构化抒发关于下流 diffusion 建模来说也会更浮松、更容易，这些方面的生成终局也当然会更好。

这就好比另一种层面上的"正途至简"——当模子的确掌抓了物体、关联与语义这些视觉天下的内容限定时，它能支吾的任务当然也就越多了（以不变应万变）。

因此，与其为"易学性"想象脆弱的代理方针，不如平直让 Tokenizer 去学习东谈主类视觉系统自己所依赖的那种高度结构化、语义化的通用表征。

毕竟像 CLIP、DINOv2 这么的当代通用表征学习步调，恰是在大规模数据上自动化地学习了这种"东谈主类对王人"的视觉抒发，才在多种下流任务中进展出强盛的泛化才智。

至此，团队的酌量要点认真从"像素级重建"转向了强调显露力的"通用表征学习"。

VTP：讲求"压缩即智能"内容

基于这一默契调度，VTP 的想象原则变得荒谬澄莹。团队示意：

咱们应该交融悉数已知有用的表征学习步调来构建一个 Tokenizer。

具体而言，VTP 这次率先终明晰从只练"重建"到"显露、重建、生成"的鸠集优化。

一是通过图文对比学习，建设高层语义显露。

在老师时，团队会给模子看大宗图像 - 文本配对数据（如"一只猫在沙发上"与对应图片），然后条目图片的特征向量和翰墨的特征向量尽可能接近。

这和之前的 CLIP 想路持之以恒，但办法更聚焦。CLIP 追求的是广义的图文匹配才智，而 VTP 则条目 Tokenizer 在压缩图像为紧凑的潜在编码时，必须保留与文本对王人的语义结构。

这意味着，生成模子后续接管到的每一个潜在示意，自己就依然是"有语义的"——它不只是一堆像素的压缩，而是佩戴了"猫"、"沙发"等见解偏执关联的结构化抒发。和以往比较，"语义注入"被提前到了压缩阶段。

二是通过自监督学习，掌抓空间结构与视觉知识。

在 VTP 框架中，自监督学习模块通过联接掩码图像建模（MIM）和自蒸馏（DINO 格调），"迫使"模子去显露图片的空间关联和物体结构。

这个过程会"逼着" Tokenizer 来复兴不同问题：

通过自蒸馏复兴：抛开具体的像素细节，这张图片最中枢的视觉主题或见解是什么？（全局语义）

通过 MIM 复兴：凭据你看到的"冰山一角"，你能推断出悉数这个词"冰山"的花样和结构吗？（结构推理）

二者协同复兴：为了识别图片主题或从局部重建合座，哪些视觉印迹是决定性、不可缺失的？（聚焦中枢）

这一套经过走下来，模子对图像的显露便不再停留在像素层面，而是构建起了结构化的视觉默契。

三是通过重建，保留必要的底层视觉细节。

VTP 依然保留了重建办法，但它的定位发生了变化——其作用不再是"越准越好"，而是确保潜在空间中仍然保有生成所需的纹理、热诚与角落等细节信息。

这三严惩法并非孤单进行，而是通过一个结伴的多任务亏蚀函数进行鸠集优化：

最终，VTP 赢得的不是一个在某个方针上"越过优秀"的压缩器，而是一个自带显露才智、对生成模子相当友好的视觉 Tokenizer。

这里也补充一个细节：为什么他们不像许多使命一样平直使用现存的 CLIP 或 DINOv2 手脚 Tokenizer，而非要干与巨大算力从新预老师一个？

其中枢想考在于两点（团队原话如下）：

表征简直很遑急，咱们想要作念到很极致。在咱们的视角下表征包含了自监督、对比学习、以致是重建（这些只是已知比较老到的步调，实验上渴望的表征远不啻这些），市面上莫得一个能够很好地融汇这些步调的模子，咱们需要我方老师一个。

基于表征的 Tokenizer 有策动具备 scaling 的后劲，预老师是最合理的终了姿色。淌若平直欺诈已有模子蒸馏或者移动，会因为 setting 过于复杂而龙套 scaling 的性质，也会受限于已有的模子规格而无法作念充分的论证。

是以，聘用"从新初始"的 VTP，其实验进展究竟如何呢？

初次展示了 Tokenizer 的 Scaling Law

概述而言，团队通过 VTP 得出了两大关键发现：

显露力是驱动生成的关键身分

视觉 Tokenizer 也具备明确的 Scaling Law

先说第少许。

VTP 用实考据明，淌若只作念重建的话，干与资源越多生成反而可能越差。

下图中，代表重建才智的 rFID 从 2.0 降至 0.5，重建终局变好；但代表生成才智的 gFID 从 55.04 升至 58.56，生成终局变差。

而一朝注入"显露力"（即引入 CLIP 图文对比 /SSL 自监督任务），模子的生成质料（gFID）会跟着显露才智（Linear Probe）的擢升而同步变好——

二者呈现较着的正关联，且这种擢升会跟着老师臆测量加多继续激动。比较之下，短缺"显露力"的传统 AE Only 有策动，其生成质料和显露才智很快堕入停滞。

更进一步，团队在同等算力下对比了不同组合，阐述" CLIP+SSL+AE "的鸠集老师姿色上限最高，生成与显露方针均最优。

基于此，团队老师的 VTP 在显露、重建、生成方面均交出了可以的答卷——

在 ImageNet 上的零样分内类准确率达到78.2%，向上了原版 CLIP 的 75.5%，依然具备强通用视觉显露才智；在重建才智上向上了 Stable Diffusion 的 VAE， rFID 低至0.36；在生成才智上向上了此前的校正步调 VA-VAE，gFID 低至2.81。

更关键的是，在达到调换生成质料的前提下，VTP 的老师管理速率比 LDM 快 5.7 倍、比 VA-VAE 快 4.1 倍，大幅缩小了老师资本。

这一系列进展共同印证了团队的判断：Tokenizer 的"语义显露力"而非单纯的像素重建精度，才是驱动生成性能与遵循擢升的中枢能源。

再说第二点，亦然更具冲突性的少许。

团队在实验中发现，VTP 初次展示了 Tokenizer 的 Scaling Law，即生成性能可以随预老师中干与的臆测量、参数目和数据规模有用增长。

仅从算力维度对比，在不改革下流 DiT 尺度老师设置的前提下，单纯将 Tokenizer 的预老师臆测量放大，VTP 就能为最毕生成终局带来65.8% 的性能擢升，且擢升弧线仍未触顶。

反不雅传统自编码器（AE），其性能在仅干与约 1/10臆测量时便已有余，且连接加多算力不仅收益一丁点儿，以致可能导致生成质料倒退。

以上发现标明，接下来除了在主模子上干与更多参数 / 算力 / 数据除外，还可以通过 Tokenizer 的 scaling 来擢升悉数这个词生成系统的性能。

这个论断，乍一看可能会让东谈主有点转不外弯：什么技艺，Tokenizer 也初始谈 scaling 了？

在大模子语境里，" Scaling Law "简直自然只属于主模子——参数更大、数据更多、算力更猛，性能就该连接往上走。至于 Tokenizer，则长久被视作一个"前置模块"，主打一个够用就行，作念完重建任务就退场。

但 VTP 的出现却改变了这一现实，团队示意：

VTP 在 latents 易学性和通用表征学习之间建设起了明确关联，从而第一次将 Tokenizer 手脚 scaling 的主角，展现出全面的 scaling 弧线和彭胀标的。

即是说，淌若 Tokenizer 只是被用来精确复刻像素，那么无论若何堆算力，擢升都将很快见顶；而一朝 Tokenizer 学到的是具备语义结构、对下流更友好的通用表征，事情就十足不一样了。

比如对悉数这个词行业来说，由于 VTP在 Tokenizer 层面就依然结伴了语义对王人、结构默契和细节抒发，因此其产出的视觉表征自然具备多任务协同的后劲。

这有点像先把天下翻译成了一种结伴、结构化的"视觉说话"。

一朝这套说话详情下来，下流无论是理撤职务（如分类、检测），如故生成任务（如图像合成、裁剪），都不再需要各自"再行学若何描画这个天下"，而只是站在团结套底层抒发之上，作念不同的事情。

从这个角度看，VTP 自然相宜用来构建"显露 - 生成结伴模子"。正如团队所言：

Tokenizer 层面的结伴，是更内容的结伴。

也因此，这次 VTP 的开源就不只单只是提供了一个组件那么通俗了。

其更大的价值或然在于，它为悉数这个词行业提供了一条新的、且被实考据明行之有用的旅途——

在主模子除外，Tokenizer 相似是一个值得长久干与、且具备明确 scaling 薪金的中枢步调。

现在，VTP 的论文和模子权重依然公开，出手才智强的一又友也可以尝试体验下：

换一个视觉 Tokenizer，模子性能就能变得不一样的 feeling（手动狗头）。

【传送门】

代码：https://github.com/MiniMax-AI/VTP

论文：https://arxiv.org/abs/2512.13687v1

模子：https://huggingface.co/collections/MiniMaxAI/vtp

一键三连「点赞」「转发」「提神心」

宽贷在指摘区留住你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见

上一篇：禁毒之路健康同业|垫江县举行禁毒主题自行车骑行行径

下一篇：没有了