开云kaiyun(中国) 阿里巴巴、东谈主大、清华联手打造"跳舞AI导演"

发布日期：2026-05-16 03:20 作者：admin 来源：未知点击：91

这项由阿里巴巴AMAP、中国东谈主民大学、清华大学、武汉大学及Malou Tech公司吞并完成的讨论，以arXiv预印骨子式发布于2025年12月（编号arXiv:2512.18181，最新版块更新于2026年5月），谋划发表于ACM期刊。感酷好酷好的读者不错通过该编号在arXiv上查阅完整论文。

一个普通东谈主想在抖音发一段跳舞视频，要领并不浅薄：选一首歌，然后不仅要我方想出配套的跳摆动作，还要有饱胀好的舞技，再花时候录制和编订。那有莫得可能，只需要给电脑提供一张我方的像片加上一首歌，剩下的全由AI处置——自动想好跳摆动作，生成一段画面剖判、动作调解、外貌传神的跳舞视频？

这恰是这项讨论要解决的问题。讨论团队征战了一套名为MACE-Dance的系统，它的职责时势有点像一场单干明确的专科竭力于赛：第一棒负责"编舞"，第二棒负责"饰演"，两棒协力交出一段令东谈主清静的跳舞视频。

这个宗旨的挑战远比瞎想中复杂。一方面，跳摆动作必须适合东谈主体畅通轨则，同期还要和音乐的节拍、作风、热情高度吻合；另一方面，生成的视频必须保抓东谈主物外貌前后一致、画面不抖动、服装不变形、布景不穿帮。现存的时刻要么只可生成莫得视觉结果的3D骨架动作，要么固然能生成视频却动作浅薄重迭、东谈主物面部迂缓。两个宗旨各有长处，却又各有清醒短板。MACE-Dance的中枢念念路即是将两者串联起来，让各自专注我方最擅长的部分。

一、为什么要把一件事拆成两步来作念

会通MACE-Dance，发轫要会通它为什么遴荐把"音乐→跳舞视频"这件事拆分红两个独处任务来完成，而不是用一个端到端的神经蚁集一步到位。

从音乐径直生成像素级视频，本质上要求模子同期学会两件完全不同的事情：一是会通音乐的节拍、旋律、作风，并将其曲折为合理的东谈主体畅通序列；二是将这些畅通序列以传神的时势渲染到视频画面里，保抓东谈主物的外貌、服装、光影结果一帧帧都前后一致。这两件事对模子来说是两种霄壤之别的才气，硬塞进一个模子里，时常会两端都作念不好。

更艰辛的是，若是径直学习音乐与视频像素之间的对应关系，模子很容易学到一些乌有的捷径——比如发现某类布景或服装通常和某种音乐作风同期出现，于是就把布景神气和音乐节拍绑定在通盘，生成内容时出现种种窘态其妙的谋划。讨论团队在尝试休养Hallo2、EchoMimic-V3、WAN-S2V这几个现存模子时，都不雅察到了这种怡悦：哪怕作念了架构修改或专门微调，这些模子依然会把音乐特征和视觉细节乌有地关联起来，导致生成结果差强东谈主意。

讨论团队最终遴荐了一个结构清醒的解决决议：在音乐和视频之间，强制引入一个"中间谈话"——三维东谈主体畅通参数序列，具体摄取的是学界平凡使用的SMPL时势（不错会通为描摹东谈主体姿态的一套法度数学谈话）。这个中间暗示就像是一位导演在隆重拍摄前写好的分镜剧本，明确轨则了每一帧里演员的身体姿态、朝向和位置，将"跳舞创作"和"视觉呈现"绝对分开处理。

相较于另一种常见作念法——用二维关键点坐标作为中间暗示——三维畅通参数的上风相等清醒。二维坐标仅仅把三维动作投影到一个平面上，就像把一个立体雕琢拍成像片，深度信息就恒久灭绝了，阻难形成的重要缺失也无法收复；而三维时势保留了完整的空间信息，不受视角影响，也不受拍摄距离的过问，对自阻难和视角变化自然愈加鲁棒。讨论团队在实验中考证了这个遴荐：在一样的框架下，用三维畅通替换二维关键点，非论是在动作生成阶段照旧最终视频生成阶段，统统目的都有一致性普及。

二、第一棒：懂音乐的"编舞群众"

负责第一棒任务的是讨论团队盘算的Motion Expert（畅通群众），它要作念的事情不错这么会通：播放一首音乐，它需要在脑海中"听懂"这首曲子，然后创作出一段与之匹配的跳摆动作序列，用SMPL时势抒发出来。

这个模块的中枢是一种叫作念"扩散模子"的生成方法。扩散模子的直观相等浅薄：先向实在的跳摆动作数据里接续加入噪声，直到变成一堆毫无道理的就地数；然后磨练一个神经蚁集，学会如何一步步把噪声"去除"，还原出有道理的动作序列。关键在于，这个去噪过程是在音乐信号的率领下进行的，这么生成的动作就会与音乐的节拍和作风对应起来。

在蚁集结构的盘算上，讨论团队作念出了一个有真理的组合：把两种霄壤之别的蚁集组件拼接在通盘，分歧处理两种不同类型的信息依赖关系。

第一种组件叫作念BiMamba（双向Mamba）。Mamba是一种专门擅长处理贯穿序列的蚁集结构，其中枢念念想是用一个随时候演化的荫藏景况来记着已往的信息，访佛于东谈主在听音乐时会自然地记着前几末节的节拍，从而判断下一步该怎么走。"双向"意味着模子同期从时候轴的正宗旨和反宗旨处理序列，既能看到"之前发生了什么"，也能看到"之后会发生什么"，这关于会通音乐的升沉和跳舞的剖判性都相等紧迫。讨论发现，若是只用单向Mamba，生成的跳舞会更容易退化成浅薄重迭的常见动作，艺术发扬力清醒下落。

第二种组件是Transformer中的跨模态防卫力机制。这是一种能够捕捉"全局关联"的结构，它不错让跳舞生成的每一帧都去参考整段音乐的全体信息，而不仅仅局部片断。两种组件单干调解：BiMamba负责让动作序列在短时候内保抓剖判连贯，Transformer负责让全体跳舞的作风和结构与整首音乐的情谊走向保抓一致。

每个去噪块的具体职责进程是这么的：现时带噪声的动作序列先经过BiMamba捕捉其里面的局部动态特征，然后通过一个叫作念FiLM的调制层，将现时往噪的时候步信息注入进来，接着通过Transformer防卫力模块，让动作特征去"护士"音乐特征，整合全局的音乐语境，终末再经过一次FiLM调制强化时候步信息。

这种架构带来的另一个紧迫克己是：生成时整段序列一次性完成，不需要一帧一帧按方法生成。一帧一帧生成的时势容易产生"滚雪球"问题——前一帧的小差错会接续传递并放大，到背面就可能出现动作已而飞出去的情况。全体生成幸免了这个问题，同期服从也大幅普及，在FineDance法度测试集上，该模块每秒不错生成770帧动作，比同类方法快得多。

在磨练政策上，讨论团队还引入了一个叫作念"无率领磨练"（GFT）的机制，替代了传统的"无分类器率领"（CFG）方法。传统CFG的作念法是：磨练时正常磨练，推理时同期驱动两个版块（有条目的和无条目的），然后将两者的结果组合起来，以此增强生成结果的质地。这特别于每次生成都要跑两遍模子，服从减半。GFT的创新念念路是：径直在磨练阶段就把"质地适度旋钮"融入模子自己，引入一个叫作念β的温度参数，模子在磨练时同期学习在不同β值下应该生成什么样的结果。推理时只需要跑一遍，通过转换β就不错适度生成结果的种种性和赤诚度之间的均衡，既省俭了一半筹备时候，又幸免了磨练与推理之间的散播偏差。实验涌现，比拟传统CFG，GFT方法在生收服从上普及了约1.62倍，各项质地目的也有不同进程的普及。

β参数的结果在消融实验中得到了清醒考证。当β设为1.0时，生成的跳舞种种性最高，但赤诚度最差；当β设为0.5时，赤诚度最好，但种种性反而低于实在数据；β=0时系统径直崩溃。综合讨论后，讨论团队将默许值设为0.75，在保抓饱胀种种性的同期也兼顾了较高的还原质地。

除了法度的重建亏欠，磨练时还同期优化三个非凡的亏欠函数：重要位置亏欠（要求前向畅通学筹备出的重要坐标与实在值接近）、速率亏欠（要求相邻帧的重要速率变化平滑）以及脚部讲和亏欠（要求脚部在应该着地的帧里不乱动）。这三个亏欠合在通盘，从不同角度保证了生成动作的物理合感性。

三、第二棒：让"画面"和"动作"无缺会通的视觉群众

Motion Expert生成三维动作序列之后，Appearance Expert（外不雅群众）接过第二棒，负责将这段动作"穿"到参考图片里的东谈主物身上，生成一段完整的视频。

讨论团队遴荐在Wan-Animate这个强盛的基础模子上进行修订。Wan-Animate自己是一个通用型东谈主物动画模子，能够字据姿态信号和参考图片生成视频，在工业界和学术界都受到了平凡关爱。可是，将它径直用于跳舞视频生成结果并不睬想——跳舞中有大批高速行为动作、全身配合、动态镜头变化，远比普通的东谈主物动画复杂。讨论团队的解法是一个两阶段的专门化微调政策，分歧针对"动作准确度"和"视觉好意思不雅度"两个不同宗旨进行优化。

在此之前，还有一个关键的衔尾要领：如何将Motion Expert输出的SMPL三维参数调动成Wan-Animate能剿袭的二维关键点时势。讨论团队引入了一个"投影器"模块，逐帧将SMPL参数调动为三维网格，用pyrender渲染器在固定正面视角下渲染出骨架图像，再用ViTPose关键点检测器提真金不怕火对应的二维关键点坐标。这个过程保留了三维畅通建模的统统上风，同期与下贱的视频生成模块无缝对接。

第一阶段叫作念"畅通学阶段"。Wan-Animate的原始盘算中，对东谈主脸的处理力度繁密于对身体的处理——它为东谈主脸分拨了一个专门的跨防卫力分支，而身体的畅通讯号仅仅浅薄地以加法时势注入。这关于日常东谈主物动画可能够用，但关于动作幅度大、全身调解要求高的跳舞来说清醒不及。在畅通学阶段，讨论团队只单独磨练Body Adapter（身体适配器）这一个模块，其他统统参数全部冻结，不作念任何篡改。这么作念的克己是：精准增强了身体畅通讯号的权重，却不会扰动模子仍是学到的其他才气，也不会引入非凡的内存支出和磨练不融会性。他们有利莫得为身体信号再添加一个跨防卫力分支，因为那样会和东谈主脸的防卫力分支产生竞争，导致特征浩瀚。

第二阶段叫作念"好意思学阶段"。在畅通准确性仍是得到保险之后，讨论团队再单独优化视觉质地，开云·体育方法是在Wan-Animate的每一个DiT（扩散变换器）块里插入轻量级的LoRA适配器。LoRA是一种高效微调时刻，其中枢念念想是：不修改原始的大型权重矩阵，而辱骂凡学习两个低秩小矩阵，二者相乘后作为对原始权重的增量叠加进去。这么参数目少量，却能有用改变模子的行动。具体操作是在每个防卫力模块的查询、键、值、输出四个投影矩阵，以及前馈蚁集中，分歧插入秩为32的LoRA适配器。统统好意思学阶段只磨练这些LoRA参数，其余全部冻结。这么作念的结果是在完全不迫害畅通适度才气的前提下，专注于改善皮肤纹理的精采进程、服装和配饰的融会性、以及对种种复杂镜头畅通（推拉摇移、手抓抖动）的处理才气。

消融实验对两个阶段分歧进行了考证。去掉畅通学阶段，视频中会出现清醒的动作随从差错和畅通迂缓；去掉好意思学阶段，会出现清醒的"鬼影"伪影怡悦，全体视觉质地大幅下落。两阶段弗成偏废，相互补充。

四、专为这项任务打造的数据集和评测体系

一个新任务需要新的评测法度。现存的数据集和评测方法要么专注于三维动作质地，要么只关防卫频视觉结果，莫得一套同期兼顾两者的完整框架。讨论团队因此同步构建了数据集和评测条约。

数据集被定名为MA-Data，包含7万段时长5至10秒的视频片断，总时长116小时，涵盖20余种跳舞作风，包括爵士、拉丁、东方民族舞等。数据来源分为两部分，各司其职。

第一部分是三维渲染数据，来源于FineDance——当今最大的由专科舞者录制的三维跳舞数据集。讨论团队将其中的动作序列重定向到虚构东谈主物模子上，渲染出正面视角的视频，再用滑动窗口政策切分出2万段5至10秒的片断，约28小时。这部分数据的脾性是动作专科法度，但视觉结果是筹备机图形渲染作风，不够写实。

第二部分是来自实在蚁集的数据，从抖音、YouTube等平台上高热度跳舞视频中收罗，共5万段，约88小时。这部分数据视觉结果实在自然，但跳摆动作相对不够专科，更偏向文娱性。为了保证数据质地，讨论团队盘算了一套多阶段清洗进程：发轫用TransNet V2作念镜头规模检测并按镜头切分，丢弃短于5秒的片断；然后用光流幅度阈值过滤险些莫得畅通的静态视频；接着用ViTPose检测过滤偷换含多东谈主或东谈主物畅通少量的片断；终末用滑动窗口加就地偏移政策最终切分红5至10秒的片断。

在评测目的的盘算上，讨论团队引入了一套"畅通-外不雅双维度"条约。畅通维度从东谈主体畅通学角度评估：通过ViTPose从视频中提真金不怕火二维关键点序列，筹备畅通的动态特征和空间重要关系，分歧在"畅通动态"和"几何空间"两个特征空间入彀算FID（预计生成动作与实在动作散播的差距）和DIV（预计生成动作的种种性）；同期用Beat Alignment Score（BAS）预计动作节拍与音乐节拍的对王人进程。外不雅维度则借用VBench视频生成基准中适合跳舞的子集，包括图像质地、好意思学质地、东谈主物一致性、布景一致性、畅通平滑性以实时序融会性六款式的。

五、实验结果：三项任务全面最初

讨论团队在三项独处任务上分歧进行了对比实验，每项都得回了现时最优的结果。

在三维跳舞生成任务上，使用FineDance数据集，与FACT、MNET、Bailando、EDGE、Lodge、MEGA六个方法对比，Motion Expert在险些统统目的上都达到最优：畅通动态FID为17.83，几何空间FID为25.09，两项种种性目的分歧为10.30和8.09，BAS为0.229，每秒生成帧数高达770。比拟之下，此前的最优方法MEGA，FID最好也只可作念到50，远未达到这个水平。

在姿态驱动图像动画任务上，Appearance Expert与Animate-Anyone、Magic-Animate、Wan-Animate（作为基础模子）进行对比，在FVD、SSIM、LPIPS、PSNR四款式的上全面最初，FVD从Wan-Animate基础模子的332.82降至274.94，SSIM从0.707普及至0.739。

在最终的音乐驱动跳舞视频生成任务上，与两类基准方法对比——第一类是将EDGE、Lodge、MEGA三种三维跳舞生成方法串联Wan-Animate；第二类是径直用于东谈主物视频生成的Hallo2、WAN-S2V、EchoMimic-V3。MACE-Dance在畅通维度的统统五款式的和外不雅维度的六款式的中，大多数都排行第一，在BAS（0.523）和几何FID（0.28）上的普及尤为隆起。

为了考证结构盘算的合感性，讨论团队还对两个群众的孝顺分歧进行了"替换实验"：用EDGE替换Motion Expert，或用Wan-Animate替换Appearance Expert，单独更换恣意一个群众都会导致对应维度的目的清醒下落。这证实两个群众的作用是互补的，艰辛任何一个都弗成替代。

此外，讨论团队还将MACE-Dance与现时最强的通用视频大模子CogVideoX1.5-5B和WAN2.2-5B进行了对比。WAN2.2-5B固然在好意思学质地单项上略高于MACE-Dance（53.22对51.79），但在东谈主物一致性、FID和BAS三款式的上均失神。CogVideoX1.5-5B全体发扬更弱，生成的动作幅度小、有迂缓感。从视觉对比来看，WAN2.2-5B生成的视频动作幅度大但东谈主物身份前后不一致，MACE-Dance则在两方面取得了更好的均衡。

六、用户讨论和评测有用性考证

单纯的量化目的有时随机能反应实在的用户体验，讨论团队因此还组织了一项用户讨论。他们招募了40位有跳舞布景的参与者（包括本科生和讨论生），让他们对5个方法就所在法生成的视频进行偏好投票，评估维度包括跳舞同步性、跳舞质地、跳舞创意、感知质地、时序一致性和身份一致性六个方面。

在统统六个维度上，MACE-Dance都得回了最高的偏好比例，其中跳舞质地和跳舞同步性两项逾越了60%的投票，身份一致性达到50%，其余维度均在56%以上。这些结果与量化目的高度吻合，阐扬了评测条约盘算的有用性。

七、Motion Expert还能作念什么：畅通编订功能

除了重重生成完整的跳舞序列，Motion Expert还内置了一套"蒙版去噪"机制，支抓在推理阶段对已有动作序列进行局部编订，而不需要再行磨练。

这个机制的道理访佛于图像建筑：给定一段部分已知的动作序列和一个二值蒙版（绚烂哪些位置是已知的、哪些是需要补全的），在每个去噪时候步里，将已知部分替换回现时时候步对应的噪声版块，让模子只对未知部分进行生成。这么生成的未知部分会自然地与已知部分保抓时序平滑、物理合理和音乐一致。

这套机制不错支抓三种实用的编订模式。时序补全模式不错保留序列开首和驱逐，生成中间缺失的过渡段落；重要级编订模式不错固定上半身动作，让模子补全下半身，或反之；轨迹率领模式不错指定根节点的出动轨迹，让模子生成一段在空间中按照给定旅途出动的完整跳舞。这三种模式不需要任何非凡磨练，与DDIM推理进程完全兼容。

另一个值得一提的脾性是：由于Motion Expert的输出是法度的三维畅通参数时势，不错径直接入现存的扮装绑定和动作重定向进程，用于CG动画制作、VR虚构东谈主适度、游戏扮装驱动等场景，大幅拓展了这套系统的推行哄骗限制。

八、长序列生成与跨作风泛化

在跨作风泛化方面，讨论团队对维吾尔族舞、敦煌舞、傣族舞、K-Pop和Popping五种作风进行了可视化展示，每种作风都呈现出清醒不同的畅通特征：维吾尔族舞以细小贯穿的上身旋转和丰富的手臂轨迹为主；敦煌舞呈现出融会的下盘撑抓配合优雅的圆弧手臂；傣族舞强调柔滑流动的腕部和肘部动作；K-Pop展现出清醒的节拍切换和对称性姿势；Popping则以爆发性的局部窒碍动作和断奏感为中枢。

宝马会(BMW Club)官网app下载

在长序列生成方面，一首完整的音乐正常抓续30秒到5分钟，这对任何生成系统都是一大挑战。MACE-Dance通过两个层面的盘算来应付这个问题。在畅通生成层面，BiMamba的景况空间递归机制自然具备超出磨练长度的外推才气，磨练时只用8秒序列，推理时不错生成34秒以上的序列，Mamba的荫藏景况充任了时候挂牵，将短期动态传播到更长的时候维度。在视频渲染层面，摄取了"竭力于渲染"政策：每一段生成时同期参考三个接续——Motion Expert提供的全局一致二维姿态序列（作为十足几何参考），上一段末帧（保证外不雅贯穿性），以及固定不变的参考图片（保证身份一致性）。三重接续共同注重了乌有积累，幸免了东谈主物渐渐"变脸"或布景渐渐"漂移"的问题。

说到底，MACE-Dance作念的事情不错用一句话轮廓：把音乐驱动跳舞视频生成这件看起来相等复杂的事情，通过忠良的任务拆分和专科化盘算，变成了两个相对浅薄的问题的串联解法。第一个群众专注于"怎么跳"，第二个群众专注于"跳出来的东谈主长什么样"，两者之间用一套法度的三维畅通参数时势作为通用接口，各自独处优化，吞并输出。

这对普通东谈主意味着什么？或者不久的改日，确凿只需要一张像片加一首歌，就能生成一段我方"在跳舞"的视频，非论是民族舞、K-Pop照旧街舞，系统都能生成作风合适、动作剖判、东谈主物传神的成片，而不需要任何跳舞基础。自然，这项时刻也带来了值得谨慎对待的伦理问题——用他东谈主像片生成视频需要明确的授权，磨练数据中存在的文化和审好意思偏见也需要抓续关爱。

对讨论感酷好酷好的读者，不错通过arXiv编号2512.18181找到完整论文，代码也已在GitHub上绽开（款式地址为AMAP-ML/MACE-Dance）。

Q&A

Q1：MACE-Dance生成跳舞视频需要提供什么输入？

A：MACE-Dance只需要两个输入：一张参考东谈主物图片和一段音乐。系统会自动字据音乐作风和节拍生成对应的跳摆动作，再将动作"套"在参考图片里的东谈主物身上，最终输出一段完整的跳舞视频，不需要用户我方盘算任何动作。

Q2：MACE-Dance使用的三维畅通参数和普通的姿态骨架有什么区别？

A：普通的二维姿态骨架只纪录重要在画面中的平面坐标，会丢失深度信息，阻难时重要也会灭绝。MACE-Dance使用的SMPL三维畅通参数保留了完整的空间位置、身体朝向和深度信息，不受拍摄角度影响，对自阻难也更鲁棒，提供的监督信号更融会，最终身成的畅通质地和视频一致性都更好。

Q3：MACE-Dance支抓对已有跳摆动作进行修改吗？

A：支抓。Motion Expert内置了一套蒙版去噪机制开云kaiyun(中国)，无需再行磨练即可进行畅通编订。不错固定已有片断的开首和驱逐自动补全中间过渡，也不错固定上半身让系统补全下半身动作，还不错指定东谈主物出动轨迹让系统生成对应的完整跳舞序列。

下一篇：下一篇：开云kaiyun(中国)体育官网 14年原木定制厂长含泪回归: 10个让家“越住越丑”的想象, 第一个你家就有

开云kaiyun(中国) 阿里巴巴、东谈主大、清华联手打造&quot;跳舞AI导演&quot;

开云kaiyun(中国) 阿里巴巴、东谈主大、清华联手打造"跳舞AI导演"