开云kaiyun(中国) 阿里巴巴、东谈主大、清华联手打造"跳舞AI导演"


这项由阿里巴巴AMAP、中国东谈主民大学、清华大学、武汉大学及Malou Tech公司吞并完成的讨论,以arXiv预印骨子式发布于2025年12月(编号arXiv:2512.18181,最新版块更新于2026年5月),谋划发表于ACM期刊。感酷好酷好的读者不错通过该编号在arXiv上查阅完整论文。
一个普通东谈主想在抖音发一段跳舞视频,要领并不浅薄:选一首歌,然后不仅要我方想出配套的跳摆动作,还要有饱胀好的舞技,再花时候录制和编订。那有莫得可能,只需要给电脑提供一张我方的像片加上一首歌,剩下的全由AI处置——自动想好跳摆动作,生成一段画面剖判、动作调解、外貌传神的跳舞视频?
这恰是这项讨论要解决的问题。讨论团队征战了一套名为MACE-Dance的系统,它的职责时势有点像一场单干明确的专科竭力于赛:第一棒负责"编舞",第二棒负责"饰演",两棒协力交出一段令东谈主清静的跳舞视频。
这个宗旨的挑战远比瞎想中复杂。一方面,跳摆动作必须适合东谈主体畅通轨则,同期还要和音乐的节拍、作风、热情高度吻合;另一方面,生成的视频必须保抓东谈主物外貌前后一致、画面不抖动、服装不变形、布景不穿帮。现存的时刻要么只可生成莫得视觉结果的3D骨架动作,要么固然能生成视频却动作浅薄重迭、东谈主物面部迂缓。两个宗旨各有长处,却又各有清醒短板。MACE-Dance的中枢念念路即是将两者串联起来,让各自专注我方最擅长的部分。
一、为什么要把一件事拆成两步来作念
会通MACE-Dance,发轫要会通它为什么遴荐把"音乐→跳舞视频"这件事拆分红两个独处任务来完成,而不是用一个端到端的神经蚁集一步到位。
从音乐径直生成像素级视频,本质上要求模子同期学会两件完全不同的事情:一是会通音乐的节拍、旋律、作风,并将其曲折为合理的东谈主体畅通序列;二是将这些畅通序列以传神的时势渲染到视频画面里,保抓东谈主物的外貌、服装、光影结果一帧帧都前后一致。这两件事对模子来说是两种霄壤之别的才气,硬塞进一个模子里,时常会两端都作念不好。
更艰辛的是,若是径直学习音乐与视频像素之间的对应关系,模子很容易学到一些乌有的捷径——比如发现某类布景或服装通常和某种音乐作风同期出现,于是就把布景神气和音乐节拍绑定在通盘,生成内容时出现种种窘态其妙的谋划。讨论团队在尝试休养Hallo2、EchoMimic-V3、WAN-S2V这几个现存模子时,都不雅察到了这种怡悦:哪怕作念了架构修改或专门微调,这些模子依然会把音乐特征和视觉细节乌有地关联起来,导致生成结果差强东谈主意。
讨论团队最终遴荐了一个结构清醒的解决决议:在音乐和视频之间,强制引入一个"中间谈话"——三维东谈主体畅通参数序列,具体摄取的是学界平凡使用的SMPL时势(不错会通为描摹东谈主体姿态的一套法度数学谈话)。这个中间暗示就像是一位导演在隆重拍摄前写好的分镜剧本,明确轨则了每一帧里演员的身体姿态、朝向和位置,将"跳舞创作"和"视觉呈现"绝对分开处理。
相较于另一种常见作念法——用二维关键点坐标作为中间暗示——三维畅通参数的上风相等清醒。二维坐标仅仅把三维动作投影到一个平面上,就像把一个立体雕琢拍成像片,深度信息就恒久灭绝了,阻难形成的重要缺失也无法收复;而三维时势保留了完整的空间信息,不受视角影响,也不受拍摄距离的过问,对自阻难和视角变化自然愈加鲁棒。讨论团队在实验中考证了这个遴荐:在一样的框架下,用三维畅通替换二维关键点,非论是在动作生成阶段照旧最终视频生成阶段,统统目的都有一致性普及。
二、第一棒:懂音乐的"编舞群众"
负责第一棒任务的是讨论团队盘算的Motion Expert(畅通群众),它要作念的事情不错这么会通:播放一首音乐,它需要在脑海中"听懂"这首曲子,然后创作出一段与之匹配的跳摆动作序列,用SMPL时势抒发出来。
这个模块的中枢是一种叫作念"扩散模子"的生成方法。扩散模子的直观相等浅薄:先向实在的跳摆动作数据里接续加入噪声,直到变成一堆毫无道理的就地数;然后磨练一个神经蚁集,学会如何一步步把噪声"去除",还原出有道理的动作序列。关键在于,这个去噪过程是在音乐信号的率领下进行的,这么生成的动作就会与音乐的节拍和作风对应起来。
在蚁集结构的盘算上,讨论团队作念出了一个有真理的组合:把两种霄壤之别的蚁集组件拼接在通盘,分歧处理两种不同类型的信息依赖关系。
第一种组件叫作念BiMamba(双向Mamba)。Mamba是一种专门擅长处理贯穿序列的蚁集结构,其中枢念念想是用一个随时候演化的荫藏景况来记着已往的信息,访佛于东谈主在听音乐时会自然地记着前几末节的节拍,从而判断下一步该怎么走。"双向"意味着模子同期从时候轴的正宗旨和反宗旨处理序列,既能看到"之前发生了什么",也能看到"之后会发生什么",这关于会通音乐的升沉和跳舞的剖判性都相等紧迫。讨论发现,若是只用单向Mamba,生成的跳舞会更容易退化成浅薄重迭的常见动作,艺术发扬力清醒下落。
第二种组件是Transformer中的跨模态防卫力机制。这是一种能够捕捉"全局关联"的结构,它不错让跳舞生成的每一帧都去参考整段音乐的全体信息,而不仅仅局部片断。两种组件单干调解:BiMamba负责让动作序列在短时候内保抓剖判连贯,Transformer负责让全体跳舞的作风和结构与整首音乐的情谊走向保抓一致。
每个去噪块的具体职责进程是这么的:现时带噪声的动作序列先经过BiMamba捕捉其里面的局部动态特征,然后通过一个叫作念FiLM的调制层,将现时往噪的时候步信息注入进来,接着通过Transformer防卫力模块,让动作特征去"护士"音乐特征,整合全局的音乐语境,终末再经过一次FiLM调制强化时候步信息。
这种架构带来的另一个紧迫克己是:生成时整段序列一次性完成,不需要一帧一帧按方法生成。一帧一帧生成的时势容易产生"滚雪球"问题——前一帧的小差错会接续传递并放大,到背面就可能出现动作已而飞出去的情况。全体生成幸免了这个问题,同期服从也大幅普及,在FineDance法度测试集上,该模块每秒不错生成770帧动作,比同类方法快得多。
在磨练政策上,讨论团队还引入了一个叫作念"无率领磨练"(GFT)的机制,替代了传统的"无分类器率领"(CFG)方法。传统CFG的作念法是:磨练时正常磨练,推理时同期驱动两个版块(有条目的和无条目的),然后将两者的结果组合起来,以此增强生成结果的质地。这特别于每次生成都要跑两遍模子,服从减半。GFT的创新念念路是:径直在磨练阶段就把"质地适度旋钮"融入模子自己,引入一个叫作念β的温度参数,模子在磨练时同期学习在不同β值下应该生成什么样的结果。推理时只需要跑一遍,通过转换β就不错适度生成结果的种种性和赤诚度之间的均衡,既省俭了一半筹备时候,又幸免了磨练与推理之间的散播偏差。实验涌现,比拟传统CFG,GFT方法在生收服从上普及了约1.62倍,各项质地目的也有不同进程的普及。
β参数的结果在消融实验中得到了清醒考证。当β设为1.0时,生成的跳舞种种性最高,但赤诚度最差;当β设为0.5时,赤诚度最好,但种种性反而低于实在数据;β=0时系统径直崩溃。综合讨论后,讨论团队将默许值设为0.75,在保抓饱胀种种性的同期也兼顾了较高的还原质地。
除了法度的重建亏欠,磨练时还同期优化三个非凡的亏欠函数:重要位置亏欠(要求前向畅通学筹备出的重要坐标与实在值接近)、速率亏欠(要求相邻帧的重要速率变化平滑)以及脚部讲和亏欠(要求脚部在应该着地的帧里不乱动)。这三个亏欠合在通盘,从不同角度保证了生成动作的物理合感性。
三、第二棒:让"画面"和"动作"无缺会通的视觉群众
Motion Expert生成三维动作序列之后,Appearance Expert(外不雅群众)接过第二棒,负责将这段动作"穿"到参考图片里的东谈主物身上,生成一段完整的视频。
讨论团队遴荐在Wan-Animate这个强盛的基础模子上进行修订。Wan-Animate自己是一个通用型东谈主物动画模子,能够字据姿态信号和参考图片生成视频,在工业界和学术界都受到了平凡关爱。可是,将它径直用于跳舞视频生成结果并不睬想——跳舞中有大批高速行为动作、全身配合、动态镜头变化,远比普通的东谈主物动画复杂。讨论团队的解法是一个两阶段的专门化微调政策,分歧针对"动作准确度"和"视觉好意思不雅度"两个不同宗旨进行优化。
在此之前,还有一个关键的衔尾要领:如何将Motion Expert输出的SMPL三维参数调动成Wan-Animate能剿袭的二维关键点时势。讨论团队引入了一个"投影器"模块,逐帧将SMPL参数调动为三维网格,用pyrender渲染器在固定正面视角下渲染出骨架图像,再用ViTPose关键点检测器提真金不怕火对应的二维关键点坐标。这个过程保留了三维畅通建模的统统上风,同期与下贱的视频生成模块无缝对接。
第一阶段叫作念"畅通学阶段"。Wan-Animate的原始盘算中,对东谈主脸的处理力度繁密于对身体的处理——它为东谈主脸分拨了一个专门的跨防卫力分支,而身体的畅通讯号仅仅浅薄地以加法时势注入。这关于日常东谈主物动画可能够用,但关于动作幅度大、全身调解要求高的跳舞来说清醒不及。在畅通学阶段,讨论团队只单独磨练Body Adapter(身体适配器)这一个模块,其他统统参数全部冻结,不作念任何篡改。这么作念的克己是:精准增强了身体畅通讯号的权重,却不会扰动模子仍是学到的其他才气,也不会引入非凡的内存支出和磨练不融会性。他们有利莫得为身体信号再添加一个跨防卫力分支,因为那样会和东谈主脸的防卫力分支产生竞争,导致特征浩瀚。
第二阶段叫作念"好意思学阶段"。在畅通准确性仍是得到保险之后,讨论团队再单独优化视觉质地,开云·体育方法是在Wan-Animate的每一个DiT(扩散变换器)块里插入轻量级的LoRA适配器。LoRA是一种高效微调时刻,其中枢念念想是:不修改原始的大型权重矩阵,而辱骂凡学习两个低秩小矩阵,二者相乘后作为对原始权重的增量叠加进去。这么参数目少量,却能有用改变模子的行动。具体操作是在每个防卫力模块的查询、键、值、输出四个投影矩阵,以及前馈蚁集中,分歧插入秩为32的LoRA适配器。统统好意思学阶段只磨练这些LoRA参数,其余全部冻结。这么作念的结果是在完全不迫害畅通适度才气的前提下,专注于改善皮肤纹理的精采进程、服装和配饰的融会性、以及对种种复杂镜头畅通(推拉摇移、手抓抖动)的处理才气。
消融实验对两个阶段分歧进行了考证。去掉畅通学阶段,视频中会出现清醒的动作随从差错和畅通迂缓;去掉好意思学阶段,会出现清醒的"鬼影"伪影怡悦,全体视觉质地大幅下落。两阶段弗成偏废,相互补充。
四、专为这项任务打造的数据集和评测体系
一个新任务需要新的评测法度。现存的数据集和评测方法要么专注于三维动作质地,要么只关防卫频视觉结果,莫得一套同期兼顾两者的完整框架。讨论团队因此同步构建了数据集和评测条约。
数据集被定名为MA-Data,包含7万段时长5至10秒的视频片断,总时长116小时,涵盖20余种跳舞作风,包括爵士、拉丁、东方民族舞等。数据来源分为两部分,各司其职。
第一部分是三维渲染数据,来源于FineDance——当今最大的由专科舞者录制的三维跳舞数据集。讨论团队将其中的动作序列重定向到虚构东谈主物模子上,渲染出正面视角的视频,再用滑动窗口政策切分出2万段5至10秒的片断,约28小时。这部分数据的脾性是动作专科法度,但视觉结果是筹备机图形渲染作风,不够写实。
第二部分是来自实在蚁集的数据,从抖音、YouTube等平台上高热度跳舞视频中收罗,共5万段,约88小时。这部分数据视觉结果实在自然,但跳摆动作相对不够专科,更偏向文娱性。为了保证数据质地,讨论团队盘算了一套多阶段清洗进程:发轫用TransNet V2作念镜头规模检测并按镜头切分,丢弃短于5秒的片断;然后用光流幅度阈值过滤险些莫得畅通的静态视频;接着用ViTPose检测过滤偷换含多东谈主或东谈主物畅通少量的片断;终末用滑动窗口加就地偏移政策最终切分红5至10秒的片断。
在评测目的的盘算上,讨论团队引入了一套"畅通-外不雅双维度"条约。畅通维度从东谈主体畅通学角度评估:通过ViTPose从视频中提真金不怕火二维关键点序列,筹备畅通的动态特征和空间重要关系,分歧在"畅通动态"和"几何空间"两个特征空间入彀算FID(预计生成动作与实在动作散播的差距)和DIV(预计生成动作的种种性);同期用Beat Alignment Score(BAS)预计动作节拍与音乐节拍的对王人进程。外不雅维度则借用VBench视频生成基准中适合跳舞的子集,包括图像质地、好意思学质地、东谈主物一致性、布景一致性、畅通平滑性以实时序融会性六款式的。
五、实验结果:三项任务全面最初
讨论团队在三项独处任务上分歧进行了对比实验,每项都得回了现时最优的结果。
在三维跳舞生成任务上,使用FineDance数据集,与FACT、MNET、Bailando、EDGE、Lodge、MEGA六个方法对比,Motion Expert在险些统统目的上都达到最优:畅通动态FID为17.83,几何空间FID为25.09,两项种种性目的分歧为10.30和8.09,BAS为0.229,每秒生成帧数高达770。比拟之下,此前的最优方法MEGA,FID最好也只可作念到50,远未达到这个水平。
在姿态驱动图像动画任务上,Appearance Expert与Animate-Anyone、Magic-Animate、Wan-Animate(作为基础模子)进行对比,在FVD、SSIM、LPIPS、PSNR四款式的上全面最初,FVD从Wan-Animate基础模子的332.82降至274.94,SSIM从0.707普及至0.739。
在最终的音乐驱动跳舞视频生成任务上,与两类基准方法对比——第一类是将EDGE、Lodge、MEGA三种三维跳舞生成方法串联Wan-Animate;第二类是径直用于东谈主物视频生成的Hallo2、WAN-S2V、EchoMimic-V3。MACE-Dance在畅通维度的统统五款式的和外不雅维度的六款式的中,大多数都排行第一,在BAS(0.523)和几何FID(0.28)上的普及尤为隆起。
为了考证结构盘算的合感性,讨论团队还对两个群众的孝顺分歧进行了"替换实验":用EDGE替换Motion Expert,或用Wan-Animate替换Appearance Expert,单独更换恣意一个群众都会导致对应维度的目的清醒下落。这证实两个群众的作用是互补的,艰辛任何一个都弗成替代。
此外,讨论团队还将MACE-Dance与现时最强的通用视频大模子CogVideoX1.5-5B和WAN2.2-5B进行了对比。WAN2.2-5B固然在好意思学质地单项上略高于MACE-Dance(53.22对51.79),但在东谈主物一致性、FID和BAS三款式的上均失神。CogVideoX1.5-5B全体发扬更弱,生成的动作幅度小、有迂缓感。从视觉对比来看,WAN2.2-5B生成的视频动作幅度大但东谈主物身份前后不一致,MACE-Dance则在两方面取得了更好的均衡。
六、用户讨论和评测有用性考证
单纯的量化目的有时随机能反应实在的用户体验,讨论团队因此还组织了一项用户讨论。他们招募了40位有跳舞布景的参与者(包括本科生和讨论生),让他们对5个方法就所在法生成的视频进行偏好投票,评估维度包括跳舞同步性、跳舞质地、跳舞创意、感知质地、时序一致性和身份一致性六个方面。
在统统六个维度上,MACE-Dance都得回了最高的偏好比例,其中跳舞质地和跳舞同步性两项逾越了60%的投票,身份一致性达到50%,其余维度均在56%以上。这些结果与量化目的高度吻合,阐扬了评测条约盘算的有用性。
七、Motion Expert还能作念什么:畅通编订功能
除了重重生成完整的跳舞序列,Motion Expert还内置了一套"蒙版去噪"机制,支抓在推理阶段对已有动作序列进行局部编订,而不需要再行磨练。
这个机制的道理访佛于图像建筑:给定一段部分已知的动作序列和一个二值蒙版(绚烂哪些位置是已知的、哪些是需要补全的),在每个去噪时候步里,将已知部分替换回现时时候步对应的噪声版块,让模子只对未知部分进行生成。这么生成的未知部分会自然地与已知部分保抓时序平滑、物理合理和音乐一致。
这套机制不错支抓三种实用的编订模式。时序补全模式不错保留序列开首和驱逐,生成中间缺失的过渡段落;重要级编订模式不错固定上半身动作,让模子补全下半身,或反之;轨迹率领模式不错指定根节点的出动轨迹,让模子生成一段在空间中按照给定旅途出动的完整跳舞。这三种模式不需要任何非凡磨练,与DDIM推理进程完全兼容。
另一个值得一提的脾性是:由于Motion Expert的输出是法度的三维畅通参数时势,不错径直接入现存的扮装绑定和动作重定向进程,用于CG动画制作、VR虚构东谈主适度、游戏扮装驱动等场景,大幅拓展了这套系统的推行哄骗限制。
八、长序列生成与跨作风泛化
在跨作风泛化方面,讨论团队对维吾尔族舞、敦煌舞、傣族舞、K-Pop和Popping五种作风进行了可视化展示,每种作风都呈现出清醒不同的畅通特征:维吾尔族舞以细小贯穿的上身旋转和丰富的手臂轨迹为主;敦煌舞呈现出融会的下盘撑抓配合优雅的圆弧手臂;傣族舞强调柔滑流动的腕部和肘部动作;K-Pop展现出清醒的节拍切换和对称性姿势;Popping则以爆发性的局部窒碍动作和断奏感为中枢。
宝马会(BMW Club)官网app下载在长序列生成方面,一首完整的音乐正常抓续30秒到5分钟,这对任何生成系统都是一大挑战。MACE-Dance通过两个层面的盘算来应付这个问题。在畅通生成层面,BiMamba的景况空间递归机制自然具备超出磨练长度的外推才气,磨练时只用8秒序列,推理时不错生成34秒以上的序列,Mamba的荫藏景况充任了时候挂牵,将短期动态传播到更长的时候维度。在视频渲染层面,摄取了"竭力于渲染"政策:每一段生成时同期参考三个接续——Motion Expert提供的全局一致二维姿态序列(作为十足几何参考),上一段末帧(保证外不雅贯穿性),以及固定不变的参考图片(保证身份一致性)。三重接续共同注重了乌有积累,幸免了东谈主物渐渐"变脸"或布景渐渐"漂移"的问题。
说到底,MACE-Dance作念的事情不错用一句话轮廓:把音乐驱动跳舞视频生成这件看起来相等复杂的事情,通过忠良的任务拆分和专科化盘算,变成了两个相对浅薄的问题的串联解法。第一个群众专注于"怎么跳",第二个群众专注于"跳出来的东谈主长什么样",两者之间用一套法度的三维畅通参数时势作为通用接口,各自独处优化,吞并输出。
这对普通东谈主意味着什么?或者不久的改日,确凿只需要一张像片加一首歌,就能生成一段我方"在跳舞"的视频,非论是民族舞、K-Pop照旧街舞,系统都能生成作风合适、动作剖判、东谈主物传神的成片,而不需要任何跳舞基础。自然,这项时刻也带来了值得谨慎对待的伦理问题——用他东谈主像片生成视频需要明确的授权,磨练数据中存在的文化和审好意思偏见也需要抓续关爱。
对讨论感酷好酷好的读者,不错通过arXiv编号2512.18181找到完整论文,代码也已在GitHub上绽开(款式地址为AMAP-ML/MACE-Dance)。
Q&A
Q1:MACE-Dance生成跳舞视频需要提供什么输入?
A:MACE-Dance只需要两个输入:一张参考东谈主物图片和一段音乐。系统会自动字据音乐作风和节拍生成对应的跳摆动作,再将动作"套"在参考图片里的东谈主物身上,最终输出一段完整的跳舞视频,不需要用户我方盘算任何动作。
Q2:MACE-Dance使用的三维畅通参数和普通的姿态骨架有什么区别?
A:普通的二维姿态骨架只纪录重要在画面中的平面坐标,会丢失深度信息,阻难时重要也会灭绝。MACE-Dance使用的SMPL三维畅通参数保留了完整的空间位置、身体朝向和深度信息,不受拍摄角度影响,对自阻难也更鲁棒,提供的监督信号更融会,最终身成的畅通质地和视频一致性都更好。
Q3:MACE-Dance支抓对已有跳摆动作进行修改吗?
A:支抓。Motion Expert内置了一套蒙版去噪机制开云kaiyun(中国),无需再行磨练即可进行畅通编订。不错固定已有片断的开首和驱逐自动补全中间过渡,也不错固定上半身让系统补全下半身动作,还不错指定东谈主物出动轨迹让系统生成对应的完整跳舞序列。