MotionLatentDiffusion

Motion Diffusion in Latent Space

Introduction

条件人体运动生成，根据各种条件输入生成合理的人体运动序列。

本文首先设计了一个 VAE，为人体运动序列获得了具有代表性的低维潜在编码；然后对运动潜在空间执行扩散过程，学习从条件到代表性运动潜在代码的概率映射。

两种学习从纹理描述符到运动序列的概率映射函数的方法：

运动和语言之间的跨模态兼容潜在空间

学习 motion VAE 和 text VE，通过 KL 散度将两个编码器约束到兼容的潜在空间中。

条件扩散模型

提出了用于人体运动合成的条件扩散模型，学习从文本描述符到人体运动序列的更强大的概率映射。

本文采用两种运动表示：

基于经典 SMPL 的运动参数——广泛应用于动作捕捉
结合关节特征的冗余手工运动特征——主要应用于角色动画

Methods

输入的条件包括：

textual descriptions：\(w^{1:N}=\{w^i\}^N_{i=1}\)，描述动作的句子
action labels：\(a \in A\)，取自预定义动作类别集的动作标签
empty conditions：\(c=\empty\)

MLD 旨在以非确定性方式生成人体运动 \(\hat{x}^{1:L}=\{\hat{x}^i\}^L_{i=1}\)，其中 \(L\) 表示运动长度或帧号。

本文在 3D 关节旋转、位置、速度和脚接触的组合中应用 motion representation。

使用运动编码器 \(\mathcal{E}\) 将运动序列 \(x^{1:L}=\{x^i\}^L_{i=1}\) 编码成潜在的 \(z=\mathcal{E}(x^{1:L})\)
使用运动解码器 \(\mathcal{D}\) 将 \(z\) 解码为运动序列 \(\hat{x}^{1:L}=\mathcal{D}(z)=\mathcal{D}(\mathcal{E}(x^{1:L}))\)

Motion Representation in Latents

本文基于 transformer-based 架构，构建 motion VAE（之后记作 MAE），由 transformer encoder \(\mathcal{E}\) 和 transformer decoder \(\mathcal{D}\) 组成，\(\mathcal{V}=\{\mathcal{E,D}\}\) 由仅使用 MSE-loss 和 KL-loss 的运动 \(x^{1:L}\) 重建进行训练。此外，对 \(\mathcal{E,D}\) 使用长跳跃连接结构，进一步增强潜在表示。

放一个 VAE 的图：

什么是长跳跃连接？

长跳跃连接是指在神经网络中，将较早层的输出直接连接到较后层的输入，跨越多个中间层。

实现方式：直接相加，将早期层的输出直接加到后面层的特征图上；拼接，将早期层的输出与后面层的特征图在通道维度上拼接。

Transformer encoder \(\mathcal{E}\)

输入：可学习的分布标记，和具有任意长度的逐帧运动特征 \(x^{1:L}\)

输出：\(\mu\) 和 \(\sigma\)，作为高斯分布的两个参数，随后用于重参数化 \(z\)

Transformer decoder \(\mathcal{D}\)

输入：长度为 \(L\) 的零运动标记作为查询，潜在变量 \(z\in R^{n\times d}\) 作为记忆

处理：交叉注意力机制允许每个查询根据潜在记忆 \(z\) 中的信息，动态地调整关注点，每一步输出不仅依赖于先前的输出，还依赖于从潜在空间中提取的整体上下文信息

输出：包含 \(L\) 帧的人体动作序列 \(\hat{x}^{1:L}\)

Motion Latent Diffusion Model

Diffusion probabilistic models

能够学习长度为 \(T\) 的马尔可夫噪声过程，\(\{x_t\}^T_{t=1}\)，把噪声从高斯分布逐渐退火到数据分布 \(p(x)\)

For Motion Generation

输入：随机噪声，时间步 \(t\)，表示当前在扩散过程中的位置

输出：运动序列 \(\{\hat{x}_t^{{1:N}}\}^T_{t=1}\)

处理：模型从纯随机噪声开始，使用 transformer-based 去噪器 \(\epsilon_{\theta}(x_t,t)\) 来预测并去除部分噪声，迭代 \(T\) 次将随机噪声退火成有意义的运动序列

改进：扩散过程和去噪过程在低维的运动潜在空间中进行，最后模型将低维空间的结果映射回完整的运动序列。

Denoiser \(\epsilon_{\theta}\)

输入：噪声化的潜在表示 \(z_t\) 和时间步 \(t\)

输出：预测的去噪后的潜在表示 \(z_{t-1}=\epsilon_{\theta}(z_t,t)\)

潜在空间扩散过程

使用马尔可夫噪声过程建模：\(q(z_t|z_{t-1})=N(\sqrt{\alpha_t}z_{t-1},(1-\alpha_t)I)\)
\(\alpha_t \in (0,1)\) 是采样的超参数
\(\{z_t\}^T_t\) 表示噪声序列

训练阶段

使用无条件生成目标 \(L_{MLD}=E_{\epsilon,t}\left[||\epsilon-\epsilon_{\theta}(z_t,t)||^2_2\right]\) 来训练去噪器 \(\epsilon_{\theta}\)
\(\epsilon \sim \mathcal{N}(0,1)\)，\(z_0=\mathcal{E}(x^{1:L})\)
目标函数的意思是：最小化预测的噪声和实际添加的噪声之间的均方误差
训练过程中，模型学习如何从给定的噪声化数据中预测原始的噪声。

生成阶段

从纯噪声 \(z_T\) 开始，逐步应用去噪器
在每一步，使用 \(z_{t-1}=\epsilon_{\theta}(z_t,t)\) 预测，重复 \(T\) 次得到 \(z_0\)

Conditional Motion Latent Diffusion Model

通过应用 \(p(z|c)\) 的条件分布可以生成条件运动 \(\mathcal{G}(c)\)。

\(\mathcal{G}(c)\) 使用条件降噪器 \(\epsilon_{\theta}(z_t,t,c)\) 实现。

对于不同的条件，只需要学习 \(\epsilon_{\theta}(z_t,t,c)\)
为了处理不同的 \(c\)，使用用于条件嵌入的域编码器 \(\tau_{\theta}(c)\in \mathbb{R}^{m\times d}\) 来优化去噪器 \(\epsilon_{\theta}(z_t,t,\tau_{\theta}(c))\)

什么是域编码器？

本文提到的域编码器 \(\tau_{\theta}(c)\) 是一个将条件信息 \(c\) 映射到一个固定维度向量空间的函数。

不同类型的条件（如文本、动作类别）可以被转换成相同格式和维度的向量。

具体实现：

文本条件：使用预训练的 CLIP 文本编码器 \(\tau_{\theta}^w(w^{1:N}) \in \mathbb{R}^{1\times d}\)

动作类别：使用可学习的嵌入 \(\tau_{\theta}^a(a)\in \mathbb{R}^{1\times d}\)

条件注入

把嵌入的条件注入 transformer-based 的 \(\epsilon_{\theta}\) 中：

使用连接 (concatenatin) 和交叉注意力 (cross-attention) 两种方法
连接更有效。

什么是连接 concatenation？

连接是将两个或多个向量或张量在特定维度上合并的操作。

假设有两个向量 A 和 B，连接操作会创建一个新向量 C，其中包含 A 和 B 的所有元素。

在扩散模型中，可以将条件向量直接连接到噪声潜在表示上，让模型同时处理这两种信息。

什么是交叉注意力 cross-attention？

一种注意力机制，允许模型在处理一种输入时关注另一种输入的相关部分。

有三个关键组件：Query，Key，Value

Q 来自一个输入源，K 和 V 来自另一个输入源

模型计算 Q 和 K 之间的相似度，然后使用这些相似度来加权值

在扩散模型中，可以让噪声潜在表示作为查询，条件信息作为键和值，从而让模型根据当前生成的内容动态地关注条件的不同方面。

放一个 self-attention 的图

Self-Attention：输入来源于单一输入序列

Cross-Attention：输入来源于两个不同的输入序列

条件目标函数

\(L_{MLD}:=\mathbb{E}_{\epsilon,t,c}\left[||\epsilon-\epsilon_{\theta}(z_t,t,\tau_{\theta}(c))||^2_2\right]\)

训练策略

冻结 \(\tau_{\theta}^w\)
通过条件目标函数，联合优化 \(\tau_{\theta}^a\) 和 \(\epsilon_{\theta}\)
使用无分类器扩散指导来学习 \(\epsilon_{\theta}\)

什么是无分类器扩散指导？

一种在条件扩散模型中改善生成质量的技术，不需要额外的分类器。通过在训练和采样过程中结合条件和无条件模型来实现。

工作原理：

训练阶段：同时学习条件分布 \(p(x|c)\) 和无条件分布 \(p(x)\)

采样阶段：通过线性组合生成样本

为什么说是一种权衡？

通过增强条件信息的影响，生成的样本更符合给定的条件；

强化条件信息使生成过程更确定性，可能导致生成结果的变化减少，多样性降低。

采样策略

学习条件分布和无条件分布，在 \(10\%\) 的样本中丢弃条件信息
使用线性组合 \(\epsilon_{\theta}^s(z_t,t,c)=s\epsilon_{\theta}(z_t,t,c)+(1-s)\epsilon_{\theta}(z_t,t,\empty)\)
\(s\) 是指导比例，\(s\gt 1\) 可以增强指导效果

\(s\) 值是什么？

\(s\) 是指导比例 guidance scale，控制条件模型和无条件模型输出的混合比例，通常 \(s\ge 1\)

这个线性组合用来干什么？

这个线性组合在每一个去噪步骤中都会被使用，我们用 \(\epsilon_{\theta}^s(z_t,t,c)\) 来预测噪声，并用于更新 \(z_t\) 到 \(z_{t-1}\)

生成过程

完成了条件控制下的逐步去噪过程后，模型得到预测的潜在表示 \(z_0\)，然后解码器 \(\mathcal{D}\) 将这个潜在表示转换为实际的运动数据。

所以！条件运动潜在扩散模型到底做了什么？

输入：原始运动数据和对应的条件信息，如文本描述或动作类别
编码：使用编码器 \(\mathcal{E}\) 将原始运动数据 \(x^{1:L}\) 映射到潜在空间，得到初始潜在表示 \(z_0=\mathcal{E}(x^{1:L})\)
条件嵌入：使用 \(\tau_{\theta}(c)\) 将条件信息 \(c\) 嵌入到适当的向量空间
扩散过程（训练阶段）：使用马尔可夫噪声过程，从 \(z_0\) 开始逐步添加噪声，生成噪声序列 \(\{z_t\}^T_{t=0}\)
去噪器训练：训练去噪器 \(\epsilon_{\theta}\) 来预测和移除噪声
同时学习条件去噪和无条件去噪
在 \(10\%\) 的样本中丢弃条件信息，以学习无条件生成
目标函数：条件目标函数 \(L_{MLD}\)，联合优化 \(\epsilon_{\theta}\) 和 \(\tau_{\theta}\)
生成过程：开始于纯噪声 \(z_T\)，逐步去噪
使用无分类器扩散指导
解码阶段：使用解码器 \(\mathcal{D}\) 将最终的潜在表示 \(z_0\) 转换回原始运动数据空间，\(x^{1:L}=\mathcal{D}(z_0)\)

Experiments

Datasets and Evaluation Metrics

数据集

Text to motion

HumanML3D
KIT

Action to motion

HumanAct12
UESTC

Implementation Details

模型结构

VAE 模型中的运动变换编码器和解码器都由 9 层和 4 个头组成，默认使用 skip 连接
使用了 transformer-based 去噪器
条件嵌入和潜在变量 \(z\) 分别是 1256 维和 1024 维的向量

条件设置

使用冻结的 \(CLIP VIT-L/14\) 模型作为文本编码器
对动作条件使用可学习的嵌入

训练细节

使用 \(AdamW\) 优化器，学习率固定为 \(10^{-4}\)
\(VAE\) 阶段的 mini-batch 大小为 128，扩散训练阶段为 64
\(VAE\) 阶段训练 6K 轮，扩散阶段训练 3K 轮
训练时使用 1K 步扩散，推理时使用 50 步
方差 \(\beta_t\) 从 \(8.5\times 10^{-4}\) 线性缩放到 \(0.012\)

什么叫方差 \(\beta_t\) 线性缩放？

如果用 \(x_t\) 表示 \(t\) 时刻的数据，下一时刻的数据可以表示为 \(x_{t+1}=\sqrt{1-\beta_t}\times x_t + \sqrt{\beta_t}\times \epsilon\)，其中 \(\epsilon\) 是从 \(N(0,1)\) 中采样的噪声。

方差：

在 \(\sqrt{\beta_t}\times \epsilon\) 这一项中， \(\beta_t\) 起到了缩放噪声的作用

由于 \(\epsilon\) 的方差为 1，乘以 \(\sqrt{\beta_t}\times \epsilon\) 之后，新噪声项的方差就变成了 \(\beta_t\)

线性缩放：

扩散过程的开始，添加的噪声很小

随着扩散步骤的进行，噪声量逐渐增加

到扩散过程结束时，噪声量达到最大

Comparisons on Text-to-motion

研究方法

引入了基于文本输入的运动潜在扩散模型，开拓了条件运动生成的探索
训练了一个 \(25M\) 参数的 \(MLD-1\) 模型，以语言提示为条件
使用冻结的 \(CLIP\) 模型来编码文本到 \(1256\) 维的投影池化输出

评估方法

使用 HumanML3D 和 KIT 数据集
使用 95% 置信区间，运行 20 次

Comparisons on Action-to-motion

评估方法

进行 20 次评估
报告训练集和测试集上的 \(FID\) 分数

数据集

UESTC
HumanAct12

Comparisons on Unconditional Generation

实现细节

使用 ACTOR 的 transformer VAE 模型
参考 TEMOS 方法使其类别无关
设置 6 个头/层用于 transformer
学习率 \(10^{-4}\)
为适应 VPoser-t 的时间任务，将输入修改为固定长度的动作

评价指标

Motion quality

FID，Frechet Inception Distance
MPJPE and PAMPJPE
ACCL，Acceleration Error

Generation diversity

DIV
MM，MultiModality

Condition matching

R Precision，motion-retrieval precision
MM Dist，Mult-modal Distance

Time costs

AITS，Average Inference Time per Sentence

Ablation Studies 消融研究

什么是消融研究？

用于评估模型中各个组件的重要性，通过系统地移除模型的某些部分，然后观察这种改变对模型性能的影响，从而了解每个组件的贡献。

MLD 包括 \(\mathcal{V}\) 和潜在扩散模型 \(\epsilon_{\theta}\)。

首先关注 \(\mathcal{V}\)，用生成和重构指标来评估它的组件。

Latents 在运动序列表示中的有效性

首先在受控装置中烧蚀 \(\mathcal{V}\) 的几个组件，研究 \(z\) 的形状，跳跃连接和 transformer 层数。

\(z\) 是 \(\mathcal{V}\) 和 \(\tau_{\theta}\) 之间的桥梁。将位姿 \(x^i\) 的嵌入维数锁定为 256，探索 \(z\in \mathbb{R}^{i\times 256}\)，给出 \(MLD-i\)。然后在最佳的 \(MLD-7\) 上评估 skip connection 和 transformer 层。

Latents 在 latent-based 扩散模型中的有效性

\(MLD-i\) 指的是潜在变量 \(z\in \mathbb{R}^{i\times 256}\) 的形状，其中 \(MLD-1\) 使用最小的潜在变量，在大多数指标上取得了最佳性能。

之后给出对 \(\epsilon_{\theta}\) 的评价，级联嵌入的编码器设计比交叉注意力嵌入的更好。

跳跃连接对运动潜在扩散模型有显著改进。

然后，通过扩散采样评估 \(MLD\) 的生成，而不是通过潜在采样在 \(\mathcal{V}\) 中生成。最小潜在连接和跳跃连接的 \(MLD\) 优于其他方法。

Inference time

运动扩散模型的一个显著限制是推理时间较长。采用去噪扩散隐式模型 DDIM 提供推理时间、浮点运算和 FID 的详细评估。

Discussion

本文提出的 MLD 仍然存在以下局限性：

可以生成任意长度的结果，但仍然低于数据集中的最大长度
MLD 关注的是关节型的人体，但没涉及面部运动、手部运动和动物运动

Appendix

两种在去噪过程中的预测方法

直接预测去噪后的潜在向量 \(z_0\)

直接预测完全去噪后的结果
模型直接从噪声数据中推断出原始的、无噪声的潜在表示

预测噪声 \(\epsilon\)

预测添加到原始数据上的噪声
模型学习识别和预测在扩散过程中添加的噪声，然后通过从噪声数据中减去预测的噪声来获得去噪结果

MotionLatentDiffusion

Motion Diffusion in Latent Space

Introduction

Methods

Motion Representation in Latents

Transformer encoder \(\mathcal{E}\)

Transformer decoder \(\mathcal{D}\)

Motion Latent Diffusion Model

Diffusion probabilistic models

For Motion Generation

Denoiser \(\epsilon_{\theta}\)

潜在空间扩散过程

训练阶段

生成阶段

Conditional Motion Latent Diffusion Model

条件注入

条件目标函数

训练策略

采样策略

生成过程

所以！条件运动潜在扩散模型到底做了什么？

Experiments

Datasets and Evaluation Metrics

数据集

Text to motion

Action to motion

Implementation Details

模型结构

条件设置

训练细节

Comparisons on Text-to-motion

研究方法

评估方法

Comparisons on Action-to-motion

评估方法

数据集

Comparisons on Unconditional Generation

实现细节

评价指标

Motion quality

Generation diversity

Condition matching

Time costs

Ablation Studies 消融研究

Latents 在运动序列表示中的有效性

Latents 在 latent-based 扩散模型中的有效性

Inference time

Discussion

Appendix

两种在去噪过程中的预测方法

直接预测去噪后的潜在向量 \(z_0\)

预测噪声 \(\epsilon\)

Motion Representation

Details on Motion Latent Diffusion Models