AIGC

Avata-Driver 2D

在AIGC领域中,虚拟数字人技术一般分为2D虚拟数字人和3D虚拟数字人两条路线,前者包括唇型驱动、动作驱动、TTS、高分辨率生成等相关算法。本文详细介绍了2D虚拟数字人的整体框架,每个步骤的原理和对应的开源代码,以及如何落地应用。

AIGC-小ç讲车

  • chatGPT: 生成 prompt 和文案

  • Stable diffusion: 用 prompt 生成人像

  • ç: 生成讲述文案的虚拟数字人

Loop:

使用 chatGPT 生成用于图像生成的prompt

使用 chatGPT 生成用于图像生成的prompt

使用 chatGPT 生成用于讲述的文案

生成讲述文案的虚拟数字人

GANs

基于GAN的说话人驱动:talking face generation解读_mb60e8123127ed0的技术博客_51CTO博客

1、方法分类

目前talking face generation方法主要可以归于2类:

(1) 直接法: 直接学习从音频(audio)到视频帧的映射(audio2image);

(2) 间接法: 利用中间模态表征(一般是人脸的2D、3D landmarks特征)来连接音频输入和视频输出,模型被解藕成二个部分: audio2landmark,landmark2image

口型驱动

学术

传统的 Lipsync(唇音同步)方法

  • 语音驱动的说话人视频合成(Audio-driven Talking Face Generation)

1)合成的视频画面应具有较高的保真度;

2)合成的人脸面部表情应与输入的驱动语音保证高度对齐。

1、【浙大】GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis

论文链接:https://arxiv.org/abs/2301.13430

代码链接 :https://github.com/yerfor/GeneFace

浙江大学与字节跳动,https://redian.news/wxnews/250671

  • st1:语音->表情动作 (hubBERT->语音表征–3DMM人脸关键点表示)

  • st2:动作域适应

  • st3:动作渲染视频

https://redian.news/wxnews/250671

Relate

由浅入深了解Diffusion Model