AIGC | Simon Shi的小站

在AIGC领域中，虚拟数字人技术一般分为2D虚拟数字人和3D虚拟数字人两条路线，前者包括唇型驱动、动作驱动、TTS、高分辨率生成等相关算法。本文详细介绍了2D虚拟数字人的整体框架，每个步骤的原理和对应的开源代码，以及如何落地应用。

AIGC-小ç讲车

Loop:

使用 chatGPT 生成用于图像生成的prompt

使用 chatGPT 生成用于讲述的文案

生成讲述文案的虚拟数字人

1、方法分类

目前talking face generation方法主要可以归于2类：

(1) 直接法: 直接学习从音频(audio)到视频帧的映射（audio2image）；

(2) 间接法: 利用中间模态表征（一般是人脸的2D、3D landmarks特征）来连接音频输入和视频输出，模型被解藕成二个部分: audio2landmark，landmark2image

口型驱动

1）合成的视频画面应具有较高的保真度；

2）合成的人脸面部表情应与输入的驱动语音保证高度对齐。

1、【浙大】GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis