Avata-Driver 2D
在AIGC领域中,虚拟数字人技术一般分为2D虚拟数字人和3D虚拟数字人两条路线,前者包括唇型驱动、动作驱动、TTS、高分辨率生成等相关算法。本文详细介绍了2D虚拟数字人的整体框架,每个步骤的原理和对应的开源代码,以及如何落地应用。
AIGC-小ç讲车
chatGPT: 生成 prompt 和文案
Stable diffusion: 用 prompt 生成人像
ç: 生成讲述文案的虚拟数字人
Loop:
使用 chatGPT 生成用于图像生成的prompt
使用 chatGPT 生成用于图像生成的prompt
使用 chatGPT 生成用于讲述的文案
生成讲述文案的虚拟数字人
GANs
基于GAN的说话人驱动:talking face generation解读_mb60e8123127ed0的技术博客_51CTO博客
1、方法分类
目前talking face generation方法主要可以归于2类:
(1) 直接法: 直接学习从音频(audio)到视频帧的映射(audio2image);
(2) 间接法: 利用中间模态表征(一般是人脸的2D、3D landmarks特征)来连接音频输入和视频输出,模型被解藕成二个部分: audio2landmark,landmark2image
口型驱动
学术
传统的 Lipsync(唇音同步)方法
1)合成的视频画面应具有较高的保真度;
2)合成的人脸面部表情应与输入的驱动语音保证高度对齐。
1、【浙大】GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis
论文链接:https://arxiv.org/abs/2301.13430
代码链接 :https://github.com/yerfor/GeneFace
浙江大学与字节跳动,https://redian.news/wxnews/250671
st1:语音->表情动作 (hubBERT->语音表征–3DMM人脸关键点表示)
st2:动作域适应
st3:动作渲染视频
https://redian.news/wxnews/250671