Simon Shi的小站

人工智能,机器学习, 强化学习,大模型,自动驾驶

0%

[数学体系解读](http://gwang-cv.github.io/2015/11/15/数学体系解读(by MIT Lin Dahua)/)

代数学、几何学、分析数学是数学的三大基础学科

  • 集合论

  • 分析

  • 高等代数

    • 高等代数是代数学发展到高级阶段的总称,它包括许多分支。现在大学里开设的高等代数,一般包括两部分:线性代数多项式代数
  • 解析几何

    • 微积分
    • 实分析
    • 微分几何
  • 代数

    • 线性代数
    • 微分代数
    • 调和分析,和李代数,巴拿赫代数
  • 几何学

  • 拓扑学

  • 数学分析

  • 函数论

  • 常微分方程

  • 偏微分方程

  • 泛函分析

  • 计算数学

  • 概率论

  • 数理统计学

  • 应用统计数学

  • 运筹学

  • 二级学科

  • 离散数学: 研究有限个元素;集合论,图论,代数;数理逻辑

[TOC]

A Survey of Rigid 3D Pointcloud Registration Algorithms 2014

Principal Component Analysis(PCA)

Singular Value Decomposition (SVD),

Iterative Closest Point (ICP)

刚性3D点云配准算法研究 2014

使用深度传感器(例如飞行时间相机)获得的3D点云的几何对齐对于机器人技术和计算机视觉中的重要应用而言是一项艰巨的任务。由于便宜的深度感测设备的最新出现,文献中提出了许多不同的3D配准算法,着重于不同的领域,例如定位和映射或图像配准。在这篇调查论文中,我们回顾了最新的注册算法,并讨论了它们的通用数学基础。从简单的确定性方法(例如主成分分析(PCA)和奇异值分解(SVD))开始,对最近引入的方法(例如迭代最近点(ICP)及其变体)进行了分析和比较。

从简单的确定性方法(例如主成分分析(PCA)和奇异值分解(SVD))开始,对最近引入的方法(例如迭代最近点(ICP)及其变体)

阅读笔记(CVPR2015)Non-Rigid Registration of Images With Geometric and Photometric Deformation……

https://blog.csdn.net/miracle0_0/article/details/82839534

傅里叶矩匹配(FMM)的加权重叠局部仿射图像配准算法[22]

Smooth Shells: Multi-Scale Shape Registration with Functional Maps

https://github.com/marvin-eisenberger/smooth-shells

https://arxiv.org/abs/1905.12512

figure 4

Numerical Geometry of Non-Rigid Shapes

2009 book

从微观到宏观,可变形物体在我们周围的世界中无处不在。从医学到安全性的广泛应用都需要研究这种形状并对其行为进行建模。近年来,非刚性形状吸引了越来越多的兴趣,这导致了该领域的快速发展,其中最先进的技术源于截然不同的科学领域-理论和数值几何,优化,线性代数,图论,机器学习和计算机图形学(仅举几例)被用于寻找解决方案。

Functional maps: a flexible representation of maps between shapes

2012

Figure 2: Two shapes with three maps between them, each rendered as a point-to-point mapping through color correspondence (top) and its functional representation (bottom) with colors proportional to matrix values. Note that the least isometric map in (d) leads to a less sparse functional matrix.

Shape Analysis via Functional Map Construction and Bases Pursuit

2019

Fig. 1. Given a pair of shapes and a collection of corresponding descriptors, our method produces a set of basis elements along with an associated functional map. These bases are not necessarily LB smooth and thus their aligning matrix is typically dense (left). Our machinery can be utilized in various geometry processing tasks such as non-isometric shape matching (right).

Eigen-System

https://www.sciencedirect.com/topics/mathematics/eigensystem

数值分析手册,2019 5.3 Laplace–Beltrami特征图方法

5.3 使用LB特征图进行非刚性歧管配准

拉普拉斯-贝尔特拉米算子(Laplace–Beltrami operator)

Riemann Surface 黎曼曲面

loop subdivision

基于四边形的网格通常使用Catmull-Clark,而基于三角形的网格通常使用环细分

img

https://ww2.mathworks.cn/matlabcentral/fileexchange/24942-loop-subdivision

https://ww2.mathworks.cn/matlabcentral/fileexchange/27982-wavefront-obj-toolbox?s_tid=srchtitle

​ function write_wobj(OBJ,fullfilename)

​ function read_wobj(fullfilename)

https://ww2.mathworks.cn/matlabcentral/fileexchange/18957-readobj?s_tid=srchtitle

​ function obj = readObj(fname)

商汤科技 SenseTime

[TOC]

论文

CVPR 2020 《对人脸生成模型的隐空间可解释性分析》

入选CVPR 2020论文《对人脸生成模型的隐空间可解释性分析》提出了一种简单而通用的技术InterFaceGAN,用于在潜在空间中进行语义人脸编辑,可控制姿势以及其他面部属性,例如性别、年龄、眼镜等,还能够纠正GAN造成的伪影。

img

这种方法对GAN的隐空间进行了深入分析,能更好理解GAN是如何将一个随机噪声转化为一张高质量图片的。

ICCV 2019

面向目标检测的深度网络基础算子

《CARAFE:基于内容感知的特征重组》

《CARAFE: Content-Aware ReAssembly of FEatures》

特征上采样是深度神经网络结构中的一种基本的操作,例如:特征金字塔。它的设计对于需要进行密集预测的任务,例如物体检测、语义分割、实例分割,有着关键的影响。

内容感知的特征重组(CARAFE),它是一种通用的,轻量的,效果显著的特征上采样操作。

CARAFE有这样一些引人注目的特性:1.大视野。不同于之前的上采样方法(如:双线性插值),仅使用亚像素的临近位置。CARAFE可以聚合来自大感受野的环境特征信息。2.基于特征感知的处理。不同于之前方法对于所有样本使用固定的核(如:反卷积),CARAFE可以对不同的位置进行内容感知,用生成的动态的核进行处理。3.轻量和快速计算。CARAFE仅带来很小的额外开销,可以容易地集成到现有网络结构中。我们对CARAFE在目标检测,实例分割,语义分割和图像修复的主流方法上进行广泛的测试,CARAFE在全部4种任务上都取得了一致的明显提升。CARAFE具有成为未来深度学习研究中一个有效的基础模块的潜力。

面向三维视觉的点云处理基础网络

Interpolated Convolutional Networks for 3D Point Cloud Understanding

内插卷积网络以了解3D点云

代表性论文:《基于插值卷积的点云处理主干网络》

点云是一种重要的三维数据类型,被广泛地运用于自动驾驶等场景中。传统方法依赖光栅化或者多视角投影,将点云转化成图像、体素其他数据类型进行处理。近年来池化和图神经元网络在点云处理中展现出良好的性能,但仍然受限于计算效率,并且算法易受物体尺度、点云密度等因素影响。

img

本文提出了一种全新的卷积方式,即插值卷积,能够从点云中高效地学习特征。插值卷积从标准图像卷积和图像插值中获取灵感,卷积核被划分成一组空间中离散的向量,每个向量拥有各自的三维坐标,当点云中的某点落在卷积向量的邻域时,参考图像插值的过程,我们将该点对应的特征向量插值到卷积向量对应的位置上,然后进行标准的卷积运算,最后通过正则化消除点云局部分布不均的影响。

面向不同的任务,我们提出了基于插值卷积的点云分类和分割网络。分类网络采用多路径设计,每一条路径的插值卷积核具有不同的大小,从而网络能够同时捕获全局和细节特征。分割网络参考图像语义分割的网络设计,利用插值卷积做降采样。在三维物体识别,分割以及室内场景分割的数据集上,我们均取得了领先于其他方法的性能。

面向AR/VR的人体感知与生成

代表性论文:《深入研究用于无限制图片3D人体重建中的混合标注》

​ 《Delving Deep into Hybrid Annotations for 3D Human Recovery in the Wild》

https://penincillin.github.io/dct_iccv2019

虽然计算机视觉研究者在单目3D人体重建方面已经取得长足进步,但对无限制图片进行3D人体重建依然是一个挑战。主要原因是在无限制图片上很难取得高质量的3D标注。为解决这个问题,之前的方法往往采用一种混合训练的策略来利用多种不同的标注,其中既包括3D标注,也包括2D标注。虽然这些方法取得了不错的效果,但是他们并没有研究不同标注对于这个任务的有效程度。

img

**本篇论文的目标就是详细地研究不同种类标注的投入产出比。**特别的,我们把目标定为重建给定无限制图片的3D人体。通过大量的实验,我们得到以下结论:1.3D标注非常有效,同时传统的2D标注,包括人体关键点和人体分割并不是非常有效。2.密集响应是非常有效的。当没有成对的3D标注时,利用了密集响应的模型可以达到使用3D标注训练的模型92%的效果。

代表性论文:《基于卷积网络的人体骨骼序列生成》

​ 《Convolutional Sequence Generation for Skeleton-Based Action Synthesis》

现有的计算机视觉技术以及图形学技术已经可以生成或者渲染出栩栩如生的影像片段。在这些方法中,人体骨骼序列的驱动是不可缺少的。高质量的骨骼序列要么使用动作捕捉设备从人身上获取,要么由动作设计师手工制作。而让计算机代为完成这些动作,高效地生成丰富、生动、稳定、长时间的骨骼序列,就是这一工作的目标。

img

本文使用高斯过程产生随机序列,使用对抗网络和时空图卷积网络来学习随机序列和动作序列之间的映射关系。该方法既可以产生动作序列,也可将动作序列映射到随机序列所在的空间,并利用高斯过程进行编辑、合成、补全。

本方法在由真人动作捕捉得到的NTU-RGB+D数据集上,以及我们收集的虚拟歌手“初音未来”的大量舞蹈设计动作上,完成了详细的对比实验。实验表明,相对于传统的自回归模型(Autoregressive Model),本文使用的图卷积网络可以大大提高生成的质量和多样性。

面向全场景理解的多模态分析

代表性论文:《基于图匹配的电影视频跨模态检索框架》

电影视频检索在日常生活中拥有极大需求。例如,人们在浏览某部电影的文字简介时,时常会被其中的精彩部分吸引而想要看相应的片段。但是,通过文字描述检索电影片段目前还存在许多挑战。相比于日常生活中普通人拍摄的短视频,电影有着极大的不同:1.电影是以小时为单位的长视频,时序结构很复杂。2.电影中角色的互动是构成故事情节的关键元素。因此,我们利用了电影的这两种内在结构设计了新的算法来匹配文本段落与电影片段,进而达到根据文本检索电影片段的目标。

img

首先,我们提出事件流模块以建模电影的时序特性。该模块基于二分图匹配,将文本中的每一句话按照事件与电影片段的对应子片段匹配。其次,我们提出人物互动模块,该模块通过图匹配算法计算文本中解析得到的人物互动图和视频中提取的人物互动图的相似度。综合两个模块的结果,我们能得到与传统方法相比更精准的匹配结果,从而提高检索的正确率。

代表性论文:《融合视觉信息的音频修复》

多模态融合是交互智能发展的重要途径。在多媒体信息中,一段音频信号可能被噪声污染或在通信中丢失,从而需要进行修复。本文我们提出依据视频信息对缺失音频信息进行修复的一种融合视觉信息的音频修复方案。

img

此方案核心思想在于:1.将音频信号在频谱上进行操作,并将频谱作为二维图像信号进行处理,可以极大地利用计算机视觉领域的优势,超越传统的音频解决方案。2.为了融合视觉信息,基于音视频同步学习得到的联合子空间会发挥巨大的优势。

针对此问题的研究,我们将已有的多模态乐器演奏数据集MUSIC扩大成为一个新的更全面的数据集,MUSICES。实验证明我们提出的视觉融合的音频修复系统可以在没有视频信息注入的情况下取得可观的效果,并在加入视频信息后,生成与视频和谐的音频片段。

https://ps.is.tuebingen.mpg.de/research_projects/virtual-humans-old

人体肯定对我们的生活至关重要,通常以图像和视频形式描绘。通过学习人体的形状以及如何从数据中移动出来,我们正在开发世界上最真实的人体模型。我们的目标是使人体3D模型的外观和移动方式与真实人类没有区别。这样的虚拟人可以用于特殊效果,并将在新兴的虚拟现实系统中扮演重要角色。它们还可以用于计算机视觉,以生成用于学习方法的训练数据,或者可以直接适合于传感器数据。造成这种困难的原因是,人体的关节运动非常激烈,会随着运动的变化而变形,并且在各个对象之间呈现出很大的形状变异性。

在过去的五年中,我们开发了一系列可用于图形和视觉的3D人体模型:BlendSCAPE [ ], Delta [ ], Dyna [ ] and SMPL [ ]。特别是,SMPL是一种逼真的人体模型,比以前的SCAPE模型更准确,但它基于标准的混合蒙皮和混合形状。姿势混合形状可纠正混合蒙皮伪影,并由身体部位旋转矩阵的元素驱动。形状融合形状可以捕捉人的身体形状变化情况。这些是使用4000人的姿态标准化3D扫描计算得出的。动态混合形状捕获软组织如何随着运动变形。

我们公式的简单性意味着可以从大量数据中训练SMPL。这也意味着它与当前的游戏引擎和图形软件兼容,运行速度比实时速度快得多。该模型已获Body Labs Inc.商业许可,可免费用于研究目的。

马普所所有论文:https://ps.is.mpg.de/all_publications?page=4

Flow

概念理解:什么是人脸识别?

image-20200714105508084

4特点

  1. 便捷性。人脸是生物特征,不需要携带类似身份证的东西
  2. 非强制性。识别的过程甚至不需要对象的配合,只要拍摄到人脸就可以进行识别,例如安防领域就是如此。
  3. 非接触性。不需要跟设备进行接触,相比指纹更加安全一些。
  4. 并行处理。一张照片里有多个人脸时可以一起处理,不像指纹和虹膜,需要一个一个来。

人脸识别的 4 个步骤

人脸识别的过程中有4个关键的步骤:

  1. 人脸检测
  2. 人脸对齐
  3. 人脸编码
  4. 人脸匹配

人脸检测

常用api: Yolo > Dlib > cv2

人脸检测的目的是寻找图片中人脸的位置。当发现有人脸出现在图片中时,不管这个脸是谁,都会标记出人脸的坐标信息,或者将人脸切割出来。

可以使用方向梯度直方图(HOG)来检测人脸位置。先将图片灰度化,接着计算图像中像素的梯度。通过将图像转变成HOG形式,就可以获得人脸位置。

image-20200714110004953

人脸对齐

人脸对齐是将不同角度的人脸图像对齐成同一种标准的形状。

先定位人脸上的特征点,然后通过几何变换(仿射、旋转、缩放),使各个特征点对齐(将眼睛、嘴等部位移到相同位置)。

image-20200714110035830

人脸编码

人脸图像的像素值会被转换成紧凑且可判别的特征向量,这也被称为模板(template)。理想情况下,同一个主体的所有人脸都应该映射到相似的特征向量。

image-20200714110052133

人脸匹配

在人脸匹配构建模块中,两个模板会进行比较,从而得到一个相似度分数,该分数给出了两者属于同一个主体的可能性。

image-20200714110106899

人脸识别的 5 个难点

  1. 头部姿势
  2. 年龄
  3. 遮挡
  4. 光照条件
  5. 人脸表情

一文看懂人脸识别-4个特点-4个实现步骤-5个难点-算法发展轨迹

人脸识别

1.人脸识别的相关概念

​ 人脸识别(Facial Recognition),即通过视频采集设备获取用户的面部图像,再利用核心的算法对其脸部的五官位置、脸型和角度进行计算分析,进而和自身数据库里已有的范本进行比对,从而判断出用户的真实身份.人脸识别算法,在检测到人脸并定位面部关键特征点之后,主要的人脸区域就可以被裁剪出来,经过预处理之后,馈入后端的识别算法。识别算法要完成人脸特征的提取,并与库存的已知人脸进行比对,完成最终的分类

2、人脸验证

​ 人脸验证做的是1:1的比对,其身份验证模式本质上是计算机对当前人脸与人像数据库进行快速人脸比对,并得出是否匹配的过程,可以简单理解为证明你就是你。就是我们先告诉人脸识别系统,我是张三,然后用来验证站在机器面前的“我”到底是不是张三。

​ 这种模式最常见的应用场景便是人脸解锁,终端设备(如手机)只需将用户事先注册的照片与临场采集的照片做对比,判断是否为同一人,即可完成身份验证.1:1作为一种静态比对,一般在金融、信息安全领域中应用较多。例如在高速路、机场安检时,受检人员手持身份证等证件,通过检查通道,同时对受检人员的外貌及身份证信息进行识别,此过程就是典型的1:1模式的人脸识别。

1,face++(0.9950 );2,DeepFace(0.9735 );3,FR+FCN(0.9645 );4,DeepID(0.9745 );5,FaceNet(0.9963 );6, baidu的方法(0.9977 );7,pose+shape+expression augmentation(0.9807);8,CNN-3DMM estimation(0.9235 )

第一类:face++,DeepFace,DeepID,FaceNet和baidu。他们方法的核心是搜集大数据,通过更多更全的数据集让模型学会去识别人脸的多样性。这类方法适合百度/腾讯/谷歌等大企业,未来可以搜集更多更全的训练数据集。数据集包扩同一个体不同年龄段的照片,不同人种的照片,不同类型(美丑等)。通过更全面的数据,提高模型对现场应用中人脸差异的适应能力。

第二类:FR+FCN,pose+shape+expression augmentation和CNN-3DMM estimation。这类方法采用的是合成的思路,通过3D模型等合成不同类型的人脸,增加数据集。这类方法操作成本更低,更适合推广。其中,特别是CNN-3DMM estimation,作者做了非常出色的工作,同时提供了源码,可以进一步参考和深度研究。

常规人脸识别流程是:人脸检测-对齐-表达-分类。

DeepFace(0.9735 )【★★★】

一,基于3d模型的人脸对齐方法;二,大数据训练的人工神经网络。

简介:基于开源框架实现的人脸识别、脸脸检测、人脸关键点检测等任务 各个任务分别在FaceDetection, FaceAlignment, FaceRecognition 三个文件中。人脸检测 baseline: 基于基于滑动窗口的人脸检测,将训练好了的网络改为全卷积网络,然后利用全卷积网络对于任意大小的图像输入,进行获取输出HeapMap。

源码网址:https://github.com/RiweiChen/DeepFace

1
detect -> aligh -> represent -> classify

DeepID和FaceNet并没有对齐,

DeepID的解决方案是将一个人脸切成很多部分,每个部分都训练一个模型,然后模型聚合。

FaceNet则是没有考虑这一点,直接以数据量大和特殊的目标函数取胜。

DeepID(0.9745 )【★★★】

FaceNet(0.9963)【★★★★】

Baidu的方法:Targeting Ultimate Accuracy : Face Recognition via Deep Embedding

pose+shape+expression augmentation(0.9807)

CNN-3DMM estimation(0.9235)

Insightface 【★★★★★】

https://github.com/deepinsight/insightface

  • All face images are aligned by MTCNN and cropped to 112x112:

引用资源:

人脸识别技术开源代码及最新趋势汇总

基于深度学习的人脸识别技术综述

Python人脸识别和手势识别应用(face++)开发

face_recognition 史上最简单的人脸识别项目登上GitHub趋势榜

基于机器学习人脸识别face recognition具体的算法和原理

人脸识别、人脸检测、人脸对齐相关算法和论文汇总 https://github.com/polarisZhao/awesome-face

基于mtcnn和facenet的实时人脸检测与识别系统开发

OpenFace

Free and open source face recognition with deep neural networks.

Openface 简单入门

OpenFace学习(2):FaceNet+SVM匹配人脸

OpenPose 介绍

img

DeepFace

FaceDetection,

FaceAlignment,

FaceRecognition

Face Detection: baseline: 基于基于滑动窗口的人脸检测,将训练好了的网络改为全卷积网络,然后利用全卷积网络对于任意大小的图像输入,进行获取输出HeapMap。

人脸关键点检测: try1_1: 基于DeepID网络结构的人脸关键点检测

Identifition : deepid: 基于DeepID网络结构的人脸验证

Facenet

​ Face alignment using MTCNN

​ Face Recognition using Inception-ResNet-v1 model

face_recognition

face_locations: 返回人脸的box

face_landmarks: 返回人脸的关键点,五官,轮廓 _raw_face_landmarks

face Recognition:

​ face_encodings: _raw_face_landmarks

​ compare_faces

特点:

  • 流程清晰
  • 部署简单
  • 无法自定义,较难基于此架构的重新训练

猫脸识别

face detection 提取

face alignment 对齐

face recongnition 识别

  • face vertification
  • face identification

detection

alignment

基础

FaceDetection,

FaceAlignment,

FaceRecognition

目标检测:

盘点性能最强的One-stage目标检测算法

image-20200708145221603

Face Detection相关资料:

1.单个CNN人脸检测方法
2.级联CNN人脸检测方法
3.OpenCV人脸检测方法
4.Dlib人脸检测方法
5.libfacedetect人脸检测方法
6.Seetaface人脸检测方法

人脸检测(一)单个CNN

人脸检测(二).级联CNN

​ 《A Convolution Neural Network Cascade for Face Detection》

http://www.cs.stevens.edu/~ghua/publication/CVPR15b.pdf

github开源代码
github开源模型

Face Alignment

MTCNN

MTCNN 包含三个级联的多任务卷积神经网络,分别是 Proposal Network (P-Net)、Refine Network (R-Net)、Output Network (O-Net),每个多任务卷积神经网络均有三个学习任务,分别是人脸分类、边框回归和关键点定位。

[TOC]

计算机视觉领域

https://www.paperswithcode.com/area/computer-vision

UMD Faces 面部数据集

UMD Faces Dataset

UMD Faces Dataset 是一个面部数据集,主要用于身份鉴定研究,它拥有 8501 个主题共计 367,920 个面孔。该数据集分为静止图像和视频帧两部分,其中静止图像包含 367,888 张图,共计 8277 个主题;视频帧则包含 22,000 个主题视频,共计 370 万个带注释的视频帧。

https://hyper.ai/datasets/5537

3D Face

300W

300 Faces In-the-Wild Challenge (300-W)

官网介绍:https://ibug.doc.ic.ac.uk/resources/300-W/

中文介绍:https://blog.csdn.net/lgh0824/article/details/88536215

3DDFA的生成数据

http://www.cbsr.ia.ac.cn/users/xiangyuzhu/projects/3DDFA/main.htm

300W-3D
300W-3D-Face

300W-LP 合成了300W的大姿态人脸图像。

1
2
3
[300W-3D]: https://drive.google.com/file/d/0B7OEHD3T4eCkRFRPSXdFWEhRdlE/view?usp=sharing 
[300W-3D-Face]: https://drive.google.com/file/d/0B7OEHD3T4eCkZmgzUWZfd2FVVWs/view?usp=sharing
[300W-LP]: https://drive.google.com/file/d/0B7OEHD3T4eCkVGs0TkhUWFN6N1k/view?usp=sharing

AFLW2000-3D

  • 项目:3DDFA

    AFLW2000-3D由AFLW数据库的前2000张图片及其三维信息组成。三维信息由3DMM重建(Blanz et.al A morphable model for the synthesis of 3d faces, SIGGRAPH’99)得到,并且包含68个特征点的三维信息。该数据库的三维数据精准度存在争议。
    ————————————————

1
2
3
/media/simon/新加卷1/dataset/3d_face/AFLW2000/
image00040.jpg
image00040.mat
1
2
3
4
5
6
7
8
9
10
11
12
具体包含以下内容:

1)pt2d:21个二维点
2)Illum_Para:1×10 光照参数
3)Color_Para:1×7 颜色参数
4)Tex_Para: 199×1 纹理参数
5)Shape Para: 199×1 形状参数
6)Exp_Para: 29×1 表情参数
7)Pose: 1×7 姿态参数,分别为:pitch, yaw, roll, translation(dx,dy,dz),scale
8)pt3d_68: 3×68 三维特征点
————————————————
原文链接:https://blog.csdn.net/AuntieLee/article/details/105940291

image00040image00040.mat

3D Body

Human 3.6M

  • 常用于3D人体姿态估计

  • 11个人

Diversity and Size

  • • 3.6 million 3D human poses and corresponding images
  • • 11 professional actors (6 male, 5 female)
  • • 17 scenarios (discussion, smoking, taking photo, talking on the phone…)

Accurate Capture and Synchronization

  • • High-resolution 50Hz video from 4 calibrated cameras
  • • Accurate 3D joint positions and joint angles from high-speed motion capture system
  • • Pixel-level 24 body part labels for each configuration
  • • Time-of-flight range data
  • • 3D laser scans of the actors
  • • Accurate background subtraction, person bounding boxes

Support for Development

  • • Precomputed image descriptors
  • • Software for visualization and discriminative human pose prediction
  • • Performance evaluation on withheld test set

FAUST 2014

  • 300个2D扫描人体数据
数据库 网址 header 2
FAUST http://faust.is.tue.mpg.de/ A data set containing 300 real, high-resolution human scans, with automatically computed ground-truth correspondences. 一个包含300个真实,高分辨率人体扫描的数据集,具有自动计算的地面实况对应关系(Max Planck Tubingen)
Dynamic FAUST 3D人体动态数据库, 提供40,000个原始网格和对齐网格的数据集

SAESAR

SMPL使用的数据集

CAESAR http://store.sae.org/caesar/ 美国和欧洲的表面人体测量资源项目
10,000美元,2,400名男性和女性

Dyma

http://dyna.is.tue.mpg.de/

使用十个对象的40,000多次扫描

TOSCA

dataset contains synthetic meshes of fixed topology with artist-defined deformations.

数据集包含具有艺术家定义的变形的固定拓扑的合成网格。

synthetic dataset that is widely used for evaluation of mesh registration methods. It provides 80 artificially created meshes of animals and people (with 3 subjects in a dozen different poses each).

SHREC

为TOSCA添加了各种⼈造噪声⽹格,

SCAPE

Buff

http://buff.is.tue.mpg.de/

Given static 3D scans or 3D scan sequences (in pink), we estimate the naked shape under clothing (beige)

给定3D扫描序列,我们的模型评估不穿衣服的人体。

includes high resolution 3D scan sequences of 3 males and 3 females in different clothing styles.

3男3女的高分辨率的穿不同衣服的数据集。

参考资料:

开源数据库统计:

https://blog.csdn.net/m0_37570854/article/details/88736189

3D人体重建技术:

https://graphics.soe.ucsc.edu/data/BodyModels/index.html

  • SCAPE - (paper website) (data) - The correspondence between the meshes above is identical to that in SCAPE
  • FAUST - (website-data-code) - different people in different poses
  • BodyLabs - (web) - Company commercializing body model tools
  • MPI - (website-data-code) - different people in different poses from a different MPI lab
  • MPII Human Shape (website-data-code) - CAESAE dataset processed by MPI
  • CAESAR - (website-data) - Sells complete CAESAR dataset with more measurements and authorized to provide commercial license.
  • other - (web) - Other data I find around my lab that might be helpful to someone

Web Face Recognition Training Datasets (Updating)

Github-DatasetZoo

CASIA-Webface (10K ids/0.5M images) [1]

baidu

dropbox

CelebA (10K ids/0.2M images) [2]

UMDFace (8K ids/0.37M images) [3]

baidu

dropbox

VGG2 (9K ids/3.31M images) [4]

baidu

dropbox

VGG2-Face HD()

90G

MS1M-IBUG (85K ids/3.8M images) [5,6]

baidu

dropbox

MS1M-ArcFace (85K ids/5.8M images) [5,7] (Recommend)

baidu

dropbox

Asian-Celeb (94K ids/2.8M images)[8] (Recommend)

baidu faces_glintasia.zip

dropbox faces_glintasia.zip

DeepGlint (181K ids/6.75M images) [8] (Recommend)

baidu

dropbox

IMDB-Face (59K ids/1.7M images) [9]

Celeb500k (500K ids/50M images) [10]

MegaFace (672K ids/4.7M images) [11]

Face Recognition Validation Datasets

CFP-FP (500 ids/7K images/7K pairs)[12]

AgeDB-30 (570 ids/12,240 images/6K pairs)[13,6]

LFW (5749 ids/13233 images/6K pairs)[14]

CALFW (5749 ids/13233 images/6K pairs)[15]

CPLFW (5749 ids/13233 images/6K pairs)[16]

Face Recognition Image Test Datasets

MegaFace

IJB (IJB-B, IJB-C)

TrillionPairs

NIST

Face Recognition Video Test Datasets

YTF

IQIYI

Reference

[1] Dong Yi, Zhen Lei, Shengcai Liao, Stan Z. Li. Learning Face Representation from Scratch. arXiv:1411.7923, 2014.

[2] Ziwei Liu, Ping Luo, Xiaogang Wang, Xiaoou Tang. Deep Learning Face Attributes in the Wild, ICCV, 2015.

[3] Bansal Ankan, Nanduri Anirudh, Castillo Carlos D, Ranjan Rajeev, Chellappa, Rama. UMDFaces: An Annotated Face Dataset for Training Deep Networks, arXiv:1611.01484v2, 2016.

[4] Qiong Cao, Li Shen, Weidi Xie, Omkar M. Parkhi, Andrew Zisserman. VGGFace2: A dataset for recognising faces across pose and age. FG, 2018.

[5] Yandong Guo, Lei Zhang, Yuxiao Hu, Xiaodong He, Jianfeng Gao. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. ECCV, 2016.

[6] Jiankang Deng, Yuxiang Zhou, Stefanos Zafeiriou. Marginal loss for deep face recognition, CVPRW, 2017.

[7] Jiankang Deng, Jia Guo, Stefanos Zafeiriou. Arcface: Additive angular margin loss for deep face recognition, arXiv:1801.07698, 2018.

[8] http://trillionpairs.deepglint.com/

[9] Wang Fei, Chen Liren, Li Cheng, Huang Shiyao, Chen Yanjie, Qian Chen, Loy, Chen Change. The Devil of Face Recognition is in the Noise, ECCV, 2018.

[10] Cao Jiajiong, Li Yingming, Zhang Zhongfei, Celeb-500K: A Large Training Dataset for Face Recognition, ICIP, 2018.

[11] Nech Aaron, Kemelmacher-Shlizerman Ira, Level Playing Field For Million Scale Face Recognition, CVPR, 2017.

[12] Sengupta Soumyadip, Chen Jun-Cheng, Castillo Carlos, Patel Vishal M, Chellappa Rama, Jacobs David W, Frontal to profile face verification in the wild, WACV, 2016.

[13] Moschoglou, Stylianos and Papaioannou, Athanasios and Sagonas, Christos and Deng, Jiankang and Kotsia, Irene and Zafeiriou, Stefanos, Agedb: the first manually collected, in-the-wild age database, CVPRW, 2017.

[14] Gary B. Huang, Manu Ramesh, Tamara Berg, and Erik Learned-Miller. Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments, 2007.

[15] Zheng Tianyue, Deng Weihong, Hu Jiani, Cross-age lfw: A database for studying cross-age face recognition in unconstrained environments, arXiv:1708.08197, 2017.

[16] Zheng, Tianyue, and Weihong Deng. Cross-Pose LFW: A Database for Studying Cross-Pose Face Recognition in Unconstrained Environments, 2018.

Pons-Moll人体衣服估计相关论文

[TOC]

Gerard Pons-Moll virtualhumans.mpi-inf.mpg.de官网

图标

[Siggraph, 2017] [ClothCap: Seamless 4D Clothing Capture and Retargeting]

论文网站

论文解读

img

问题: 如何对衣服进行捕捉

输入: 扫描获得的4D的有纹理的人体数据

输出: 多种衣服几何模型

[ICCV, 2017] [A Generative Model of People in Clothing]

Paper

img

问题: 如何生成多种衣服外观的人体图片

输入: 有姿势的SMPL模型,及其分割

输出: 不同衣着的对应姿势的图片

[CVPR, 2018] [Video Based Reconstruction of 3D People Models]

Paper

论文解读

img

问题: 如何从RGB视频中获取细致的人体模型

输入: 单人的单目视频+轮廓

输出: 基于SMPL的细致的人体模型

[CVPR, 2018] [DoubleFusion: Real-time Capture of Human Performance with Inner Body Shape from a Depth Sensor]

Paper

img

问题: 如何从RGBD数据中实时获取细致的人体模型

输入: 单人的实时的RGBD数据流

输出: 基于SMPL的细致的人体模型

[3DV, 2018] [Detailed Human Avatars from Monocular Video]

Paper

img

问题: 如何从RGB视频中获取细致的人体模型

输入: 单人的单目视频+轮廓信息+语义分割

输出: 基于SMPL的更细致的人体模型

和之前的区别是,

  • 增加shape-from-shading方法,
  • 对SMPL模型进行了划分,增加其点的数量与面片的数量
  • 贴纹理用了graph cut优化

代码:

纹理拼接代码semantic human texture stitching

基于SMPL的p,$\theta$新增了W(混合皮肤)

skeleton joints J(β)

标准T-Pose

consists of N = 110210 vertices and F = 220416 faces.

[CVPR, 2019] [SimulCap : Single-View Human Performance Capture with Cloth Simulation]

Paper

img

问题: 对人体与衣服同时进行重建

输入: 实时的RGBD数据

输出: 人体模型与多层的衣服模型

方法:

  1. 使用与DoubleFusion相同的方法先对人体进行重建,获得两层人体模型
  2. 基于输入的图像信息对人体模型进行分割,获得多层衣服的模型
  3. 分别对人体与衣服进行跟踪

[CVPR, 2019, Octopus] [Learning to Reconstruct People in Clothing from a Single RGB Camera]

Paper

img

问题: 如何快速地从RGB相机的图像中去重建有衣服的人体

输入: 同一个人的几个视角下的图片

输出: SMPL+D的细致的人体形状,纹理是后处理贴的 (Octopus的网络输出的对象无法贴处理过的纹理,还在研究中)

训练: 使用合成数据训练, 渲染过程可微

代码地址

[3DV, 2019] [360-Degree Textures of People in Clothing from a Single Image]

Papaer Reader

img

问题: 如何从单张图片中去获取有纹理的细致的人体模型

输入: 单张RGB图片

输出: 有纹理的三维人体模型-> texture map + displacement map

训练: 用之前扫描获得的人体数据生成UV map和displacement map

这篇用了几个下载人体模型的网站,需要用的时候可以看看

[ICCV, 2019] [Tex2Shape: Detailed Full Human Body Geometry from a Single Image]

Papaer Reader

img

问题: 如何从单张图片中去获取有纹理的细致的人体模型

输入: 单张RGB图片

输出: 细致的人体模型->输出normal map和displacement map

训练: 合成,渲染

文章最后还说了另一种思路的虚拟试衣功能的方法: 对于SMPL来说, 换装等价于保留其shape参数, 更换他的normal map和displacement map

[ICCV, 2019] [Multi-Garment Net: Learning to Dress 3D People from Images]

Papser
code

img

问题: 如何从单张图片中去获取有纹理的细致的人体模型

输入: 多个视角下的RGB图片->2D关键点与语义分割

输出: 在标准模型下的人体参数, 多片衣服参数

训练: 合成,渲染