SLAM 随笔

Posted on 2023-08-15 | In SLAM

对极约束 2D-2D，根据特征点，恢复相机的运动R，t 两步走： 1 根据配对点的像素位置，（8点法）求出 E 或者 F 2 根据 E 或者 F，(SVD分解) 求出 R; t。基础矩阵 F 基础矩阵，不知道内参，外参的情况；单应矩阵，已知内参本质矩阵 E 3x3的矩阵 $$E = \hat{t}R$$ 典型用法：8点法，求解相机运动，R, t 单应矩阵 H 本质矩阵的特殊应用，特征点在同一个面，只需要4对点三角测量求得两帧下点的深度，可以确定它们的空间坐标（世界坐标系）

基于人类反馈的强化学习RLHF

Posted on 2023-08-01

Secrets of RLHF in Large Language Models论文链接：https://arxiv.org/pdf/2307.04964.pdf 仓库链接：https://github.com/OpenLMLab/MOSS-RLHF 研究人员探究了PPO算法的高级版本PPO-max，可以有效提高策略模型的训练稳定性，并基于主要实验结果，综合分析了RLHF与SFT模型和ChatGPT的能力对比。 RLHF go人工智能助手的训练过程包括三个主要阶段：有监督微调（SFT）、奖励模型（RM）训练和奖励模型上的近端策略优化（PPO）。

(DanZero)Mastering Guandan Game with Reinforcement Learning

Posted on 2023-08-01 | In Game , GuanDan

DanZero: Mastering GuanDan Game with Reinforcement Learning 游戏发杂度 Pai Type Sample

游戏中口型动画合成系统

Posted on 2023-07-15

游戏中口型动画合成系统基于共振峰提取元音基于神经网络提取音素 https://www.synthesia.io/

AIGC

Posted on 2023-07-09

Avata-Driver 2D在AIGC领域中，虚拟数字人技术一般分为2D虚拟数字人和3D虚拟数字人两条路线，前者包括唇型驱动、动作驱动、TTS、高分辨率生成等相关算法。本文详细介绍了2D虚拟数字人的整体框架，每个步骤的原理和对应的开源代码，以及如何落地应用。 AIGC-小ç讲车 chatGPT: 生成 prompt 和文案 Stable diffusion: 用 prompt 生成人像 ç: 生成讲述文案的虚拟数字人 Loop: 使用 chatGPT 生成用于图像生成的prompt 使用 chatGPT 生成用于图像生成的prompt 使用 chatGPT 生成用于讲述的文案生成讲述文案的虚拟数字人 GANs基于GAN的说话人驱动：talking face generation解读_mb60e8123127ed0的技术博客_51CTO博客 1、方法分类目前talking face generation方法主要可以归于2类： (1) 直接法: 直接学习从音频(audio)到视频帧的映射（audio2image）； (2) 间接法: 利用中间模态表征（一般是人脸的2D、3D ...

Tablua

Posted on 2023-06-16

123456789101112,Budget,Income,Expenses,DebtJune,5000,8000,4000,6000July,3000,1000,4000,3000Aug,5000,7000,6000,3000Sep,7000,2000,3000,1000Oct,6000,5000,4000,2000Nov,4000,3000,5000,type: linetitle: Monthly Revenuex.title: Amounty.title: Monthy.suffix: $

TensorRT call By C++

Posted on 2023-06-16 | In AI , deploy , TensorRT

TF Conda Env Init

Posted on 2023-06-06 | In Env

Env Create12345678910conda create -name tf1 python=3.7conda activate tf1conda search tensorflowconda install tensorflow=1.13.2conda create -name tf2 python=3.7conda activate tf2conda search tensorflowconda install tensorflow=2.7.* tensorflow=1.13 -> python=3.7 TFCPU Version Python version Compiler Build tools tensorflow-2.12.0 3.8-3.11 MSVC 2019 Bazel 5.3.0 tensorflow-2.11.0 3.7-3.10 MSVC 2019 Bazel 5.3.0 tensorflow-2.10.0 3.7-3.10 MSVC 2019 Bazel 5.1.1 tensorflow-2.9.0 3.7-3.10 M ...

AI-MediaPipe

Posted on 2023-06-01

MediaPipe基础（2）人脸网格摘要：机器学习流水线我们的管道由两个协同工作的实时深度神经网络模型组成一个对完整图像进行操作并计算人脸位置的检测器，以及一个对这些位置进行操作并通过回归预测近似表面几何形状的人脸地标模型。 1.摘要MediaPipe Face Mesh 是一种面部几何解决方案，即使在移动设备上也能实时估计 468 个 3D 面部标志。它采用机器学习 (ML) 来推断 3D 表面几何形状，只需要一个摄像头输入，无需专用深度传感器。该解决方案在整个管道中利用轻量级模型架构和 GPU 加速，提供对实时体验至关重要的实时性能。此外，该解决方案与人脸几何模块捆绑在一起，弥合了人脸地标估计和有用的实时增强现实 (AR) 应用程序之间的差距。它建立了一个可度量的3D空间，并使用面部地标屏幕位置来估计该空间内的面部几何形状。人脸几何数据由常见的三维几何基元组成，包括人脸姿态变换矩阵和三角化人脸网格。在幕后，使用一种被称为普鲁克分析的轻量级的统计分析方法，用来驱动一个健壮的、性能好的、可移植的逻辑。该分析在CPU上运行，并且在ML模型推理的基础上具有最小的速度/内存占用。 2.机器 ...

AI-GPT

Posted on 2023-06-01

ChatGPT文心一言（百度）通义千问（阿里）代码：https://github.com/QwenLM/Qwen 体验地址：https://modelscope.cn/studios/qwen/Qwen-7B-Chat-Demo/summary 18亿（1.8B）、70亿（7B）、140亿（14B）和720亿（72B）。本次开源包括基础模型Qwen，即Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B，以及对话模型Qwen-Chat，即Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat和Qwen-72B-Chat。利用SFT和RLHF技术实现对齐，从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力，同时还具备一定的代码生成和简单数学推理的能力。 ChatGLM（清华）chatglm ，chatglm2 项目地址：https://github.com/THUDM/ChatGLM2-6B HuggingFace：https://huggingface.co/THUDM/chatglm ...