Simon Shi的小站

人工智能,机器学习, 强化学习,大模型,自动驾驶

0%

RGA

RAG:全称Retrieval-Augmented Generation,检索增强生成。我们知道本次由ChatGPT掀起的LLM大模型浪潮,其核心就是Generation生成,而 Retrieval-augmented 就是指除了 LLM 本身已经学到的知识之外,通过外挂其他数据源的方式来增强 LLM 的能力,这其中就包括了外部向量数据库、外部知识图谱、文档数据,WEB数据等。

架构

如上图所示,经过Doc Loader,加载各种数据源的数据,经过embedding向量化后存储进向量数据库。这是Retrieval-augmented基础数据处理器。用户通过 QA向LLM提问,会通过QA问题向向量数据库召回相似度较高的上下文,通过Prompt提示词一起发给LLM,LLM通过问题与上下文一起生成答案返回给用户。

我们不经会问,为什么大模型动不动就千亿参数级别,涵盖了PB级的数据,还需要自己外挂数据源。
这里面主要几方面的原因:

  • 数据更新: LLM数据来源截止日期一般都是在2022年,而且它无法实时了解最新的信息。外挂知识库可以提供更新的、实时的信息,确保模型对新兴事实和领域内的最新发展有所了解。

  • 领域专业知识: 尽快训练LLM的数据量很庞大,但是在某些特定领域,如医学、法律或科学,可能需要深入的专业知识。LLM在这些领域可能无法提供高度准确的信息,因此如果能提供这方面的数据,它能工作得好。

  • 定制需求: 对于某些应用场景,用户可能需要LLM在特定方面的专业化,例如公司内部知识库、产品规格等。外挂知识库可以帮助模型更好地服务于特定用户或组织的需求。

  • 避免错误: 在特定领域,LLM可能会生成不准确或误导性的信息。通过使用外挂知识库,可以提高答案的准确性,避免潜在的错误。 在实际应用中,外挂知识库通常与LLM进行集成,通过定制的方式来满足用户或企业的特殊需求,提供更专业、准确和个性化的服务。这种集成可以帮助弥补LLM通用性的不足,使其更好地适应特定的应用场景。

好,我们了解了RAG的基本概念,接下来我们就一起深入技术细节,了解RAG的实现原理。

Read more »

Opencv 相机内参标定及使用

一、功能描述

1.本文用于记录通过 Opencv 进行相机内参标定和对内参的使用来进行图像畸变矫正。

1)相机矩阵:包括焦距(fx,fy),光学中心(Cx,Cy),完全取决于相机本身,是相机的固有属性,只需要计算一次,可用矩阵表示如下:[fx, 0, Cx; 0, fy, cy; 0,0,1];

  1. 畸变系数:畸变数学模型的5个参数 D = (k1,k2, P1, P2, k3);

3)相机内参:相机矩阵和畸变系数统称为相机内参,在不考虑畸变的时候,相机矩阵也会被称为相机内参;

4) 相机外参:通过旋转和平移变换将3D的坐标转换为相机2维的坐标,其中的旋转矩阵和平移矩阵就被称为相机的外参;描述的是将世界坐标系转换成相机坐标系的过程。

二、标定板制作

方法一: 标定板可以直接从opencv官网下载:标定板

方法二:Matlab DIY 制作

1
2
J = (checkerboard(300,4,5)>0.5);
figure, imshow(J);

打印完成后,测量实际打印出的网格边长,备用(本人制作的标定板网格边长为 26mm)。将打印纸贴附在硬纸板上(粘贴的尽可能平整),如下图所示。

三、图像采集

运行以下参考程序按q键即可保存图像,注意尽量把镜头的每个方格都覆盖到,最好拍到整张打印纸。保存大约20到25张,通过 Matlab 标定软件可能会剔除部分图片。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
#include "opencv2/opencv.hpp"
#include <string>
#include <iostream>

using namespace cv;
using namespace std;

int main(){
Mat frame;
string imgname;
int f = 1;

VideoCapture inputVideo(0);
if (!inputVideo.isOpened()){
cout << "Could not open the input video " << endl;
return -1;
}
else{
cout << "video is opened!" << endl;
}

while (1){
inputVideo >> frame;
if (frame.empty()) continue;
imshow("Camera", frame);
char key = waitKey(1);
if (key == 27) break;
if (key == 'q' || key == 'Q'){
imgname = to_string(f++) + ".jpg";
imwrite(imgname, frame);
}
}
cout << "Finished writing" << endl;
return 0;
}

四、标定内参

方法一:Matlab标定

**步骤1:**在Matlab的Command Window里面输入cameraCalibrator即可调用标定应用程序。

**步骤2:**选择from file 在自己的图片集全选待标定的图片,输入自己实际测量打印的标定板方格实际长度(本人的标定板方格边长26mm),导入后我的有2张图片被拒绝。

**步骤3:**关键步骤

畸变参数,总共有五个,径向畸变3个(k1,k2,k3)和切向畸变2个(p1,p2)。

径向畸变:

实验表明,在MATLAB中选择使用三个参数,并且选择错切和桶形畸变,关于三个参数还是两个参数,可以根据自己的试验效果选择 。点击 Calibrate 后等待一段时间即可完成标定,标定完成后可通过点击 show Undistorted 对比校正前后效果。

右上角平均误差推荐在0.5以下时,表明该标定数据可信(本人此次平均误差为0.47 )。

**步骤4:**导出参数,即可把参数进行保存,保存后可退出标定应用,在MATLAB主界面中将保存的Mat文件打开。

**步骤5:**记录、保存数据

上图中,RadialDistortion对应k1,k2,k3,TangentialDistortion对应p1,p2。

IntrinsicMatrix对应相机矩阵,注意具体数值和OpenCV中数据是互为转置的关系。

此次本人测得的数据为:

方法二:C++程序标定

简单粗暴直接上程序:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
#include <opencv2/imgproc/types_c.h>
#include<opencv2/opencv.hpp>
#include<iostream>
using namespace cv;
using namespace std;

Mat image, img_gray;
int BOARDSIZE[2]{ 6,9 };//棋盘格每行每列角点个数
int main()
{
vector<vector<Point3f>> objpoints_img;//保存棋盘格上角点的三维坐标
vector<Point3f> obj_world_pts;//三维世界坐标
vector<vector<Point2f>> images_points;//保存所有角点
vector<Point2f> img_corner_points;//保存每张图检测到的角点
vector<String> images_path;//创建容器存放读取图像路径

string image_path = "/home/titan/Calibration/image/pictures/*.jpg";//待处理图路径
glob(image_path, images_path);//读取指定文件夹下图像

//转世界坐标系
for (int i = 0; i < BOARDSIZE[1]; i++)
{
for (int j = 0; j < BOARDSIZE[0]; j++)
{
obj_world_pts.push_back(Point3f(j, i, 0));
}
}

for (int i = 0; i < images_path.size(); i++)
{
image = imread(images_path[i]);
cvtColor(image, img_gray, COLOR_BGR2GRAY);
//检测角点
bool found_success = findChessboardCorners(img_gray, Size(BOARDSIZE[0], BOARDSIZE[1]),
img_corner_points,
CALIB_CB_ADAPTIVE_THRESH | CALIB_CB_FAST_CHECK | CALIB_CB_NORMALIZE_IMAGE);

//显示角点
if (found_success)
{
//迭代终止条件
TermCriteria criteria(CV_TERMCRIT_EPS | CV_TERMCRIT_ITER, 30, 0.001);

//进一步提取亚像素角点
cornerSubPix(img_gray, img_corner_points, Size(11, 11),
Size(-1, -1), criteria);

//绘制角点
drawChessboardCorners(image, Size(BOARDSIZE[0], BOARDSIZE[1]), img_corner_points,
found_success);

objpoints_img.push_back(obj_world_pts);//从世界坐标系到相机坐标系
images_points.push_back(img_corner_points);
}
//char *output = "image";
char text[] = "image";
char *output = text;
imshow(output, image);
waitKey(200);

}

/*
计算内参和畸变系数等
*/

Mat cameraMatrix, distCoeffs, R, T;//内参矩阵,畸变系数,旋转量,偏移量
calibrateCamera(objpoints_img, images_points, img_gray.size(),
cameraMatrix, distCoeffs, R, T);

cout << "cameraMatrix:" << endl;
cout << cameraMatrix << endl;

cout << "*****************************" << endl;
cout << "distCoeffs:" << endl;
cout << distCoeffs << endl;
cout << "*****************************" << endl;

cout << "Rotation vector:" << endl;
cout << R << endl;

cout << "*****************************" << endl;
cout << "Translation vector:" << endl;
cout << T << endl;

///*
//畸变图像校准
//*/
Mat src, dst;
src = imread("/home/titan/Calibration/image/pictures/02.jpg"); //读取校正前图像
undistort(src, dst, cameraMatrix, distCoeffs);

char texts[] = "image_dst";
char *dst_output = texts;
//char *dst_output = "image_dst";
imshow(dst_output, dst);
waitKey(100);
imwrite("/home/titan/Calibration/image/pictures/002.jpg", dst); //校正后图像

destroyAllWindows();//销毁显示窗口
system("pause");
return 0;
}

运行上述程序,经过一番图片处理与切换,最终通过终端得到获取相机内参及畸变系数。

五、使用内参

简单粗暴直接上程序:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
#include<iostream>
#include <ctime>
#include<opencv2/opencv.hpp>

using namespace cv;
using namespace std;

int main()
{
VideoCapture inputVideo(0);
if(!inputVideo.isOpened()){
std::cout << "video is not opened\n\n"<<endl;
}
else{
std::cout << "video is opened \n\n"<<endl;
}
// Matlab 标定的相机参数
Mat frame, frameCalibration;
inputVideo >> frame;
Mat cameraMatrix = Mat::eye(3, 3, CV_64F);
cameraMatrix.at<double>(0,0) = 1982.56844306278;
cameraMatrix.at<double>(0,1) = 1.79099355543064;
cameraMatrix.at<double>(0,2) = 1042.90384922068;
cameraMatrix.at<double>(1,1) = 1983.84445594899;
cameraMatrix.at<double>(1,2) = 480.442502729538;

Mat distCoeffs = Mat::zeros(5, 1, CV_64F);
distCoeffs.at<double>(0,0) = -0.515906663211726;
distCoeffs.at<double>(1,0) = 0.201811855093355;
distCoeffs.at<double>(2,0) = 0.00228453839673728;
distCoeffs.at<double>(3,0) = -0.00134697993045861;
distCoeffs.at<double>(4,0) = -0.0572379026696125;

/* C++程序标定的相机参数
Mat frame, frameCalibration;
inputVideo >> frame;
Mat cameraMatrix = Mat::eye(3, 3, CV_64F);
cameraMatrix.at<double>(0,0) = 1978.304376178962;
cameraMatrix.at<double>(0,1) = 0;
cameraMatrix.at<double>(0,2) = 1044.639043480329;
cameraMatrix.at<double>(1,1) = 1979.71454820083;
cameraMatrix.at<double>(1,2) = 482.6287237060178;
Mat distCoeffs = Mat::zeros(5, 1, CV_64F);
distCoeffs.at<double>(0,0) = -0.5277684150872038;
distCoeffs.at<double>(1,0) = 0.2663992436241138;
distCoeffs.at<double>(2,0) = -0.001857829391420174;
distCoeffs.at<double>(3,0) = -0.002175774665050042;
distCoeffs.at<double>(4,0) = -0.1007311729522544;
*/

Mat view, rview, map1, map2;
Size image_Size;
image_Size = frame.size();

initUndistortRectifyMap(cameraMatrix, distCoeffs, Mat(), cameraMatrix, image_Size, CV_16SC2, map1, map2);
// initUndistortRectifyMap(cameraMatrix, distCoeffs, Mat(),getOptimalNewCameraMatrix(cameraMatrix, distCoeffs, image_Size, 0.5, image_Size, 0),image_Size, CV_16SC2, map1, map2);

while(1){
inputVideo >> frame;
if(frame.empty()) break;
remap(frame, frameCalibration, map1, map2, INTER_LINEAR);
imshow("Original_image",frame);
imshow("Calibrated_image", frameCalibration);
char key =waitKey(1);
if(key == 27 || key == 'q' || key == 'Q') break;
}


return 0;
}

测试效果如下:

Ref

Opencv 相机内参标定及使用(C++,Matlab)

Python+OpenCV实现相机标定的方法详解_python_脚本之家

双目相机标定+去畸变+获得视差+深度(一次解决所有问题)(python+openCV)_双目相机视差怎么解决-CSDN博客

README.md · LanguageBind/MoE-LLaVA-Qwen-1.8B-4e at main

训练-微调

服务化部署

LangChain + 向量数据库

LangChain+通义千问+AnalyticDB向量引擎保姆级教程_langchain 通义千问-CSDN博客

如果直接使用通义千问API从0到1来构建应用,技术成本还是相对比较高的。幸运的是,当前已经有非常优秀的框架LangChain来串联AIGC相关的各类组件,让我们轻松构建自己的应用。

小应用Demo,

REF:

模型方法-Qwen的Agent -zhihu

开源模型应用落地-LangChain试炼-CPU调用QWen1.5(一)_langchain qwen-CSDN博客

51OpenLab Intel CPU 实战部署阿里大语言模型千问Qwen-1_8B-chat -一站式ICT创新服务平台

大连天健社区-小模型Qwen-1.8B本机安装教程-AI・大连 - Powered by Discuz!

感知模块发展

CNN(2011-2016)—— RNN+GAN(2016-2018)—— BEV(2018-2020)—— Transformer+BEV(2020至 今)—— 占用网络(2022至今)

可以看一下特斯拉智能驾驶迭代历程:

BEV + Transformer

鸟瞰图为2D图像,会缺失一些空间高度信息,无法真实反映物体在3D空间的实际占用体积, 故而在BEV中更关心静止物体(如路沿、车道线等),而空间目标的识别(如物体3D结构)难以识别

占用网络

  • 占用网络:现存三维表示方法(体素、网格、点云)在储存、结构和是否利于学习方面均不够完全理想,而占用网络基于学习将三维曲面表示为深度神经网络分类器的连续决策边界,可以在没有激光雷达提供点云数据的情况下对3D环境进行重建,且相较于激光雷达还可以更好地将感知到的3D几何信息与语义信息融合,得到更加准确的三维场景信息

# 一文聊聊大模型技术在自动驾驶的应用与影响

累积梯度

默认情况是每个batch 之后都更新一次梯度,当然也可以N个batch后再更新,这样就有了大batch size 更新的效果了,例如当你内存很小,训练的batch size 设置的很小,这时候就可以采用累积梯度:

1
2
# 默认情况下不开启
trainer = Trainer(accumulate_grad_batches=1)

ModelCheckpoint

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
from pytorch_lightning import Trainer, ModelCheckpoint  

# 初始化 ModelCheckpoint 回调函数
checkpoint_callback = ModelCheckpoint(
dirpath='checkpoints/', # 检查点保存的路径
filename='my_model_{epoch:02d}_step{global_step:05d}_{val_loss:.4f}', # 自定义文件名模板
save_top_k=1, # 只保存最好的 k 个模型
monitor='val_loss', # 监控的指标
mode='min' # 监控指标的最小化
)

# 初始化 Trainer 并传入回调函数
trainer = Trainer(callbacks=[checkpoint_callback])

# 训练模型...
trainer.fit(model)

恢复训练

1
2
3
4
5
6
7
from pytorch_lightning import Trainer  

# 初始化 Trainer,指定从哪个检查点恢复
trainer = Trainer(resume_from_checkpoint='checkpoints/my_model_09_val_loss_0.4567.ckpt')

# 继续训练模型
trainer.fit(model)

版本

lighting torch
2.2 [1.13, 2.2]
2.1 [1.12, 2.1]
2.0 [1.11, 2.0]
1.4.2 [1.6, 1.9]

REF

Pytorch Lightning框架:使用笔记【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】_from lightning.pytorch import trainer-CSDN博客

pytorch lightning–ModelCheckpoint_pytorch_lightning.callbacks.modelcheckpoint-CSDN博客

Pytorch-Lightning中的训练器–Trainer_pytorch_lightning.trainer-CSDN博客

我们提供了基于AutoGPTQ的量化方案,并开源了Int4和Int8量化模型。量化模型的效果损失很小,但能显著降低显存占用并提升推理速度。

KV cache量化

Lora : 全参数微调

Q-Lora: 使用4比特量化模型以及paged attention等技术实现更小的显存开销。

Deepspeed

Megatron-LM

# 图解大模型训练之:张量模型并行(TP),Megatron-LM

Fine-Tune

小白入门大模型:LangChain

# [大模型微调技术] LoRA、QLoRA、QA-LoRA 原理笔记

LLM微调(Finetune) 技术–LoRA

# 大规模语言模型–LLaMA 家族

# LLaMA及其子孙模型概述

# 低秩自适应的参数高效LLM微调(LoRA)技术拆解

[DeepFaceLab](GitHub - iperov/DeepFaceLab: DeepFaceLab is the leading software for creating deepfakes.)

faceswap-GAN

faceshifter

simswip

hififace

# 深度解密换脸应用Deepfake

faceswap-GAN之reconstruction_loss(重建loss)_reconstruction loss-CSDN博客

依赖库

Deep3DFaceRecon

insightface-archFace GitHub - insightface: STOA 2D and 3D Face Analysis Project

insightface/recognition/arcface_torch at master · deepinsight/insightface · GitHub

Flame

3DMM

Deca

Nvdiffrast 可微渲染框架Nvdiffrast(一):配置与入门 - 简书