Simon Shi的小站

人工智能,机器学习 学习记录


  • Home

  • About

  • Tags

  • Categories

  • Archives

DRL

Posted on 2024-01-10
基础微分PI也很困难,除非我们能把它转换成对数。求偏导 那么这个log的偏导怎么求呢? 回顾 TD 和SARSA几乎一样,只是把V换成Q $$SARSA: Q(S,A) \larr Q(S,A) + \alpha[ R+ \gamma Q(S’,A’) - Q(S,A)] \TD(0): V(S_t) \larr V(S_t) + \alpha[ R+ \gamma V(S_{t+1}) - V(S_t)] \$$ Q-learning Qlearning公式和SARSA相比,就差那么一个max。 $$QLeaning: Q(S,A) \larr Q(S,A) + \alpha[ R+ \gamma \max Q(S’, a) - Q(S,A)] \$$ DQNDQN = TD + 神经网络 DQN的深度网络,就像用一张布去覆盖Qlearning中的Qtable DQN用magic函数,也就是神经网络解决了Qlearning不能解决的连续状态空间问题。 $$Q(S,A) \larr Q(S,A )+ \alpha \big[ R + \gamma \max Q(S’, ...
Read more »

Robot Checklist

Posted on 2024-01-08 | In Robot , SLAM
Robot 路径规划 A* Dijkstra, D* TEB 2 ros1/ros2, rviz, gazebo 3 点云配准 卡尔曼滤波融合 运动恢复结构 从多张图像或视频序列中自动地恢复出相机的参数以及场景三维结构的技术
Read more »

多传感器融合

Posted on 2023-12-09 | In ADAS
多传感器融合 背景:机器人领域,需要解决的事情大致就这么几件:明确状态量的组成(变量?定位?地图模型?)获取各个位置的传感器读数、整合传感器数据生成地图、将传感器读数与地图模型建立关系、计算在地图模型中的位置、估计位置和模型的确定性、提升状态估计的正确性。 发展阶段:Kalman Filters框架 全局定位、重定位和不确定处理(POMDPs) 无参滤波器Particle Filters(PF) EKF的各个变体:ESKF、MSCKF和IKF
Read more »

ADAS 技术需求

Posted on 2023-12-08 | In ADAS
感知BEV鸟瞰视角(Bird’s Eye View,简称BEV)是一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如LiDAR和摄像头)获取的数据通常会被转换成BEV表示,以便更好地进行物体检测、路径规划等任务。BEV能够将复杂的三维环境简化为二维图像,这对于在实时系统中进行高效的计算尤其重要。 BEV(鸟瞰视图)景物表示方法 给定来自多个车载摄像机图像获得校正的360度BEV图像。校正的BEV图像被分割成语义类别,并且包括对遮挡区域的预测。 神经网络方法并不依赖手动标记数据,而是在模拟合成数据集上进行训练,并泛化到现实世界数据。以语义分割图像作为输入,可以减少模拟数据与现实世界数据之间的现实差距,并也证明该方法可以成功应用于现实世界中。 单应性变换应用于车载摄像头的四个语义分割图像,将其转换为BEV;IPM直接用homography转换误差很大(路面平坦的假设),而这种方法在无视觉失真情况下学习如何计算准确的BEV图像。 6 A Sim2Real DL Approach for the Transformation of Images f ...
Read more »

deepspeed入门教程

Posted on 2023-10-26 | In DNN_Platform , deepspeed
deepspeed入门教程DeepSpeed是微软推出的大规模模型分布式训练的工具,主要实现了ZeRO并行训练算法。 本文是huggingface的DeepSpeed文档的笔记,做查询和备忘,初次学习建议结合原始文档食用。原始文档链接: deepSpeed入门教程 https://huggingface.co/docs/transformers/main/main_classes/deepspeed 分布式训练目前主流的大模型分布式训练主要包括两种: 数据并行训练 模型并行训练 Deep Speed1 基础组件分布式训练需要掌握分布式环境中的基础配置,包括节点变化、全局进程编号、局部进程编号、全局总进程数、主节点等。这些组件都跟分布式训练紧密相关,同时组件之间也有非常大的联系,例如通信联系等。 2 通讯策略 通信策略 通信作用 mpi 它是一种跨界点的通信库,经常用于CPU集群的分布式训练 gloo 它是一种高性能的分布式训练框架,可以支持CPU或者GPU的分布式训练 nccl 它是nvidia提供的GPU专用通信库,广泛用于GPU上的分布式训练 我们在使 ...
Read more »

RL Env Tools

Posted on 2023-10-03 | In RL
RL可以使用的虚拟化环境(仿真器) gymmujuco office site 学生邮箱,免费一年 MuJoCo是目前机器人强化学习中最流行的仿真器。它提供了很多有趣复杂的环境,通常以连续动作环境为主。所以,但我们想在这样的环境中测试自己算法的性能的时候,就必须下载Mujoco并且需要有密钥才可以使用它。 Vrep(机械臂仿真)Player和edu版本可免费使用,pro版需要购买。 Vrep是一款动力学仿真软件,主要定位于机器人仿真建模领域,可以利用内嵌脚本、ROS节点、远程API客户端等实现分布式的控制结构,是非常理想的机器人仿真建模的工具。 https://zhuanlan.zhihu.com/p/32967121 vrep1–初识vrep - 简书 Gazebohttps://zhuanlan.zhihu.com/p/367660310 Nvidia lsaac专为机器人开发打造的 ISAAC 平台 | NVIDIA Isaac SDK(软件开发工具包):Isaac SDK 提供了一组用于构建机器人应用的库和工具。它包含了丰富的功能模块,如感知、规划、控制和通信等, ...
Read more »

SLAM loop closing

Posted on 2023-09-09 | In SLAM
Read more »

SLAM mapping

Posted on 2023-09-09 | In SLAM
Read more »

SLAM tuture

Posted on 2023-09-09 | In SLAM
Read more »

TensorRT call By Python

Posted on 2023-09-04 | In AI , deploy , TensorRT
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129from __future__ import print_functionimport numpy as npimport tensorrt as trtimport pycuda.driver as cudaimport pycuda.autoinitfrom PIL import ImageDrawfrom yolov3_to_onnx import download_filefrom data_processing import P ...
Read more »
1…567…29

Simon Shi

286 posts
132 categories
243 tags
RSS
© 2024 Simon Shi
Powered by Hexo
|
Theme — NexT.Muse v5.1.4