[TOC]
Uff To TensorRT Engine
This sample uses a UFF ResNet50 Model to create a TensorRT Inference Engine
1 | # This sample uses a UFF ResNet50 Model to create a TensorRT Inference Engine |
[TOC]
This sample uses a UFF ResNet50 Model to create a TensorRT Inference Engine
1 | # This sample uses a UFF ResNet50 Model to create a TensorRT Inference Engine |
2021年, Transformer频频跨界视觉领域
先是图像分类上被谷歌ViT突破,后来目标检测和图像分割又被微软Swin Transformer拿下。
为了大规模扩展视觉模型,该研究将 ViT 架构中的一些密集前馈层 (FFN) 替换为独立 FFN 的稀疏混合(称之为专家)。可学习的路由层为每个独立的 token 选择对应的专家。也就是说,来自同一图像的不同 token 可能会被路由到不同的专家。在总共 E 位专家(E 通常为 32)中,每个 token 最多只能路由到 K(通常为 1 或 2)位专家。这允许扩展模型的大小,同时保持每个 token 计算的恒定。下图更详细地显示了 V-MoE 编码器块的结构。
https://new.qq.com/omn/20220116/20220116A03WQ600.html
微软
Facebook与UC伯克利
该研究制定了一系列设计决策,总结为 1) 宏观设计,2) ResNeXt,3) 反转瓶颈,4) 卷积核大小,以及 5) 各种逐层微设计。
Transformer 中一个重要的设计是创建了反转瓶颈,即 MLP 块的隐藏维度比输入维度宽四倍,如下图 4 所示。
[toc]
— 目标定位和目标检测,通常作为一个整体进行建模。
VoxelNet
Frustum PointNets
IoU用来衡量模型最终输出的矩形框或者测试过程中找出的候选区域(Region Proposal)与实际的矩形框(Gound Truth)的差异程度,定义为两者交集和并集的比值。通常我们将这个阈值指定为0.5,即只要模型找出来的矩形框和标签的IoU值大于0.5,就认为成功定位到了目标。
**看作回归问题。*对于单个目标的定位,比较简单的思想就是直接看作是关于目标矩形框位置的回归问题,也就是把刻画矩形框位置信息的4个参数作为模型的输出进行训练,采用L2损失函数。对于固定的多个目标定位,也采用类似的方法,只不过输出由4个变成4C个,C为需要定位的目标的类别数。这样,完整的识别定位问题的损失函数由两部分组成:第一部分是用于识别的损失,第二部分是用于定位产生的损失。显然这种方法对于目标数量固定的定位问题比较容易,当数量不定时(比如检测任务)就不适用了。
**滑动窗口法。**这种方法的一个典型代表是overFeat模型,它用不同大小的矩形框依次遍历图片中所有区域,然后在当前区域执行分类和定位任务,即每一个滑过的区域都会输出一个关于目标类别和位置信息的标签,最后再把所有输出的矩形框进行合并,得到一个置信度最高的结果。这种方法其实和我们人的思维很相似,但是这种方法需要用不同尺度的滑动框去遍历整幅图像,计算量是可想而知的。
Section1 Introduction
Section2 Notation and terminology
Section3 MCTS detail
Section4 summarises main variations MCTS
Section5 enhancements to the tree policy,
Section6 enhancements to Simulations, Backpropagations
Section7 key applications(which MCTS has been applied)
Section8 Summaries
[toc]
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
1 |