Simon Shi的小站

人工智能,机器学习 学习记录


  • Home

  • About

  • Tags

  • Categories

  • Archives

Paper_CV_Attention

Posted on 2019-08-29 | In CV , Networks

[TOC]

CNN 注意力机制:

  • 图片分类
  • 图片切割/语义分割

注意力机制分类:

soft attention: SENet, CBAM
self attention: Nonlocal, DANet

Atrous Self Attention、Local Self Attention、Sparse Self Attention都算是稀疏Attention,直观上来看就是注意力矩阵变得很稀疏了。


注意力机制可以分为四类:

1
2
3
4
5
6
7
基于输入项的柔性注意力(Item-wise Soft Attention)、

基于输入项的硬性注意力(Item-wise Hard Attention)、

基于位置的柔性注意力(Location-wise Soft Attention)、

基于位置的硬性注意力(Location-wise Hard Attention)。

总的来说,一种是软注意力(soft attention),另一种则是强注意力(hard attention)。

软注意力的关键点在于,这种注意力更关注区域或者通道,而且软注意力是确定性的注意力,学习完成后直接可以通过网络生成,最关键的地方是软注意力是可微的,这是一个非常重要的地方。可以微分的注意力就可以通过神经网络算出梯度并且前向传播和后向反馈来学习得到注意力的权重。

强注意力与软注意力不同点在于,首先强注意力是更加关注点,也就是图像中的每个点都有可能延伸出注意力,同时强注意力是一个随机的预测过程,更强调动态变化。当然,最关键是强注意力是一个不可微的注意力,训练过程往往是通过增强学习(reinforcement learning)来完成的。

从注意力域(attention domain)的角度来分析几种注意力的实现方法。其中主要是三种注意力域,空间域(spatial domain),通道域(channel domain),混合域(mixed domain)。

Read more »

Paper_CV_Nolocal

Posted on 2019-08-29 | In CV , Networks

Nolocal Method

[TOC]

1567051217525

official github_facebook

本质就是输出的每个位置值都是其他所有位置的加权平均值,通过softmax操作可以进一步突出共性。

Read more »

Paper_CV_SENET

Posted on 2019-08-29 | In CV , Networks

[toc]

SENet

我们可以看到,已经有很多工作在空间维度上来提升网络的性能。那么很自然想到,网络是否可以从其他层面来考虑去提升性能,比如考虑特征通道之间的关系?我们的工作就是基于这一点并提出了 Squeeze-and-Excitation Networks(简称 SENet)。在我们提出的结构中,Squeeze 和 Excitation 是两个非常关键的操作,所以我们以此来命名。我们的动机是希望显式地建模特征通道之间的相互依赖关系。另外,我们并不打算引入一个新的空间维度来进行特征通道间的融合,而是采用了一种全新的「特征重标定」策略。具体来说,就是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

img

Squeeze:挤,榨

Excitation:激发

Read more »

CV Regions-CNN(R-CNN)

Posted on 2019-08-28 | In CV , BaseWork , Object Detection

img

Read more »

Awesome - Image Classification

Posted on 2019-08-27 | In CV , Networks

[TOC]

Conv网络结构,任务 资源汇总

1.4k awesome-image-classification

5.6k awesome-object-detection

8.6k deep_learning_object_detection

21.7k awesome-deep-learning-papers

1.4k imgclsmob - Convolutional neural networks for computer vision

超分辨

2020 Face Super-Resolution Guided by 3D Facial Priors

Awesome - Image Classification

ConvNet ImageNet top1 acc ImageNet top5 acc Published In
VGG 76.3 93.2 ICLR2015
GoogleNet - 93.33 CVPR2015
PReLU-nets - 95.06 ICCV2015
ResNet - 96.43 CVPR2015
Inceptionv3 82.8 96.42 CVPR2016
Inceptionv4 82.3 96.2 AAAI2016
Inception-ResNet-v2 82.4 96.3 AAAI2016
Inceptionv4 + Inception-ResNet-v2 83.5 96.92 AAAI2016
ResNext - 96.97 CVPR2017
PolyNet 82.64 96.55 CVPR2017
NasNet 82.7 96.2 CVPR2018
MobileNetV2 74.7 - CVPR2018
PNasNet 82.9 96.2 ECCV2018
AmoebaNet 83.9 96.6 arXiv2018
SENet - 97.749 CVPR2018
Read more »

3D CNN

Posted on 2019-08-26 | In CV , Networks

[TOC]

3D-CNN Method

iDT
LRCN CVPR 2015
LSTM composite model
C3D 2015
TSN ECCV 2016
R3DCNN NVIDIA 2016
P3D MSRA ICCV 2017
R3D/2.5D 2017
T3D 2017
R2+1D 2018
Read more »

TensorFlow(pb) to TensorRT(uff)

Posted on 2019-08-23 | In DNN_platform
[TOC] Uff To TensorRT EngineThis sample uses a UFF ResNet50 Model to create a TensorRT Inference Engine 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104# This sample uses a UFF ResNet50 Model to create a TensorRT Inference Engineimport randomfrom PIL import Imageimport numpy as npimport pycuda.driver as cuda# This import causes pycuda to auto ...
Read more »

Paper_CV_1 Image-Classification 图片分类

Posted on 2019-08-21 | In CV , BaseWork , Classification
2021年, Transformer频频跨界视觉领域 先是图像分类上被谷歌ViT突破,后来目标检测和图像分割又被微软Swin Transformer拿下。 ViTGoogle 为了大规模扩展视觉模型,该研究将 ViT 架构中的一些密集前馈层 (FFN) 替换为独立 FFN 的稀疏混合(称之为专家)。可学习的路由层为每个独立的 token 选择对应的专家。也就是说,来自同一图像的不同 token 可能会被路由到不同的专家。在总共 E 位专家(E 通常为 32)中,每个 token 最多只能路由到 K(通常为 1 或 2)位专家。这允许扩展模型的大小,同时保持每个 token 计算的恒定。下图更详细地显示了 V-MoE 编码器块的结构。 https://new.qq.com/omn/20220116/20220116A03WQ600.html Swin Transformer微软 ConvNeXtFacebook与UC伯克利 该研究制定了一系列设计决策,总结为 1) 宏观设计,2) ResNeXt,3) 反转瓶颈,4) 卷积核大小,以及 5) 各种逐层微设计。 Transformer ...
Read more »

Paper_CV_2 object-localization 目标定位

Posted on 2019-08-21 | In CV , BaseWork , Object Localization
[toc] 目标定位— 目标定位和目标检测,通常作为一个整体进行建模。 VoxelNet Frustum PointNets 定位任务评估方法:Intersection over Union (IoU)IoU用来衡量模型最终输出的矩形框或者测试过程中找出的候选区域(Region Proposal)与实际的矩形框(Gound Truth)的差异程度,定义为两者交集和并集的比值。通常我们将这个阈值指定为0.5,即只要模型找出来的矩形框和标签的IoU值大于0.5,就认为成功定位到了目标。 目标定位的两种思路看作回归问题。对于单个目标的定位,比较简单的思想就是直接看作是关于目标矩形框位置的回归问题,也就是把刻画矩形框位置信息的4个参数作为模型的输出进行训练,采用L2损失函数。对于固定的多个目标定位,也采用类似的方法,只不过输出由4个变成4*C个,C为需要定位的目标的类别数。这样,完整的识别定位问题的损失函数由两部分组成:第一部分是用于识别的损失,第二部分是用于定位产生的损失。显然这种方法对于目标数量固定的定位问题比较容易,当数量不定时(比如检测任务)就不适用了。 滑动窗口法。这种方 ...
Read more »

【Paper Read】A survey of Monte Carlo Tree Search Methods

Posted on 2019-08-19 | In Game

Section1 Introduction

Section2 Notation and terminology

Section3 MCTS detail

Section4 summarises main variations MCTS

Section5 enhancements to the tree policy,

Section6 enhancements to Simulations, Backpropagations

Section7 key applications(which MCTS has been applied)

Section8 Summaries

[toc]

Read more »
1…272829

Simon Shi

286 posts
132 categories
243 tags
RSS
© 2024 Simon Shi
Powered by Hexo
|
Theme — NexT.Muse v5.1.4