深度学习的机器视觉算法 10大深度学习架构

时间：2023-08-07 05:45:05

hello年夜家好，我是健康百科网网小航来为年夜家解答以上题目，深度进修的机械视觉算法，10年夜深度进修架构良多人还不知道，此刻让我们一路来看看吧！

选自Analytics Vidhya

作者：FAIZAN SHAIKH

机械之心编译

介入：路雪、李亚洲、黄小天

近日，Faizan Shaikh 在 Analytics Vidhya 颁发了一篇题为《10 Advanced Deep Learning Architectures Data Scientists Should Know!》的文章，总结了计较机视觉范畴已成效卓著的 10 个深度进修架构，并附上了每篇论文的地址链接和代码实现。机械之心对该文进行了编译，原文链接请见文末。

时刻跟上深度进修范畴的最新进展变的愈来愈难，几近每天都有立异或新利用。可是，年夜大都进展埋没在年夜量颁发的 ArXiv / Springer 研究论文中。

为了时刻领会最新动态，我们建立了一个浏览小组，在 Analytics Vidhya 内部门享进修功效。我想和年夜家分享的是一项关于研究社区开辟出的高级架构的查询拜访。

本文包罗深度进修范畴的最新进展、keras 库中的代码实现和论文链接。为包管文章简明，我只总结了计较机视觉范畴的成功架构。

甚么是高级架构？

比拟于单一的传统机械进修算法，深度进修算法由多样化的模子构成；这是因为神经收集在构建一个完全的端到真个模子时所供给的矫捷性。

我们可以把高级架构界说为一个具有杰出记实的成功模子；这首要见于挑战赛中，好比 ImageNet，此中你的使命是借助给定的数据解决图象辨认等题目。

正以下文所描写的每个架构，此中每个都与常见的模子有细微分歧，在解决题目时这成了一种上风。这些架构一样属于「深度」模子的范围，是以有可能比浅层模子表示更好。

计较机视觉使命的类型

本文首要聚焦于计较机视觉，是以很天然地描写了计较机视觉使命的分类。顾名思义，计较机视觉即经由过程建立人工模子来摹拟本由人类履行的视觉使命。其素质是人类的感知与不雅察是一个进程，它可在人工系统中被理解和实现。

计较机视觉使命的首要类型以下：

物体辨认／分类：在物体辨认中，给出一张原始图象，你的使命是辨认出该图象属于哪一个种别。

分类定位：若是图象中只有一个物体，你的使命是找到该物体在图象中的位置，一个更专业的称呼是定位。

物体检测：在物体检测中，你的使命是找到图象中多个物体的各自位置。这些物体可能属于统一种别，或各自分歧。

图象朋分：图象朋分是一个略微复杂的使命，其方针是将每个像素映照到准确的分类。

深度进修架构清单

此刻我们大白了甚么是高级架构，并切磋了计较机视觉的使命分类，此刻让我们罗列并描写一下最主要的深度进修架构吧。

1. AlexNet

AlexNet 是首个深度架构，它由深度进修前驱 Geoffrey Hinton 及其同寅配合引入。AlexNet 是一个简单却功能壮大的收集架构，为深度进修的首创性研究摊平了道路。下图是论文作者提出架构的示图。

如图所示，分化后的 AlexNet 像是一个简单的架构，卷积层和池化层层叠加，最上层是全毗连层。这是一个很是简单的架构，其早在 80 年月就已被概念化。可是该模子的凸起特点是其履行使命的范围与利用 GPU 进行练习。20 世纪 80 年月，练习神经收集利用的是 CPU，而 AlexNet 借助 GPU 将练习提速了 10x。

论文：ImageNet Classification with Deep Convolutional Neural Networks

链接：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

代码实现：https://gist.github.com/JBed/c2fb3ce8ed299f197eff

2. VGG Net

VGG 收集由牛津可视化图形组（Visual Graphics Group）开辟，是以其名称为 VGG。该收集的特点是金字塔形，与图象比来的底层比力宽，而顶层很深。

如上图所示，VGG 包括池化层以后的卷积层，池化层负责使层变窄。他们在论文中提出多个此类收集，分歧的地方在于架构深度的转变。

VGG 的上风：

合适在特定使命长进行基准测试。

VGG 的预练习收集可在互联网上免费获得，是以被普遍用于各类利用。

另外一方面，它的首要缺点在于若是从头练习，则进程迟缓。即便在机能很好的 GPU 上，也需要一周多的时候才能完成练习。

论文：Very Deep Convolutional Networks for Large-Scale Image Recognition

链接：https://arxiv.org/abs/1409.1556

代码实现：https://github.com/fchollet/keras/blob/master/keras/applications/vgg16.py

3. GoogleNet

GoogleNet（或 Inception 收集）是谷歌研究者设计的一种架构。GoogleNet 是 ImageNet 2014 的冠军，是那时最壮大的模子。

该架构中，跟着深度增添（它包括 22 层，而 VGG 只有 19 层），研究者还开辟了一种叫作「Inception 模块」的新型方式。

如上图所示，它与我们之前看到的序列架构产生了很年夜改变。单个层中呈现了多种「特点抽取器（feature extractor）」。这间接地改良了该收集的机能，由于该收集在练习进程中有多个选项可以选择，来解决该使命。它可以选择与输入进行卷积，也能够直接将其池化。

终究架构包罗堆叠在一路的多个 inception 模块。GoogleNet 的练习进程也有稍许分歧，即最上层有本身的输出层。这一细微不同帮忙模子更快地进行卷积，由于模子内存在结合练习和层自己的并行练习。

GoogleNet 的上风在于：

GoogleNet 练习速度比 VGG 快。

预练习 GoogleNet 的范围比 VGG 小。VGG 模子年夜于 500 MB，而 GoogleNet 的年夜小只有 96MB。

GoogleNet 自己没有短时间劣势，可是该架构的进一步改变使模子机能更佳。此中一个转变是 Xception 收集，它增添了 inception 模块的发散极限（我们可以从上图中看到 GoogleNet 中有 4 个 inception 模块）。此刻从理论上讲，该架构是无穷的（是以又叫极限 inception！）。

论文：Rethinking the Inception Architecture for Computer Vision

链接：https://arxiv.org/abs/1512.00567

代码实现：https://github.com/fchollet/keras/blob/master/keras/applications/inception_v3.py

4.ResNet

ResNet 是一个魔鬼般的架构，让我们看到了深度进修架构可以或许有多深。残差收集（ResNet）包括多个后续残差模块，是成立 ResNet 架构的根本。下图是残差模块的暗示图：

简言之，一个残差模块有两个选择：完成输入真个一系列函数，或跳过此步调。

近似于 GoogleNet，这些残差模块一个接一个地堆叠，构成了完全的端到端收集。

ResNet 引入的新手艺有：

利用尺度的 SGD，而非顺应性进修手艺。它联通一个公道的初始化函数（连结练习的完全性）做到的这一点。

输入预处置的转变，输入起首被辨别到图象块中，然后输送到收集中。

ResNet 首要的上风是数百，乃至数千的残差层都能被用于缔造一个新收集，然后练习。这分歧于泛泛的序列收集，增添层数目时表示会降落。

论文：Deep Residual Learning for Image Recognition

链接：https://arxiv.org/abs/1512.03385

代码实现：https://github.com/fchollet/keras/blob/master/keras/applications/resnet50.py

5. ResNeXt

ResNeXt 听说是解决方针辨认题目的最早进手艺。它成立在 inception 和 resnet 的概念上，并带来改良的新架构。下图是对 ResNeXt 模块中的残差模块的总结。

图 1. 左：ResNet 块。右：基数=32 的 ResNeXt 块，复杂度年夜致不异。层显示为（# in channels, filter size, # out channels）。

论文：Aggregated Residual Transformations for Deep Neural Networks

链接：https://arxiv.org/pdf/1611.05431.pdf

代码实现：https://github.com/titu1994/Keras-ResNeXt

6. RCNN (基于区域的 CNN)

基于区域的 CNN 架构听说是所有深度进修架构中对方针检测题目最有影响力的架构。为领会决检测题目，RCNN 测验考试在图象中所有物体上画出鸿沟框，然后辨认图象中的物体。工作道理以下：

RCNN 布局以下：

论文：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

链接：https://arxiv.org/abs/1506.01497

代码实现：https://github.com/yhenon/keras-frcnn

7. YOLO (You Only Look once)

YOLO 是当前深度进修范畴解决图象检测题目最早进的及时系统。以下图所示，YOLO 起首将图象划分为划定的鸿沟框，然后对所有鸿沟框并交运行辨认算法，来肯定物体所属的种别。肯定种别以后，yolo 继续智能地归并这些鸿沟框，在物体四周构成最优鸿沟框。

这些步调全数并行进行，是以 YOLO 可以或许实实际时运行，而且每秒处置多达 40 张图象。

虽然比拟于 RCNN 它的表示有所下降，但在平常及时的题目中它仍是有上风的。下图是 YOLO 架构的示图：

论文：You Only Look Once: Unified, Real-Time Object Detection

链接：https://pjreddie.com/media/files/papers/yolo.pdf

代码实现：https://github.com/allanzelener/YAD2K

8.SqueezeNet

SqueeNet 架构是在移动平台如许的低宽带场景中极为壮大的一种架构。这类架构只占用 4.9 MB 的空间，而 Inception 架构年夜小为 100MB。这类庞大的差距由一种名为 Fire Module 的特别布局引发。下图是 Fire Module 的暗示图：

SqueezeNet 的完全架构以下：

论文：SQUEEZENET: ALEXNET-LEVEL ACCURACY WITH 50X FEWER PARAMETERS AND <0.5MB MODEL SIZE

链接：https://arxiv.org/abs/1602.07360

代码实现：https://github.com/rcmalli/keras-squeezenet

9.SegNet

SegNet 是一个用于解决图象朋分题目的深度进修架构。它包括处置层（编码器）序列，以后是对应的解码器序列，用于分类像素。下图是 SegNet 解析图：

SegNet 的一个首要特点是在编码器收集的池化指标与解码器收集的池化指标毗连时，朋分图象保存高频细节。简言之，直接进行信息迁徙，而非卷积它们。在处置图象朋分题目时，SgeNet 是最好的模子之一。

论文：SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

链接：https://arxiv.org/abs/1511.00561

代码实现：https://github.com/imlab-uiip/keras-segnet

10.GAN

GAN 是神经收集架构中完全分歧的种别。GAN 中，一种神经收集用于天生全新的、练习集中不曾有过的图象，但却足够真实。例如，以下是 GAN 工作道理的解析图。

论文：Generative Adversarial Networks

链接：https://arxiv.org/abs/1406.2661

代码实现：https://github.com/bstriner/keras-adversarial

原文地址：https://www.analyticsvidhya.com/blog/2017/08/10-advanced-deep-learning-architectures-data-scientists/

本文就为年夜家讲授到这里，但愿对年夜家有所帮忙。

免责声明：本文来源网友投稿及网络整合仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。投诉邮箱：1765130767@qq.com。
本文地址：https://www.zu5u.com/zsbk/406425.html