什么是end-to-end神经网络?_荷叶田田-CSDN博客-免疫在线蚂蚁淘旗下平台-

当前位置：首页 > 新闻动态 >

热卖商品

endtoend/Oils, vanilla/8024-06-4

endtoend/Proteins,milk/91053-68-8

endtoend/Black currant concrete/68606-81-5

新闻详情

什么是end-to-end神经网络?_荷叶田田-CSDN博客

来自 : CSDN技术社区发布时间：2021-03-24

讨论:

张旭--------------------------------------------------------------------------------------------------------------------

端到端指的是输入是原始数据输出是最后的结果原来输入端不是直接的原始数据而是在原始数据中提取的特征这一点在图像问题上尤为突出因为图像像素数太多数据维度高会产生维度灾难所以原来一个思路是手工提取图像的一些关键特征这实际就是就一个降维的过程。
那么问题来了特征怎么提
特征提取的好坏异常关键甚至比学习算法还重要举个例子对一系列人的数据分类分类结果是性别如果你提取的特征是头发的颜色无论分类算法如何分类效果都不会好如果你提取的特征是头发的长短这个特征就会好很多但是还是会有错误如果你提取了一个超强特征比如染色体的数据那你的分类基本就不会错了。
这就意味着特征需要足够的经验去设计这在数据量越来越大的情况下也越来越困难。
于是就出现了端到端网络特征可以自己去学习所以特征提取这一步也就融入到算法当中不需要人来干预了。

YJango------------------------------------------------------------------------------------------------------------------

$\"\"$
经典机器学习方式是以人类的先验知识将raw数据预处理成feature 然后对feature进行分类。分类结果十分取决于feature的好坏。所以过去的机器学习专家将大部分时间花费在设计feature上。那时的机器学习有个更合适的名字叫feature engineering 。

后来人们发现利用神经网络让网络自己学习如何抓取feature效果更佳。于是兴起了representation learning。这种方式对数据的拟合更加灵活。

网络进一步加深多层次概念的representation learning将识别率达到了另一个新高度。于是你听到了是个搞机器学习的人都知道的名字 deep learning。实指多层次的特征提取器与识别器统一训练和预测的网络。

end to end的好处通过缩减人工预处理和后续处理尽可能使模型从原始输入到最终输出给模型更多可以根据数据自动调节的空间增加模型的整体契合度。

拿语音识别为具体实例。普遍方法是将语音信号转成频域信号并可以进一步加工成符合人耳特点的MFCC进行编码 encode 。也可以选择Convolutional layers对频谱图进行特征抓取。这样可在encode的部分更接近end to end 中的第一个end。

但识别出的结果并不可以告诉我们这段语音到底是什么。DNN-HMM混合模型还需要将DNN识别出的结果通过HMM来解码 decode 。而RNN-CTC就将HMM的对齐工作交给了网络的output layer来实现。在decode的部分更接近end to end 中的第二个end。

王赟--------------------------------------------------------------------------------------------------------------------

我的理解跟 YJango 不太一样。我就在语音识别的范围内说说我的理解吧。

传统的语音识别系统是由许多个模块组成的包括声学模型、发音词典、语言模型。其中声学模型和语言模型是需要训练的。这些模块的训练一般都是独立进行的各有各的目标函数比如声学模型的训练目标是最大化训练语音的概率语言模型的训练目标是最小化 perplexity。由于各个模块在训练时不能互相取长补短训练的目标函数又与系统整体的性能指标一般是词错误率 WER 有偏差这样训练出的网络往往达不到最优性能。

针对这个问题一般有两种解决方案

端到端训练 end-to-end training 一般指的是在训练好语言模型后将声学模型和语言模型接在一起以 WER 或它的一种近似为目标函数去训练声学模型。由于训练声学模型时要计算系统整体的输出所以称为「端到端」训练。可以看出这种方法并没有彻底解决问题因为语言模型还是独立训练的。端到端模型 end-to-end models 系统中不再有独立的声学模型、发音词典、语言模型等模块而是从输入端语音波形或特征序列到输出端单词或字符序列直接用一个神经网络相连让这个神经网络来承担原先所有模块的功能。典型的代表如使用 CTC 的 EESEN [1]、使用注意力机制的 Listen, Attend and Spell [2]。这种模型非常简洁但灵活性就差一些一般来说用于训练语言模型的文本数据比较容易大量获取但不与语音配对的文本数据无法用于训练端到端的模型。因此端到端模型也常常再外接一个语言模型用于在解码时调整候选输出的排名 rescoring 如 [1]。

「端到端训练」和「端到端模型」的区分在 [2] 的 introduction 部分有比较好的论述。

与 YJango 的答案不同我觉得「输入是语音波形 raw waveform 」并不是端到端模型的本质特征端到端模型的输入也可以是特征序列 MFCC 等。端到端模型的本质特征是把声学模型、发音词典、语言模型这些传统模块融合在一起。

参考文献
[1] Yajie Miao, Mohammad Gowayyed, and Florian Metze, EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding, in Proc. ASRU 2015.
[2] William Chan, et al. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition, in Proc. ICASSP 2016.

陈永志--------------------------------------------------------------------------------------------------------------------

我从目标检测角度来说说我对end-to-end的理解。

非end-to-end方法
目前目标检测领域效果最好影响力最大的还是RCNN那一套框架这种方法需要先在图像中提取可能含有目标的候选框 region proposal 然后将这些候选框输入到CNN模型让CNN判断候选框中是否真的有目标以及目标的类别是什么。在我们看到的结果中往往是类似与下图这种在整幅图中用矩形框标记目标的位置和大小并且告诉我们框中的物体是什么。
这种标记的过程其实是有两部分组成一是目标所在位置及大小二是目标的类别。在整个算法中目标位置和大小其实是包含在region proposal的过程里而类别的判定则是在CNN中来判定的。 $\"\"$ 这种标记的过程其实是有两部分组成一是目标所在位置及大小二是目标的类别。在整个算法中目标位置和大小其实是包含在region proposal的过程里而类别的判定则是在CNN中来判定的。

end-to-end方法
end-to-end方法的典型代表就是有名的yolo。前面的方法中 CNN本质的作用还是用来分类定位的功能其并没有做到。而yolo这种方法就是只通过CNN网络就能够实现目标的定位和识别。也就是原始图像输入到CNN网络中直接输出图像中所有目标的位置和目标的类别。这种方法就是end-to-end 端对端的方法一端输入我的原始图像一端输出我想得到的结果。只关心输入和输出中间的步骤全部都不管。

杨楠----------------------------------------------------------------------------------------------------------------------

end-end在不同应用场景下有不同的具体诠释对于视觉领域而言 end-end一词多用于基于视觉的机器控制方面具体表现是神经网络的输入为原始图片神经网络的输出为可以直接控制机器的控制指令如

1. Nvidia的基于CNNs的end-end自动驾驶输入图片直接输出steering angle。从视频来看效果拔群但其实这个系统目前只能做简单的follow lane 与真正的自动驾驶差距较大。亮点是证实了end-end在自动驾驶领域的可行性并且对于数据集进行了augmentation。链接 https://devblogs.nvidia.com/parallelforall/deep-learning-self-driving-cars/

2. Google的paper: Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection 也可以算是end-end学习输入图片输出控制机械手移动的指令来抓取物品。这篇论文很赞推荐 https://arxiv.org/pdf/1603.02199v4.pdf

3. DeepMind神作Human-level control through deep reinforcement learning 其实也可以归为end-end 深度增强学习开山之作值得学习 http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

4. Princeton大学有个Deep Driving项目介于end-end和传统的model based的自动驾驶之间输入为图片输出一些有用的affordance 实在不知道这词怎么翻译合适… 例如车身姿态、与前车距离、距路边距离等然后利用这些数据通过公式计算所需的具体驾驶指令如加速、刹车、转向等。链接 http://deepdriving.cs.princeton.edu/

总之 end-end不是什么新东西也不是什么神奇的东西仅仅是直接输入原始数据直接输出最终目标的一种思想。

胖子不胖-----------------------------------------------------------------------------------------------------------

其实就是joint learning.

end-to-end 的本质是你要解决的问题是多阶段的或多步的(跟所谓的raw feature没啥关系)。如果分阶段学习的话第一阶段的最优解不能保证第二阶段的问题达到最优。end-to-end把他们堆在一起来优化确保最后阶段的解达到最优。

想飞的石头------------------------------------------------------------------------------------------------------

因为多层神经网络被证明能够耦合任意非线性函数通过一些配置能让网络去做以前需要人工参与的特征设计这些工作然后配置合适的功能如classifier,regression 而现在神经网络可以通过配置layers的参数达到这些功能整个输入到最终输出无需太多人工设置从raw data 到最终输出指标。

本文链接： http://endtoend.immuno-online.com/view-690738.html

发布于： 2021-03-24 阅读（0）

没有了