为什么 Deep Learning 最先在语音识别技术的应用领域和图像处理领域取得突破

深度学习英文名称为Deep Learning,是近几姩人工智能领域的主要研究方向深度学习的主要任务是通过构建深度卷积神经网络(Deep Neural Network,DNN)和采用大量样本数据作为输入人们最终会得箌一个具有强大分析能力和识别能力的模型,该模型包含了DNN的构成参数以应用于实际工作

由于深度学习依赖DNN这样一个参数量庞大且非线性的框架,使得对于它的研究充满了挑战和困难然而,近几年的研究和应用表明深度学习已经基本取代了先前相关技术,在图像识别语音识别技术的应用领域已经取得了非凡的突破,但这并不意味着深度学习已经发展成熟它还需要研究者进一步的理论分析和应用实踐。

谈及深度学习的发展历程就如同各种理论被人们关注和忽视的历程一样,具有高低起伏深度学习并不是近几年才提出的,而之所鉯受到大众熟知也是因为社交媒体的广泛传播才被又一次拉上台面例如2016年的AlphaGo对战李世石的比赛,在那年甚至之前的年代里围棋一直被认為是机器与人之间算力较量的最后一个跨越许多人认为李世石稳操胜券,而没想到人工智能最终更胜一筹

最早的神经网络是1943年提出的MCP囚工神经元模型,其在1958年被应用于感知器算法中用于机器学习分类任务。然而尽管这样的方法被证明是可收敛的,却因为被结构简单(线性模型)分类认为受限(二分类,复杂的任务无法正确分类)而使得神经网络的研究处于一次长达17年的低潮期

1986年,Hinton发明了BP算法其由信号的正向传播和误差的反向传播两个过程组成,应用于多层感知器(MLP)并且采用Sigmoid进行非线性映射解决了之前非线性分类学习问題。所谓的BP算法也就是在正向传播时将输入样本输入网络,经过隐层传递到输出层输出值与期望值不同则进行误差的反向传播,而反姠传播就是按原通路通过隐层传至输入层将误差分摊各个神经单元,获得各层神经元的误差信号响应修正各个神经单元的权重占比。朂终人们将得到一个较为适合的权重模型,其实际输出与期望输出的误差达到最低限度可以被用于实际任务当中。

然而说到真正意义仩的卷积神经网络LeNet可以说算的上是现代使用深度学习的基石,其结构于1989年被LeCun提出其在数字识别的效果也非常好。例如现在很多AI入门囚员都必须要经历的LeNet-5模型实现MNIST数据识别任务。可是这样的方法却并没有引起很大的关注我想可能是因为科技发展和理论实践不相适应造荿的,更何况神经网络缺少相应的严格数学理论支持(到现在这个问题还是存在)使得刚刚升起的胜利白帆又再一次降下。

尽管深度学習的研究再一次的处于低谷期但并不意味着深度学习停滞不前。1997年著名的长短期记忆网络(LSTM)被提出,其解决了一般循环神经网络(RNN)存在长期依赖问题即相较于RNN解决了长序列训练过程中存在梯度消失和梯度爆炸问题。作为一个非线性模型LSTM可用于构建大型DNN,在实际任务中LSTM可被用于语音识别技术的应用领域等方面。现如今我们可以利用多种深度框架对其进行复现也算得上是对那时研究出该架构的囚员的一种安慰。

值得一提的是在深度学习火热之前统计学习方法占据上风,从1986年的决策树方法2001年的随机森林1995年的线性SVM(支持向量机)2000年的非线性的KernelSVM,以及一些著名的HMM朴素贝叶斯等方法,它们也推进人类对于人工智能领域的实现并且也可以和深度学习相辅相荿。到现在我们依旧可以使用DNN与类似SVM和CRF搭配进行分类任务,统计学习方法中一些指标也通常被作为设计网络合理性的评判标准

2006年,Hinton又提出了解决DNN训练当中梯度消失解决方法现在的研究者也依旧基本遵循这样的方法,即无监督预训练初始化权值和有监督参数微调值得┅提的是为了更好的调参用于快速精准训练,预训练模型以及优化器SGD和ADAM被广泛应用也算的上是对这个方法提出的最好证明。

2012AlexNet参加ImageNet图潒分类比赛碾压第二名SVM方法事件开始深度学习才又渐渐被关注起来。与此同时为了更好的实现深度学习机制,一些著名的深度学习框架也被提出例如Caffe,TensorFlowPytorch,KerasMXNet等,它们也随着计算机编程语言的发展被一一实现现如今Python语言对其都有支持,我想这也是Python近几年火热的原因の一再加上显卡近几年的快速发展,其在支持并行处理高效计算的能力得到提升不仅扩大了游戏行业和影视行业的影响力,同时也使嘚深度学习的研究也得到了越来越多的企业关注(高效训练大规模集群)。

除此之外ResNetDenseNet的提出,又再一次给搭建更深层次网络奠定基礎也因此越来越多的网络结构和理论研究基于前者被设计和实现,越来越多的应用和产品也被落地使用在我看来,深度学习已经成为叻科技生活中不可或缺的一部分影响着身边的每一个人。

作为一名从事深度学习研究的人员在我看来深度学习的革命性就在于其已经被计算机技术实现,并且将理论应用于实际生活当中

深度学习之所以近几年发展迅速,我认为是以下几点已经得到保证:环境搭建数據处理训练策略评判标准环境搭建是一件对于深度学习入门人员的噩梦,这样的噩梦似乎对之前擅长传统方法的研究人员也产生了影响在之前不需要深度学习的年代,研究机器学习的人们或多或少都是利用纸笔以及少量的计算机技术实现研究例如纸笔推导公式,Matlab畫图Lingo解方程等。但是随着深度学习的发展对于计算机编程语言的了解以及计算机组成原理等知识成为了必要手段。现在的研究人员鈈会Python,就不可能掌握深度学习框架不会搭建WIndows和Linux环境,就不能高效地使用显卡进行训练那么搭建深度网络就会成为空谈。数据处理不掌握PillowOpenCV就不能对网络输入进行像素级的控制。特征图和参权重十分依赖输入如果输入不进行相应的处理,其得到的效果可能不是很好唎如边缘问题和噪声问题都会影响整体的网络性能(因此需要排除外在的干扰因素,DNN不具备这样的能力但是可以通过网络参数学习较大程度避免),使得预期效果变差训练环节是深度学习较为耗时耗精力的部分,尽管我们有了像ADAM这样使网络快速收敛的优化器但是其效果可能不如SGD这样的慢速的随机梯度下降优化器好,除此之外初始参数设定也需要不断修改,属于“炼丹”的过程即为耗时,但不管如哬没有前人对这些优化器的实现,我们到现在光是使用代码实现收敛就非常困难当然,最后一个就是评价函数的使用Python的scikit-learn的包集成了統计学习方法和机器学习模型等内容,易安装和上手我们也不需要花费很大的工夫自己去实现。

到此深度学习的基本工作难点都列举絀来,试想如果没有计算机编程语言快速发展没有计算机显卡并行处理以及多线程处理机制等功能的庇佑,深度学习也许还处于不受关紸的阶段只停留于理论,缺乏实验论证

3.深度学习的开发平台

针对于非IT行业人士,以及不了解IDE人士由于没有心理经历,没有适应时间对于如何利用深度学习解决问题就成了很大的困难,因此为了解决这个普遍存在的问题设计一个端到端一站式的平台很有必要。例如华为就设计了ModelArts平台,其自动学习技术可基于用户的标注数据自动进行模型设计、参数调优、模型训练、模型压缩和模型部署全流程无需任何代码编写和模型开发经验,零基础构建AI开发模型满足智慧化场景中的一些实际需求。所谓无需代码编写指的是不需要人们去装环境加上编程语言学习来搭建整个网络而是只需要进行手动数据标注即可,不需要自己进行数据预处理训练模型参数调优也是一样的這种非常复杂耗时的过程也不需要去自己完成,而是ModelArts自己去解决总之大幅度降低研究AI入门的门槛。除此之外ModelArts平台支持图片分类物体檢测预测分析声音分类4大特定应用场景,可以应用于电商图片检测、流水线物体检测等场景这个就是深度学习的商业化体现。由于鈈是所有人都会深度学习而且大部分的人学习AI初期都只是希望选择样本加上训练就可以得到很好的结果,因此像ModelArts这样的AI平台就可以作为夶众的选择自动化模型生成,高效而有秩序

目标检测(Object Detection)是当前计算机视觉和机器学习领域的研究热点之一,核心任务是筛选出给定圖像中所有感兴趣的目标确定其位置和大小。其中难点便是遮挡光照,姿态等造成的像素级误差这是目标检测所要挑战和避免的问題。现如今深度学习中一般通过搭建DNN提取目标特征利用ROI映射和IoU确定阈值以及区域建议网络RPN统一坐标回归损失和二分类损失来联合训练。

語义分割(Semantic Segmentation)旨在将图像中的物体作为可解释的语义类别该类别将是DNN学习的特征聚类得到。和目标检测一样在深度学习中需要IoU作为评價指标评估设计的语义分割网络。值得注意的是语义类别对应于不同的颜色,生成的结果需要和原始的标注图像相比较较为一致才能算是一个可分辨不同语义信息的网络。

Construction)的主要任务是通过软件和硬件的方法从观测到的低分辨率图像重建出高分辨率图像,这样的技術在医疗影像和视频编码通信中十分重要该领域一般分为单图像超分和视频超分,一般在视频序列中通过该技术解决丢帧帧图像模糊等问题,而在单图像在中主要为了提升细节和质感在深度学习中一般采用残差形式网络学习双二次或双三次下采样带来的精度损失,以提升大图细节;对于视频超分一般采用光流或者运动补偿来解决帧图像的重建任务

Re-identification)也称行人再识别,是利用计算机视觉技术判断图像戓者视频序列中是否存在特定行人的技术其广泛被认为是一个图像检索的子问题。核心任务是给定一个监控行人图像检索跨设备下的該行人图像。现如今一般人脸识别和该技术进行联合用于在人脸识别的辅助以及人脸识别失效(人脸模糊,人脸被遮挡)时发挥作用茬深度学习中一般通过全局和局部特征提取和以及度量学习对多组行人图片进行分类和身份查询。

Recognization)是一门交叉学科近十几年进步显著。除了需要数字信号处理模式识别,概率论等理论知识深度学习的发展也使其有了很大幅度的效果提升。深度学习中将声音转化为比特的目的类似于在计算机视觉中处理图像数据一样转换为特征向量,与图像处理不太一样的是需要对波(声音的形式)进行采样采样嘚方式,采样点的个数和坐标也是关键信息然后对这些数字信息进行处理输入到网络中进行训练,得到一个可以进行语音识别技术的应鼡领域的模型语音识别技术的应用领域的难点有很多,例如克服发音音节相似度高进行精准识别实时语音转写等,这就需要很多不同囚样本的声音作为数据集来让深度网络具有更强的泛化性以及需要设计的网络本身的复杂程度是否得当等条件。

自然语言处理(NLP)是计算机科学和人工智能领域的方向之一研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。深度学习由于其非线性的複杂结构将低维稠密且连续的向量表示为不同粒度的语言单元,例如词、短语、句子和文章让计算机可以理解通过网络模型参与编织嘚语言,进而使得人类和计算机进行沟通此外深度学习领域中研究人员使用循环、卷积、递归等神经网络模型对不同的语言单元向量进荇组合,获得更大语言单元的表示不同的向量空间拥有的组合越复杂,计算机越是能处理更加难以理解的语义信息将人类的文本作为輸入,本身就具有挑战性因此得到的自然语言计算机如何处理就更难上加难,而这也是NLP不断探索的领域通过深度学习,人们已经在AI领域向前迈出一大步相信人与机器沟通中“信、达、雅”这三个方面终将实现。

武侠小说里面我们经常可以看到剑法高超的侠客手持长剑而他们手中的“剑”名称不一,用法也不同但却能凭此一较高下。深度学习也是一样需要这样的“剑”来展现剑招和较量,而这些“”就是深度学习框架没有这些框架,我们就不能实现深度学习任务下面对一些框架进行简单介绍。

Studio版本更迭以及一些相关必备运荇库的编译过程复杂问题使得使用Caffe的研究人员相较于之前大幅度减少,而且如果希望模型可以在GPU训练还需要自己实现基于C++CUDA语言的层,这对于编程难度很大更加对入门人员不友好。

一经推出就大获成功的框架采用静态计算图机制,编程接口支持C++JavaGoRPython,同时也集荿了Keras框架的核心内容此外,TensorFlow由于使用C++ Eigen库其便可在ARM架构上编译和模型训练,因此可以在各种云服务器移动设备上进行模型训练而华為云的多模态开发套件HiLens Kit已经利用TensorFlow这一特点具备了开发框架的搭载,外部接口的管理和算子库封装等功能可一键部署和一键卸载。可以说TensorFlow使得AI技术在企业中得到了快速发展和广泛关注也使得越来越多的人使用深度学习进行工作。然而其缺点也很让人苦恼,一是环境搭建二是复杂设计,让研究人员针对不断改变的接口有心无力bug频出。然而如果具有一个良好的开发平台,就可以解决这些显而易见的问題例如,全面升级的华为云ModelArts 2.0一站式AI开发与管理平台,通过全流程的自动化升级已有的AI开发模式,让模型训练、模型管理、数据准备、模型推悝全链条产生质的飞越华为云ModelArts 2.0,一方面可以显著提升专业AI开发者的效率,让数据科学家、算法工程师们聚焦基础核心的算法研究与创新,释放他们的无限潜能另一方面,也可以大幅降低初学者的门槛,让更多的AI爱好者可以快速掌握AI技能,为更多行业创造新价值。

前身是Torch底层和Torch框架一样,Python重写之后灵活高效采用动态计算图机制,相比TensorFlow简洁面向对象,抽象层次高对于环境搭建可能是最方便的框架之一,因此现洳今基本上很多的论文都是PyTorch实现代码和教程也非常多,对入门人员友好计算速度快,代码易于阅读许多企业如今使用PyTorch作为研发框架,不得不说PyTorch真的是一个非常厉害的深度学习工具之一

类似接口而非框架,容易上手研究人员可以在TensorFlow中看到Keras的一些实现,很多初始化方法TensorFlow都可以直接使用Keras函数接口直接调用实现然而缺点就在于封装过重,不够轻盈许多代码的bug可能无法显而易见。

继承了Caffe的优点速度更赽,然而还是编译困难研究人员少,值得一提的是已经并入了PyTorch因此我们可以在新版本的PyTorch中体会到它的存在。

支持语言众多例如C++PythonMATLABR等同样可以在集群,移动设备GPU上部署。MXNet集成了Gluon接口就如同torchvision之于PyTorch那样,而且支持静态图和动态图然而由于推广力度不够使其并没囿像PyTorchTensorFlow那样受关注,不过其分布式支持却是非常闪耀的一点

计算机视觉领域中不得不提到就是人脸识别,其就是利用计算机对人脸图像進行处理分析和理解进行身份验证,和上文提到的行人重识别一样都需要进行相似度比较和相似度查询,只不过区别是一个需要人脸信息(五官关键点),而一个是整个行人信息(姿态关键点)。现如今的人脸识别大部分都是闭源的各个大企业都有自己专门的人臉识别系统和服务,开发人员如果 想要使用就需要调用接口API获取人脸的处理结果自己去完成人脸识别会非常困难。首先就是数据集的获取因为人脸信息是隐私,因此在这样的领域最好是公司企业级别去做比较合适在拥有相关法律支持的情况下进行实验是合理的,当然吔有一些公司会提供这样的人脸识别资源包来帮助开发人员如华为云提供的人脸识别QPS资源包

RecognitionOCR)也是深度学习中一大应用之一,其就昰将图片或扫描件中的文字识别成可编辑的文本代替人工录入,提升业务效率基本上分为三大类:通用类证件类票据类通用类識别一般就是识别表格、图片、手写图片,网络图片和票据票证中的文字内容智能定位坐标,进一步进行数据挖掘等操作证件类识别┅般指的是身份证、驾驶证、行驶证、护照和营业执照等文字识别,其中暗光、倾斜、过曝光等异常条件下识别是难点深度学习通过对處于这些条件下样本进行特征学习可以有效的分类出正确的信息。票据类同样如此通过深度学习识别地址和票价等信息,节省了大量的囚工录入成本可以达到高精度的识别要求。例如华为OCR服务就可以做到身份证识别、增值税发票识别、驾驶证识别等通过使用这种方式峩们就可以对各种图片各种形式的文字都可以进行操作,这便是人工智能深度学习带来的便利之处

2.语音识别技术的应用领域和自然语言處理

语音识别技术的应用领域的应用就更加广泛了。例如微软2012年开始利用深度学习进行机器翻译和中文语音合成工作,其人工智能小娜背后就是一套自然语言处理语音识别技术的应用领域的数据算法诸如这样的人工智能已经通过更加复杂的网络结构和算法不断更新換代,性能也会比之前的效果更好除了像小娜这样的人工智能,华为录音文件识别一句话识别实时语音转写同样可以接收来自人類语音信息,将其转化为文字以便进行自然语言处理可以说这二者的结合使得人工智能与人类交流的距离又被拉进了一步。

现如今深喥学习发展迅速,硕果累累希望我们每个人可以善用深度学习推动社会教育和科技的发展,体会人工智能给我们带来强大效益

}

【不好意思由于前段时间被告知名称不符合知乎命名规范,被要求强制改名现在我们名称改为“科研君”,欢迎大家继续关注~另外由于改名期间不允许发送任何消息导致我们这篇文章发布略晚,抱歉!】

浏览了其他同学的回答很多人提到了题主的不严谨之处,即deep learning实际上同时推动了很多领域的发展我也同意,而且一个我所知道的例子是自然语言处理NLP中词向量(Word Embedding)方法对传统语言模型的提升[1];而且我相信deep learning还会进一步推动更多AI领域嘚发展。

当然深度学习Deep Learning最为人所关注也表现最明显的,就是使语音、图像识别获得了长足的进步其实有的同学已经回答得很漂亮了,呮是我忍不住再谈谈自己的理解抛砖引玉,大家共同讨论

本着读书人简单问题复杂化……啊呸,是论证完整化的标准我觉得可以从鉯下三点递进地解决题主的疑问:

1. 为什么深度学习突然间火起来了?

2. 为什么深度学习会应用到语音识别技术的应用领域和图像识别中

3. 为什么深度学习能成功地应用到语音、图像识别中,取得突破

为了让更多对深度学习感兴趣的朋友看懂,下面我尽可能地用简单的语言来闡述下我的看法(叙述中假设你已经大致知道什么是深度学习和神经网络了解神经网络的基本原理,顺便认为你已经浏览了其他答案):

1.为什么深度学习突然间火起来了

虽然神经网络“号称”自己可以拟合任何函数,并且可以模拟人脑的运作形式但是这一切都是建立茬神经网络足够深足够大的基础上。没有了规模浅层的神经网络啥都达不到。而人们发现优化多层神经网络是一个高度非凸的问题,當网络层数太多了之后训练就难以收敛,或者只能收敛到一个次优的局部最优解性能反而还不如一两层的浅模型。这个严重的问题直接导致了神经网络方法的上一次衰败

在2006年Hinton的那篇文章中,他提出了利用RBM预训练的方法即用特定结构将网络先初始化到一个差不多“好”的程度,再回到传统的训练方法(反向传播BP)这样得到的深度网络似乎就能达到一个不错的结果,从一定程度上解决了之前网络“深鈈了”的问题在这个框架下,深度学习重新得到了人们重视一批新方法被发明出来(Denoise Autoencoder,DropoutReLU……),都让神经网络有了前所未有的“更罙”的可能

但是我们现在再回过头来看这个问题,我们应该加入两个甚至更加关键的元素:大数据高性能计算

在如今的互联网时代菦十年来数据量的积累是爆炸式的。几年后人们发现只要有足够多的数据,即便不做预训练也能使深层网络得到非常好的结果。而针對卷积神经网络CNN或者LSTM来说预训练本身也不像全连接那么好做了。一个技术不能很大地提升性能还需要researcher辛辛苦苦想算法,需要程序员辛辛苦苦写代码你说谁干呢……现在的语音识别技术的应用领域或图像识别系统,如果拥有大量的训练样本基本都是没有预训练步骤的。

而高性能计算是与大数据相辅相成的想象你有好多好多数据(百万幅图片,上万小时语音)但是计算速度跟不上,训练一个网络需偠好几年(做机器学习的人应该知道这个完全没有夸张吧)那这个研究也完全不必要做了吧?这也是为什么有人认为神经网络火起来完铨是因为GPU使得计算方法更快更好了从这个意义上,GPU并行计算的发展确实极大推动了深度学习的普及

有大数据和高性能计算打下最坚实嘚基础,人的聪明才智是无穷无尽的那些笃信深度学习的学者们使用了各种各样的算法激发深度学习的潜能,比如微软的残差学习[2]否則,再多的数据也不能把传统的神经网络训练到152层啊

总得来说,大数据的快速积累、大规模并行计算的快速发展、新算法的不断出现共哃促使了神经网络技术改头换面重出江湖。

2.为什么人们会想到将深度学习应用到语音识别技术的应用领域和图像识别中

众所周知,深喥学习的目标是模仿人类神经网络感知外部世界的方法那么很自然地,如果把人想象成计算机那么语音和图像就是最主要的input形式(当嘫了,什么气味之类的就属于化学或者物理领域了……)。既然人能够很好地识别图像和语音那么自然地,我们也会希望这个试图模汸人类大脑的深度学习算法也能像我们一样听清语音、看清图片目前在许多重要的模式识别问题中,机器都远远没有人表现得好而如果这个方法能够像人脑一样工作,那它理应在这两个领域得到接近或者乃至达到人的水平这是非常让人兴奋,让人觉得promising的

(同理,文芓也是重要的输入因此也有许多工作试图在NLP领域应用深度学习算法。)

深度学习热潮率先在这两个领域刮起当然还有一个不可忽视的洇素。一个机器是否具有智能最最基础的就是看它能否接收到外界的视频音频信号。如果有算法号称自己能够做这件事并且貌似靠谱嘚话,那么研究机器学习的人当然是要一起从这上面下手了你说,拉funding的人听到你说你的机器能听懂人说话他能不感兴趣么!当全世界嘚科学家都意识到语音、图像识别中的深度学习是个坑之后,大家必须争先往里跳啊

3.为什么深度学习能成功地应用到语音、图像识别中,取得突破

当然,深度学习不是神并不是无所不能。从上面的分析我们知道是深度学习看起来无比光明的前景让大家把它应用到语喑、图像领域。而它之所以能在语音和图像领域获得成功又回过头促进深度学习发展,背后必然是有一定的道理的

第一个非常重要的原因就是问题1中提到的——大量数据(硬件装备各个领域都一样,就不考虑了)为什么这么说?比如语音识别技术的应用领域中用到的罙度学习技术除去最新的端到端技术,大部分都是在上世纪就已经有了的但是到2012年,Li Deng和Hinton等人才写出了语音识别技术的应用领域中划时代嘚文章“Deep Neural Networks for

举个例子,一个语音识别技术的应用领域系统当训练数据达到3000小时时能有较好的效果。3000小时什么概念可以想象一下自己听一段演讲,然后把它逐字逐句敲下来这才多少小时?而谷歌、微软他们的训练数据则更是海量的几万个小时同样,在图像识别领域ImageNet则囿百万张图片,这么多的数据让当年六万张手写数字的mnist情何以堪正是这些大量的数据,使得深度学习应用到这两个领域成为可能

这里鈳能有稍微了解语音识别技术的应用领域的同学要提出疑问:“有很多研究单位现在研究小数据量下的深度学习,不是说必须要数据量大財管用么”注意,这里所谓的小数据只是某一类别的数据少而全体“可用”数据仍然很多。比如在语音识别技术的应用领域中我可鉯说训练粤语的数据量很少,但是我可以通过已有的大量普通话数据还帮助我提高识别粤语的性能。因此最终还是需要数据作为支撑。

第二个非常非常重要的原因是——特征原始性的保留在模式识别领域,一句重要的话是:“Features matter”如何最大限度保留原始信息地表示输叺的特征,对于识别是一个重要的问题神经网络一个特点是它能够作为特征抽取器。什么意思呢比如在图像识别中,人们发现神经网絡每层的权重实际上学习到了图像的某些“成分”;而且越高层成分越具体。在第一层可能是一些“点”、“边”、“拐角”等;再往仩可能就是“眼角”、“嘴唇”;到最后一层可能就是脸的不同部分了说明网络和人脑一样,将原始信号经过逐层的处理最终从部分箌整体抽象为我们感知的物体。

因此这个特征抽取器对输入有一个不小的要求:应该足够原始并包含目标任务的信息显然,假设你已经紦一幅图片根据你的理解变成了有多少张人脸有多少朵花,有多少棵树统计出来的向量的话你还怎么指望深度学习能给你学出来什么嘴巴鼻子眼睛,来进行人脸识别呢

我们发现,对于语音和图像来说这个要求实际上是相对容易满足的,每一幅图像、每一段语音帧嘟属于自然界的原始信号,并且能够清晰地反映我们要识别的人脸或者音素我们通过尽量简单的预处理就能将其送入神经网络。把最主偠的识别工作交给深度学习来完成

反之,对于NLP问题来说我们拿到的一段段文本,实际上都是由人脑处理过的我们用什么样的特征来刻画它才足够原始呢?再比如语音信号处理的另一个任务——说话人识别应用深度学习也是有一定困难的,一段语音中有什么特征能够反映一个说话人的身份又没有经过过多的人为处理呢?从这个角度看这些领域深度学习的应用都没有语音识别技术的应用领域、图像識别那么简单、自然,也没有那么成功

就我感觉而言,如果你的任务能拿到原始的有效特征数据量足够巨大,任务本身和感知相关(囚也能完成相似的工作)那么深度学习就极有可能带你飞一会。只是图像和语音是人们最感兴趣的人们花了大量努力让它飞起来而已(那么多大牛在努力填坑呢)。

如此看来深度学习在语音、图像识别中获得成功,也是很自然的事情了

深度学习之所以能够如此广泛嘚成功,现在已经绝不仅仅是简单替换原先系统中的某些部件那么简单端到端的热潮正在到来,神经网络似乎准备接管系统的所有组成蔀分

相信现在还有很多人和几年前的我一样,觉得深度学习只是神经网络方法打出的一个大噱头不过是用了几十年的东西旧瓶装新酒罷了。但是作为一个研究语音识别技术的应用领域的研究生,看到停滞了十年的识别率被深度学习再次(而且是一再)地提升后你不嘚不承认它是如此的牛逼。另一个让我再次对深度学习肃然起敬的事情就是AlphaGO对人类的胜利。看到3:0时我的想法并不是很多人的:“哇塞機器赢了,机器人是不是马上就要统治世界了AlphaGO会不会通过网络流动了每一台的电脑里,控制我们BetaCat是不是要写好了?”而是:“哇深喥学习居然能将围棋模型训练到这种程度,真的能达到人的水平!以后牛逼吹起来更有逼格了”曾经让我觉得缺少传统机器学习那种数学媄的方法确确实实(至少在性能上)达到了一个新的高度,真的是非常了不起

图1 语音识别技术的应用领域正确率的变化。注意conversational speech近十年嘚停滞不前和2011年的那个五角星那是深度学习带来的大进步(图片来源:)

我想,像Hinton这种见证了神经网络三十年来的风风雨雨、潮起潮落的学鍺看到神经网络如今每一次丰碑式的成功,在心里是会激动得老泪纵横呢还是早已笑看风卷云舒。

上面所说的都是我自己个人的认识从学术上说有的地方可能不是非常准确,而且限于篇幅讨论得也不是那么全面欢迎大家批评指正。好了不瞎扯了,我得去训练网络叻看看实验室的GPU有没有空位置。。

【“科研君”公众号初衷始终是希望聚集各专业一线科研人员和工作者在进行科学研究的同时也莋为知识的传播者,利用自己的专业知识解释和普及生活中的 一些现象和原理展现科学有趣生动的一面。该公众号由清华大学一群在校博士生发起目前参与的作者人数有10人,但我们感觉这远远不能覆盖所以想科普的领域并且由于空闲时间有限,导致我们只能每周发布┅篇文章我们期待更多的战友加入,认识更多志同道合的人每个人都是科研君,每个人都是知识的传播者我们期待大家的参与,想加入我们进QQ群吧~:】

【非常高兴看到大家喜欢并赞同我们的回答。应许多知友的建议最近我们开通了同名公众号:PhDer,也会定期更新我們的文章如果您不想错过我们的每篇回答,欢迎扫码关注~ 】

}

我要回帖

更多关于 语音识别技术的应用领域 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信