cvpr 2015 paper list有什么值得关注的亮点

点击联系发帖人 时间：2016-02-02 03:58

cvpr 2015 best paper

CVPR 2015深度学习回顾

CVPR 2015深度学习回顾：ConvNet、Caffe、Torch及其他
摘要：本文是vision.ai的Co-Founder，前MIT研究人员T.
Malisiewicz针对CVPR'15尤其是Deep Learning的综述文章，谈到了ConvNet的Baseline，Caffe和Torch之间的分歧，ArXiv论文热，以及百度的ImageNet违规事件等。
CVPR可谓计算机视觉领域的奥运会，这是vision.ai的Co-Founder，前MIT研究人员T. Malisiewicz针对CVPR'15尤其是Deep Learning的综述文章，谈到了ConvNet的Baseline，Caffe和Torch之间的分歧，ArXiv论文热，以及百度的ImageNet违规事件等。原文标题为：Deep down the rabbit hole: CVPR 2015 and beyond。
CVPR是主要的计算机视觉会议，可以把它看作是计算机视觉研究的奥林匹克。今年，CVPR将在我的后院举行，离可爱的剑桥不到一英里。我很多麻麻省理工的同事都参加了，如果Google在这次CVPR&2015上有着有最好的表现，我也不会感到惊讶。从2004年开始，我几乎参加了每年的CVPR，那么，让我们来一场计算机视觉研究世界新而短暂的精彩旅行吧。
灰白阴影下的兔子洞艺术
多年来，发生了很多变化，但本质上还是没变。学者曾经是最顶端的，捍卫他们自己的大学以及发生在他们非商业研究实验室的令人惊叹的事情。如今，学者仍然处于顶端，但是现在维护的是他们的Google、Facebook、Amazon以及&X 公司的某个附属子公司。随着招聘的最佳预算和以出版为导向的沉重企业文化，如果接下来连续几年的大量学术外流，我也不会感到惊讶。由于CVPR只有两周，因此Google一直在忙于制作ConvNet（卷积神经网络）艺术，同时向世界展示了如果你想做最好的深度学习研究，他们就是（合适的）王国。
仅仅是博士生和博士后的部队并不能打败软件工程师和科学研究者部队。在以前，学生在获得计算机视觉的博士后之后通常会选择离开学校（通常会受到一些视觉研究工作和华尔街的工作的诱惑）。现在，之前的博士生在大公司运作研究实验室已经紧锣密鼓的进入我们的视野。似乎还没有足够的深度专家来填补这个大需求。
数据集通常是一件大事——请下载我们的数据！数据集依旧是件大事——但是我们抱歉告诉你，你所在大学的计算资源达不到要求（但幸运的是，我们 X 公司总在招聘，所以来加入我们吧，让我们一起推动研究的向前发展）。
如果你想要查看个人文献，我建议Andrej&Karpathy的&CVPR&2015文献在线导航工具或者看看在计算机视觉基础网站上的CVPR&2015文献&。还有就是一个麻省理工学院的博士候选人Zoya&Bylinskii，也列出了一些有趣的CVPR&2015&的文献。
ConvNet革命：一个网络预训练
机器学习过去是女王，现在是国王。机器学习过去是浅显的，但如今的学习方法如此之深，以致于图表在单个滑动下很难拟合。研究生过去常常避开了关于Yann&LeCun的笑话，Yann&LeCun坚持认为机器学习在将来的某一天会做特征设计阶段的工作。现在似乎是这种情况，当你坚持认为“手工特征设计”将省掉一天时间的时候，整个视觉社区都会忽略你。Yann&LeCun做了一个主题报告，并给了它一个有趣的标题：“深度学习怎么了？”，这表明了卷积神经网络（也叫CNNs或ConvNets）存在于CVPR的任何角落。
图来自Karpathy的卷积神经网络教程
过去在CVPR很难发表ConvNet（卷积神经网络）研究论文，而现在如果你没有对ConvNet做一个基本的比较的话，很难得到一篇CVPR文献。得到一个很酷的新问题了么？哦，你没有试一下基于ConvNet的基本方法么？很好，这说明为什么没人关心了。
尽管如此，但这并不是机器接管了视觉科学家的工作。如今的视觉科学家更是一个应用型机器学习黑客，而且由于强大的CNN主题，理解和重新实现如今的视觉系统变得更加容易。我们在CVPR上看到的在本质上是一个类似分割和运动的经典问题的回访，只是使用的是这种新的机器方法。正如Samson&Timoner在本地Boston&Vision&Meetup网站上概括的那样，当互信息变得流行，社区也随之变得时尚——这次围绕的是ConvNets。但这不仅是一种趋势，非CNN（卷积神经网络）的竞争正在被摧毁。
来自Bharath&HariharanCVPR&2015的文章-在切割上使用卷积神经网络
还有很多事情等着视觉科学家去做，一个扎实的数学上的正式教育比其他任何都要重要。我们过去是使用梯度下降来训练，现在也是如此。就好比我们过去喝咖啡，现在也喝咖啡一样。其本质上，其实还是数学。
内心深处的兔子洞
CVPR2015让人想起了物理学上牛顿之前的日子。许多聪明的科学家能够使用数学来预测物体的运动，曾经聪明的笛卡尔教会我们如何将我们的物理思维考虑到坐标系统中。非常清楚的是：通过卷积神经网络语言来铸造你的计算机视觉问题，你将打败所有用手做计算机视觉的人。我认为Yann&LeCun（深度学习之父其中之一）就是一个现代的笛卡尔，只是因为我认为开创性的工作是指日可待。他的ConvNets思想框架就像是一个必备的坐标系统——我们可能不知道目的地像什么，但我们现在知道如何来绘制一张地图。
深度网络每个月都表现的很出色，但我仍然等待着艾萨克（牛顿）的到来，让我们的生活更轻松。我想要一个简化，但我并不悲观——一个很好的原因就是会有一系列的ConvNet空间活动（以防你没能参加CVPR&2015），所以我直言不讳：ConvNets这该死的工作！其实我只想要深度学习的F=ma公式。
计算机视觉的开源深度学习：Torch&VS&Caffe
CVPR2015开始的第一天是一些优秀的软件教程。外面有许多优秀的非-α深度学习软件，并且让每个人的生活变得容易。在CVPR上，我们既有Torch教程也有Caffe教程。我参加了DIY深度学习的教程，这是一个充满Caffe的屋子——在会议开始的5分钟前，站在房子里的参会人员只有像我这样的懒虫。相比之下，Caffe是更受欢迎的，但对于Torch，当谈及到一些深度学习的权威人员时（如+Andrej&Karpathy和其他深度思维科学家），一些特定的专家小组似乎从Caffe转移到了Torch。
Caffe是在Berkeley发展起来的，有一些充满活力的社区，与Python结合并且在大学生中似乎相当流行。Trevor&Darrell教授甚至找了一些博士后来帮助Caffe发展。如果我再年轻几岁并且刚获得博士学位，那么我一定会申请的。
Torch并没有跟随Python的潮流，它是基于Lua的。对于解释器没有必要像Matlab或者Python那样，Lua会给你神奇的控制台。Torch被Facebook人工智能研究实验室和位于伦敦的谷歌DeepMind大量使用。对于那些害怕类似于Lua这样新语言的人，在此不用担心——如果你已经涉足Python，JavaScript或者Matlab的话，那么你会感到Lua语言学起来特别“轻松”。&
现在，越来越清晰的是：深度学习的未来主要是来自像Caffe或Torch那样有自给自足的软件包，而不是像OpenCV或Matlab那样的处在生死边缘上的全能工具。当你在OpenCV上分享创作，你最终会分享源代码，但有了深度学习工具包，你最终提供的是你的网络预训练。对于你的计算机视觉管道，你不必再考虑20个“小”算法的组合——你只要考虑你想要的流行网络架构，然后就是数据集。如果你有GPU和庞大的数据，你可以做完整的端到端的训练。如果你的小数据集或者中等数据集，你可以微调最后几层。你甚至可以在最后一层训的顶部训练一个线性分类器，如果你怕麻烦——那么你要做的只是超越SIFT（尺度不变特征变换算法），HOG（方向梯度直方图&），GIST(通用搜索树)以及所有在计算机视觉过去二十年里庆祝的算法。&
在CVPR&2015上使用ConvNets的方式，使我感觉到我们正在接近某个大的东西。但是在我们捡到黄金之前，ConvNets仍然像是一个微积分的影子，只是“希望”会得到更大，更深层次的东西和更有意义的事。我认为，对于ConvNets的调查可视化算法的研究表明，即使网络建筑师也不能完全确定幕后发生的事情。
嵌入大脑的视频游戏引擎：面向机器智能的不同路径
在CVPR&2015会议的最后一天的现场分析研讨会上，Josh&Tenenbaum&给嵌入大脑的视频游戏引擎赋予了一个诱人的讨论标题。你可以在一篇短篇《科学美国人》文章中读到他观点的概括。尽管他的说话风格看起来似乎不符合CVPR的标准，但它却是典型的Tenenbaum。在他的世界里，没有基准可以超越，没有曲线可以拟合阴影，如果你让我把LeCun和笛卡尔作比较，那么LeCun在某种意义上算是教授吧。Tenenbaum可能是现代的亚里士多德。正如Jianxiong
Xiao教授全面的介绍Josh那样，他或许是对的——这是你能找到的最聪明的扬声器之一。它在一秒内能说100个单词，你会觉得你的大脑在放大你听到的。
Josh的一个主要研究主题是基于图像识别阴影的超越。Josh的所有的工作都是关于在这个世界上建立思维模型，而他的工作确实可以被看作是综合分析。在他模型的内部主要是一些类似于视频游戏引擎的东西，而他展示了许多令人信服的相关实例，这些实例对于人类来说很是方便，但对于今天数据驱动的ConvNets而言，几乎是不可能的。在这个夏天，如果他的学生在谷歌DeepMind工作，那么也不必感到惊讶。
几年前，概率图模型（图论和概率方法的合并）那是风靡一时。Josh给了我们概率编程的味道，虽然我们还没有看到新的方法来主导计算机视觉研究世界，但请睁大你的眼睛。他提到了一篇最近发表在Nature上的文章（下面引用的），来自另一个受人尊敬的机器智能研究，这应该会引领潮流兴奋相当长一段时日。请看看下面Julia代码中尾部的一部分：
Probabilistic&machine&learning&and&artificial&intelligence.Zoubin&Ghahramani.&Nature&521,&452–459&(28&May&2015)&doi:10.1038/nature14541
下面来看一看一些教授。Tenenbaum的想法正在行动中，看看下面的这篇CVPR&2015的文章，标题为：一种面向场景感知的概率编程语言。恭喜Tejas&D.&Kulkarni，第一作者，一个MIT的学生，因为这个令人兴奋的新作而获得最佳论文荣誉奖。有了谷歌DeepMind，你会有一个有趣的夏天。
Picture: A Probabilistic Programming Language for Scene Perception
深度场景CNNs物体检测器
在现场分析研讨会上有着大量的好的演讲报告，在另一次演讲中，真正突出的是一个新的大型数据集（麻省理工学院的地方）和当你使用场景与物体来训练发生什么时的一个彻底调查。
来自于麻省理工学院的Antonio&Torralba做了一个关于地点数据库的讨论，以及当你做以物体为中心的数据库（如ImageNet）与以场景为重的数据库（如麻省理工学院的地点）训练时能学到什么的一个深层分析。你可以查看“目标探测器浮现”幻灯片或arXiv论文来学习更多的指示。这些都来自即将到来的研究员Bolei
Zhou的出色工作！
CVPR无意之事：ArXiv出版狂热&&&百度惨败
从长远来看，最近快速推到ArXiv.org的预印本热潮对学者和商业研究者老说贡献都很大。当你有大量的专家以最快的速度探索思想，然后等待6个月直到下一次回忆的最后截止日期，这样是没有意义的。唯一的缺点就是，它使新发布的CVPR论文过时了。这就像在ArXiv发布文章的那一天每个人都已经详细精读了这个好东西。但你得到了你的“想法主张”而不用担心一个不适当的评审影响你。双盲评审，将准备进行一个深度改造。我们现在知道谁在做什么，特别是在发表时间之前。对于学生，发布或退稿仅仅得到的是一个结果。ARxIV狂热是一件好事还是坏事取决于你，可能更多的是你的资历比其它什么都重要。在接下来的日子里，CV的各种声音，肯定会越来越响，并会持续如此。
外行人仅仅是阅读人工智能标题的话，百度作弊丑闻似乎是个大新闻，但在计算机视觉上，在测试集上的过拟合并不是一件新颖的事情。这篇论文最后被驳回了，研究生通常多次在测试集上评估他们的算法，而真相就是人无完人。当它对#1很重要的时候，不要对你的比较变得不合适而感到惊讶。重要的是意识到地面破碎研究和小百分比追逐的不同。我们都会犯错，在重大的压力下，我们都会表现出自己的弱点。所以，让我们一笑置之，坦然面对吧。让我们招聘最好的，鼓励真正伟大的研究并且停止追逐百分比。事实上，很多的顶级性能方法都是相似的。
CVPR的参会者在持续的增加。我们现在有博士生，创业者，教授。招聘人员，大公司，甚至是来学生，来展示自己的成果。CVPR会成为新的SIGGRAPH（美国计算机协会）么？
来自Changbo&Hu绘制的CVPR参会者图片
ConvNets留在了这里，但是如果我们想要让ConvNets能超越阴影的计算，那么还有大量的工作需要完成。Geoff&Hinton的capsules在深夜的讨论中不断出现。“我想使用神经元组来取代非结构化层，我称之为‘capsules’，它更像一个皮层柱”——Geoff&Hinton的新闻网站AMA。很多人（像来自CMU的Abhinav&Gupta教授）也在讨论非监督学习CNN（卷积神经网络）的训练，我预测，在明年的CVPR中，从没有注释的视频学习大型卷积神经网络应该是一个大的方向。&
最重要的是，当深度学习的巨头去提他们最喜欢的方法有错误时，我只期待有最好的研究也会随之而来。快乐的计算吧，并记住，永远不要停止学习。
> 本站内容系网友提交或本网编辑转载，其目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请及时与本网联系，我们将在第一时间删除内容！
原文链接:http://www.csdn.net/article//2825395
本文做了少量修改,仅作转载存贮,如有疑问或版权问题,请访问原作者或告知本人.
CVPR可谓计算机视觉领域的奥运会,这是vision.ai的Co-Founder,前MIT研究人员T. Malisiewicz针对 ...
CVPR 2015 之深度学习篇 Part 1 - AlexNet 和 VGG-Net摘要-今年的 CVPR 非常的火爆,总共有2800多人参与,相比去年增加了700多人,这与deep learning的异军突起是不无关系的.CVPR 2015 基本是 “the year of deep learning”,有大概70%的文章是关于deep learning ...
CVPR 2015 之深度学习篇 Part 2 - deep learning在计算机视觉各个子领域的应用Image Classification (图像分类)deep learning 的腾飞归功于其在 image classification 上的巨大成功.2012年的 AlexNet 的分类效果遥遥领先于第二名.后来各种 deep architectu ...
摘要:2015年ICML的深度学习研讨会,压轴大戏是关于深度学习未来的讨论.组织方邀请了Yoshua Bengio.Neil Lawrence.Yann LeCun等六位专家开展讨论.本文是这次讨论的简要总结,来自Kyunghyun Cho(Bengio的博士后). [编者按]2015年ICML的深度学习研讨会,压轴大戏是关于深度学习未来的讨论.基于平衡考虑 ...
6月7日到12日,世界顶级的计算机视觉会议CVPR在美国波士顿召开,会议邀请了Facebook人工智能实验室主任.NYU数据科学中心创始人.深度学习界的泰斗Yann LeCun做了题为&What's Wrong with Deep Learning?&的主题报告.早在20世纪80年代末,Yann LeCun就作为贝尔实验室的研究员开发出了 ...
深度学习 vs. 概率图模型 vs. 逻辑学摘要:本文回顾过去50年人工智能(AI)领域形成的三大范式:逻辑学.概率方法和深度学习.文章按时间顺序展开,先回顾逻辑学和概率图方法,然后就人工智能和机器学习的未来走向做些预测. [编者按]在上个月发表博客文章&深度学习 vs. 机器学习 vs. 模式识别&之后,CMU博士.MIT博士后及vision ...
原文链接(国内) CVPR是著名的计算机视觉会议,被认为是计算机视觉研究的奥林匹克盛会.今年,它在我家的后花园举办---马萨诸塞州的剑桥,离我家不到一英里.我许多MIT的同事都参加了,如果Google在今年的CVPR上有很炫的表现,我一点都不惊讶.我从2004年开始参加CVPR至今,所有,我们来看看这个计算机视觉的国际盛会上,发生了什么有趣的事情. Down ...
本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisiewicz的个人博客文章,阅读本文,你可以更好的理解计算机视觉是怎么一回事,同时对机器学习是如何随着时间缓慢发展的也有个直观的认识. 以下为正文: 本文我们来关注下三个非常相关的概念(深度学习.机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工 ...CVPR 2015 有什么值得关注的亮点_百度知道
CVPR 2015 有什么值得关注的亮点
我有更好的答案
人家小明虽然是SVM，还探讨了人脑over fitting的问题，测试了一些Train 人脑的方法，想必对于骂人又有了新的方法，但好歹有Kernel啊，比如你脑子就是一个线性分类器，对于人类教育会不会有贡献，把一些研究ML中黑箱model的思路放到研究人类的归类学习行为上。
而且照这个趋势。不知道ML专家们积累很久的tuning model的黑科技是否能应用到tuning人脑上大体的思路就是把人脑当做Black Box Classifier 来研究图片归类问题
为您推荐：
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁2015智能家居大阅兵：SSHT2015有哪些亮点值得期待--百度百家
2015智能家居大阅兵：SSHT2015有哪些亮点值得期待
分享到微信朋友圈
2015上海国际智能家居展开幕在即，这将是衡量中国智能家居产业热度，以及智能家居产品和方案成熟度的重要阅兵场。
在9月10日凌晨举行的苹果发布会上，苹果终于在Apple TV上引入了siri进行节目搜索和控制，但其实在之前乐视等中国厂家，已经在智能电视或者OTT上进行了语音操控的尝试。而在更宏大的智能家居市场，尽管苹果在推进Homekit上并不太热心和给力，但中国厂商亦开始逐步摆脱向国外巨头模仿致敬的方式，逐渐展现了独当一面的趋势。
从家电企业到互联网企业，再到电商最后连地产商都在积极的进入其中，让中国的智能家居产业既火爆又繁杂。即将召开的上海国际智能家居展（SSHT2015），是智能家居产业大阅兵的一块重要阵地，在经过了一轮又一轮的升温后，今年的展会将会让我们看到更多亮点与产业趋势之变。
中国智能家居从概念走向实用
不得不说，智能家居概念从诞生之初确实吸引了全球的目光，但几十年来却并没有什么让人惊喜的实际突破。不成熟、不实用、价格昂贵等等问题使智能家居越来越像一个空壳概念，而无实质内容。然而，任何产业都需要一个从无到有、从青涩到成熟的过程，如今的智能家居产业就像一锅沸水，就等适宜的主料下锅就可以烹制出一道产业大餐了。
特别是在产品层面，在经历了一次又一次的用户离去之后，也有很多企业开始认清了实用和概念的区别，从而在相关领域做出了不错的产品。比如在过去很偏门的智能空气净化器，在PM2.5时常爆表的今天，出于对家人健康重视程度的提升，在近几年内开始迅速爆火，尤其是小米、豹米等互联网品牌的进入，使得智能空气净化器的价格快速下降，这也为智能空气净化器普及扫清了障碍。
过去一些不起眼的传统产品，在寻找到应用痛点之后也重新焕发出新的魅力。例如在前不久“光亚展”上人气颇高的RICI防水智能插座也将在SSHT2015上展出，这款智能插座的独特之处在于淋水之后还能够正常使用。很显然，如果没有对用户的需求和痛点做详尽的分析和研究，就不会研发出这种看似不起眼、但却是能够打动用户的产品。RICI防水智能插座这样简洁易用风格的展品，在今年SSHT2015展上还会有很多，这让我们看到了智能家居从概念走向实用、走向普及的希望。
不仅如此，我们还可以看到，从京东的JD+计划，到百度的Baidu Inside，再到腾讯的QQ物联平台，以至更多公司的更多平台，都在极力打造智能硬件平台，中国智能家居企业也开始全面搭建自己的生态圈，像PC、智能手机等产品线受国外上游巨头压制了这么多年之后，中国智能家居企业开始意识到产业链和生态系统的价值，并且开始真正去布局。逐渐走向成熟和实用的中国智能家居不再需要概念性产品和理念去撑门面了。
爆款、生态，一个都不能少
其实现在的用户，对智能家居的抱怨主要体现在具体的产品不尽如人意，不同的智能家居产品之间存在无缝连接的屏障，这其中就包含了诸如不实用、不好用、不智能等等方面。这里既有设计原因，也有技术原因。
我很认同RICI（睿祺）总经理童辉对于参与智能家居心态的判断，童辉指出：“当前一些企业在互联网大潮下只是借助于互联网思维，拉起一杆从事智能家居的大旗，空喊着口号，生怕智能家居少了他，事实上根本就没有落地。更有甚者，刚踏入智能家居的大门，就是一个山寨到底的破坏性角色，以成本为第一要素，忽略产品的体验和品质。”
但随着技术的进步，现在市面上已经有越来越多的产品接近了我们对智能家居的想像，特别是从标准和生态的角度来看，这些产品不再孤立与碎片化，而逐渐连成了一体。之前陈旭东在执掌神奇工场时，也曾经表示现在智能家居涉及Zigbee、红外、蓝牙、Wi-Fi等众多的标准和接口，所以当务之急是让智能家居控制中心具有更强的兼容性。
标准之争在过去是建立技术和专利护城河的关键，但在如今，要想让智能家居真正发展壮大，就是要尽可能减少人为造成的标准障碍，尽量多使用国际通用接口和国际通用标准，在我看来现在再搞所谓的一套特立独行的智能家居”中国标准“已经是不合时宜的了。
之前智能家居建设上以往还存在重硬件、轻软件和配套服务的误区。有产业研究报告显示，在10年前看，很多小区在安装智能安防系统后，在试用几年之后，故障率和废置率都相对偏高很多房地产开发商仅仅是把智能安防当做售房的一个卖点，而缺少长期维护、保养的动力和兴趣，这说明智能家居要普及一定是一个系统性工程。
在京东、百度、腾讯们在着力打造各自的智能家居生态之时，其实市场上已经有较为成熟的整体解决方案，未来的看点是这些成熟的解决方案如何通过互联网去匹配上适合的内容和服务。
图注：以整体解决方案参展的方式，将会是SSHT2015的一大亮点和趋势。
所以在SSHT2015上，展示的重点有可能从过去的重点产品向整体解决方案过渡。诸如前文提到的睿褀智尚科技有限公司，将带着六十多款智能家居产品和全套解决方案来参展，在诠释为何突出整体解决方案的原因时，童辉表示：智能家居产品作为家居用品，首先在外观风格上要统一，这样整套部署起来，也会比较的美观；其次，统一的技术和接口标准，会使得整套产品在互联互通以及协同上变得更为简单，也更具稳定性；第三，所有的硬件在设计之初都对应接入的是统一的软件平台，所以在操控体验上也会更加出色。
但在现在社会分工越来越精细的今天，目前任何一家企业也无法包揽智能家居的所有软硬件和服务的供给，所以产业结盟将是必然之选，因此今年SSHT2015另外值得期盼的，就是不同厂商结盟或者深度合作消息的确认。
要想真正爆发，引爆点何在？
中国智能家居产业最大的靠山，就是全中国4.2亿的家庭。而要想让更多的家庭过上智能家居生活，目前来看，最大的引爆点就在于价格的平易近人，只有当产业成熟、技术成熟之时，才是价格下降进而普及之时。
对现在的中国智能家居产业来说，产品与解决方案的高档甚至奢侈其实并不是错，这是新技术、新产品进入市场的必由之路，在很多人连房子这个刚需都无法解决的时候，远远不到考虑智能家居的时机。现在的智能家居方案，可以先让一部分人用起来、满意起来，然后在实现普及，指望智能家居一蹴而就是不太现实的。随着产业的成熟，智能灯泡不再100元一支，就会有越来越多的人用上价廉物美的智能家居产品，才会有越来越多的人去正视智能家居带给他的便利。
智能家居的天时是技术的进步，地利是适合中国国情的产品价格，人和就是国人对智能家居转变原先固有的看法，只有当天时地利与人和都站在了中国智能家居这一边时，就将是整个产业爆发之日。中国智能家居产业普及的天时地利人和，是否已经成熟到位？SSHT2015就是一个良好的阅兵台，我们不妨对SSHT 2015投入更多的关注，届时这些问题将有更清晰的答案。
阅读：1959
分享到微信朋友圈
在手机阅读、分享本文
还可以输入250个字
推荐文章RECOMMEND
阅读：6501
阅读：4974
热门文章HOT NEWS
对于手机厂商来说，每年的6.18都是年中大考。
娱乐资本论
车聚网 autoju
未来论坛 Future Forum
百度新闻客户端
百度新闻客户端
百度新闻客户端
扫描二维码下载
订阅 "百家" 频道
观看更多百家精彩新闻高票答案提供了丰富的deep learning的内容，补充一点不那么学术的内容：正会的第一天，两位program chair展示了这次NIPS所收录的论文按课题分类的组成比例，排在第一的是deep learning, 占到约总收录论文数（403篇）的11%，而在投稿论文（约1900篇）中deep learning占到9%。鉴于近几年来deep learning在图像识别、语音识别、自然语言处理领域的突出表现，这个比例虽然很高，但也并不出乎意料，另一方面，剩下的89%是其他不同类型的课题，说明NIPS也还是涵盖了很多不同的研究方向。以下补充一些非deep learning或者不完全是deep learning的点1. Probabilistic programming，Zoubin Ghahramani大神在这次公开讲座probabilistic machine learning里强推的一个点，其实是在鼓励把过去几十年机器学习研究中基于概率的这一范式的工具化，举例说，开源的就在试图构建一个通用的推理引擎（inference engine），用户只需要关注与模型结构的搭建，把推断概率的问题交给通用引擎来处理即可得到需要的结果。这个想法的完善，能让各种概率模型的使用、调试、分析更加容易。对于研究者而言，可以把精力放在算法本身（比如MCMC sampling本身就是很热门的研究领域），而对于更关心结果的业界用户，则可以把工具当成一个黑盒拿来用就可以了。2. 通过视觉图灵测试的机器，MIT的认知科学教授Joshua Tenenbaum在Brain, Mind and Machine Symposium中展示了他的课题组今年发表在science上的文章, 实验的大致过程是提供一组图形符号，然后让人和电脑分别绘制一些类似的符号，最后让另外一批实验人员分辨哪一组是由电脑产生的图片，结果是超过3/4的实验人员无法分辨，在某种程度上意味着电脑通过了图灵测试。3. Deep reinforcement learning，在 Brains, Minds and Machines ,Google deep mind联合创始人Demis Hassabis介绍了他们今年早些时候在Nature上发的一篇文章，关于如何训练AI玩Atari游戏（像你在红白机上玩过的那些游戏），仅提供游戏画面和得分作为输入，电脑需要‘自学’玩游戏，同一套基于deep learning的模型结构适用不同的2600款游戏，其中49款达到了专业人类选手水平。这里牵涉很多有趣的问题包括计算机视觉、机器学习、人工智能、优化控制等等，今年NIPS至少有三个不同环节的reinforcement learning，都非常的火，从Richard Sutton大神的公开讲座，到Symposium，再到workshop，每个环节都爆棚。4. 参加NIPS这样的会议的另一个感受就是在Euclidean space和大神无限接近，虽然在feature space可能还相距十万八千里。比如大会最后一天Yoshua Bengio穿着深红色的牛仔裤，站在我前面排队拿自助餐，以及看着David Blei玩demo玩得很high的样子
正好最近在公众号写 NIPS 2015 Deep Learning Symposium 的论文总结，直接搬运到这里吧。&br&&br&先来说结论，我推荐的论文有：&br&&p&&strong&《Character-aware Neural Language Models》. &/strong&Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush.&/p&&p&&strong&《A Neural Algorithm Of Artistic Style》&/strong&. Leon A. Gatys, Alexander S. Ecker, Matthias Bethge.&/p&&p&&strong&《Skip-thought vectors》&/strong&. Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, et al.&/p&&p&&strong&《Teaching machines to read and comprehend》&/strong&. Karl Moritz Hermann, Tomá? Ko?isk?, Edward Grefenstette, et al.&/p&&p&《&strong&Visualizing and understanding recurrent networks&/strong&》. Andrej Karpathy, Justin Johnson, Li Fei-Fei.&/p&&p&《&strong&Spatial Transformer Networks&/strong&》. Max Jaderberg, Karen Simonyan, Andrew Zisserman, and Koray Kavukcuoglu.&/p&&p&《&strong&Deep Generative Image Models Using A Laplacian Pyramid Of Adversarial Networks&/strong&》. Emily Denton, Soumith Chintala, Arthur Szlam, Rob Fergus.&/p&&p&《&strong&Early stopping is nonparametric variational inference&/strong&》. Dougal Maclaurin, David Duvenaud, Ryan P. Adams.&/p&&p&《&strong&Dropout as a Bayesian approximation: Representing model uncertainty in deep learning&/strong&》. Yarin Gal, Zoubin Ghahramani.&/p&&br&&p&以下复制全部笔记（不仅包括推荐的，还包括别的）。为了更好的排版，可以直接移步公众号原文章查看：&a href=&///?target=http%3A//mp./s%3F__biz%3DMzAwMjM3MTc5OA%3D%3D%26mid%3Didx%3D1%26sn%3Da39b7d1aa90422bab9d46bbscene%3D20%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&干货 | NIPS 2015 Deep Learning Symposium（一）&i class=&icon-external&&&/i&&/a&&/p&&p&&a href=&///?target=http%3A//mp./s%3F__biz%3DMzAwMjM3MTc5OA%3D%3D%26mid%3Didx%3D1%26sn%3Dfd4e984cd5ec6e38d47697%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&干货 | NIPS 2015 Deep Learning Symposium（二）&i class=&icon-external&&&/i&&/a&&br&&/p&&img src=&/15eac2df5a7451abfe28bae_b.png& data-rawwidth=&773& data-rawheight=&349& class=&origin_image zh-lightbox-thumb& width=&773& data-original=&/15eac2df5a7451abfe28bae_r.png&&&br&&br&&p&&strong&Character-aware Neural Language Models&/strong&&/p&&br&&p&这篇文章之前挂在 arXiv 上，现在已经被 AAAI 2016 正式接收。&strong&推荐系数5星。是一篇 NLP 和 DL 结合的非常好的论文，而且信息量非常大&/strong&。他们的 model 由两个部分组成，character-level 的输入，输入给 CNN，CNN 的输出，输入给 RNNLM，但最终预测仍然是 word-level。&/p&&blockquote&&p&&em&In this work, we propose a language model that leverages subword information through a character-level convolutional neural network (CNN), whose output is used as an input to a recurrent neural network language model (RNNLM).&/em&&/p&&/blockquote&&p&只用了一次 convolutional + pooling (max-over-time)，并且作者表示用多次 conv+pooling 的组合（stacked，就像 CNN for Sentence Modeling 那里一样，并没有提升效果）。&em&Whereas a conventional NLM takes word embeddings as inputs, our model instead takes the output from a single-layer character-level CNN with max-over-time pooling. &/em&除了在 stacked 与否的问题上，和 Sentence Modeling 的 CNN 不同的第二个地方在于，这里不再是 wide convolutional，而是 narrow convolutional。&/p&&p&特殊的地方在于 pooling 的 output 不是直接输入给 LSTM，而是先经过一个基于 &strong&Highway Network （HW-Net）&/strong&改造的 module。而且在实验中，作者验证了，如果没有这个 module，效果会差。这个 HW-Net Module 只对 character-level 的模型有效，对于 word-level input，则无提升。HW-Net 相当于另一个 nonlinear 隐层，作用类似于别的模型中的 MLP（multilayer perceptron），增强 feature 之间的 interaction 的。在这篇论文中的这个模型里，因为 conv+pooling 只是单层，没有那么多 interaction 被 model 进去，所以考虑了这层 interaction。&strong&但是作者声称尝试了 stacked CNN，没有提升，所以是否可以推论 highway networks 的 interaction 和 stacked CNN 是不同的？&/strong&&br&&/p&&blockquote&&ul&&li&&p&&em&Similar to the adaptive memory cells in LSTM networks, HW-Net allows for training of deep networks by adaptively carrying some dimensions of the input directly to the output.&/em&&/p&&/li&&li&&p&&em&Applying HW-Net to the CharCNN has the following interpretation: since each output is essentially detecting a character n-gram (where n equals the width of the filter), HW-Net allows some character n-grams to be combined to build new features (dimensions where transform ≈ 1), while allowing other character n-grams to remain ‘as-is’ (dimensions where carry ≈ 1).&/em&&/p&&/li&&/ul&&/blockquote&&p&最后作者在实验结论部分表示这个 highway 对于 character-aware compositonal 的 model 非常重要，对于 word-level 不重要。加不加这个东西，可以从学出来的 word representation 周围都是啥词看出效果（见 Table 5）. 这个结果还是不要太明显……震惊。&/p&&blockquote&&ul&&li&&p&&em&Before the highway layers the representations seem to solely rely on surface forms—for example the nearest neighbors of you are your, young, four, youth, which are close to you in terms of edit distance. The highway layers however, seem to enable encoding of semantic features that are not discernable from orthography alone. After highway layers the nearest neighbor of you is we, which is orthographically distinct from you. Another example is while and though— these words are far apart edit distance-wise yet the composition model is able to place them near each other.&/em&&/p&&/li&&/ul&&/blockquote&&p&HW Net 对于 word-level 没用的原因是：&em&dimensions of word embeddings do not (a priori) encode features that benefit from nonlinear, hierarchical composition availed by highway layers&/em&. 最后这篇的 Related Work 也很值得看。&/p&&br&&br&&p&&strong&Character-level Convolutional Networks for Text Classification&/strong&&/p&&br&&p&这篇论文前身是《Text Understanding from Scratch》，当时在微博上一时因为实验效果太过拔群，引起轰动和过分关注。最后被发现是实验数据测试集训练集有严重重叠，暂时撤稿。重新修改后被 NIPS’15 接收。这篇论文的风格给人感觉非常不 NLP，从术语到模型思路，到写作风格，都感觉是纯做 Deep Learning 的人，来做了 NLP 的任务而已。&/p&&p&文章中的模型是完全基于 ConvNet 改造。按照作者的原话是，&em&This article is the first to apply ConvNets only on characters。&/em&是很规矩的, temporal convolutional，temporal max-pooling (max-over-time)，然后有 dropout 在最后三个全连接层。值得注意的是他们用到的 nonlinear funtion 是 rectifier/thresholding：h(x) = max{0,x}，使得很像 ReLUs。&/p&&p&细节上，这个模型十分“简单”，并没有做变长的 convolutional 处理。也就是说，一旦一个输入的 text chunk，超过了他们预定的一个 length，那么后面的 character 就都不要了。输入的时候就是把一个定长的 character embedding &strong&sequence&/strong& input 进去。另外的细节是，尽管不是用 RNN 这样的 recurrent 模型 encoding decoding，但他们依然用 reverse 的 input，&em&The character quantization order is backward so that the latest reading on characters is always placed near the begin of the output, making it easy for fully connected layers to associate weights with the latest reading&/em&。&/p&&p&在实验设置上考虑了大小写区分开，然后发现很多时候区分反而不如不区分。&em&We report experiments on this choice and observed that it usually (but not always) gives worse results when such distinction is made. One possible explanation might be that semantics do not change with different letter cases, therefore there is a benefit of regularization. &/em&他们使用了 Data Augmentation，用同义词去制造更多的“正例”。这部分细节在 Section 2.4。&/p&&br&&br&&p&&strong&A Neural Algorithm Of Artistic Style&/strong&&/p&&img src=&/50298b3dbd3dbbbf9e8c34_b.png& data-rawwidth=&830& data-rawheight=&550& class=&origin_image zh-lightbox-thumb& width=&830& data-original=&/50298b3dbd3dbbbf9e8c34_r.png&&&p&这篇文章应该是这次 Symposium 中最著名的了。这个工作被叫做 neural art，就是用 Deep Neural Networks 的方法，将一些作品，进行特定风格化（photorealistic rendering）。比如可以将梵高在《Starry Night》中的那种，高对比和清晰笔触的风格，渲染在各种风景摄影作品上。&/p&&p&这个工作主要基于 CNN，其核心是对一张图片中的 content 和 style 分别建模 representation，而&strong&核心的核心就是 style 的建模&/strong&。由于 CNN 的 hierarchy，content 建模中，越是 high-level 的 content representation 可能越 general，越难 reconstruct；但另一方面，style representation，则是在 high-level 的地方更不容易被“image content”的局部信息所“迷惑”。&br&&/p&&img src=&/b14e17a78f07c64a9a06e0a125c01b93_b.png& data-rawwidth=&901& data-rawheight=&577& class=&origin_image zh-lightbox-thumb& width=&901& data-original=&/b14e17a78f07c64a9a06e0a125c01b93_r.png&&&p&因为 content 和 style 是很难完全独立开的，在网络设计上，作者也考虑了这点。所以 style representation 并不是基于某一层的 content representation，而是在 CNN 中的每一层都有一个 style representation。style representation 的建模就是利用“不变性”——这背后的假设其实是，不管你在画什么东西，画哪个局部，你的 style 应该保证了一种局部性；不变的 feature，才是 style。所以它采用的是对比每一个层 filter 之间的 correlation，进行 style representation。&/p&&p&这个工作已经有相当多开源代码，在线应用，也被集成在各种 NN 框架中。大家有兴趣可以找来玩玩。&br&&/p&&br&&br&&p&&strong&Listen, attend and spell&/strong&&/p&&br&&p&这篇文章其实挺简单的。核心思想就是用一个 listener-speller encoder-decoder 的结果做 speech recognition（speeach utterances -& characters)。listener（encoder）部分用的是 pyramidal RNN，这个比较特别，作者 argue 说 pyramidal RNN 对于这个任务提速显著。&/p&&p&&img src=&/b4e7c55ea3dfb10c2142a_b.png& data-rawwidth=&570& data-rawheight=&541& class=&origin_image zh-lightbox-thumb& width=&570& data-original=&/b4e7c55ea3dfb10c2142a_r.png&&pyramidal RNN 的部分，实质是一个 hierarchical 的 Bi-LSTM （pBLSTM）。而这个架构，就像 CNN 一样，high-level（在“金字塔”顶端）的 features 会比较少，比较“浓缩”，用这样少一些的 features 传给 decoders，会减少 decoder 解析的耗时，提高解析的能力，并且整体上提高 encoder-decoder 的 inference 速度。&/p&&p&另一方面，speller 端用的 attention-mechansim，好处很显然，防止 overfitting。&br&&/p&&blockquote&&p&Without the attention mechanism, the model overfits the training data significantly, in spite of our large training set of three million utterances - it memorizes the training transcripts without paying attention to the acoustics. Without the pyramid structure in the encoder side, our model converges too slowly - even after a month of training, the error rates were significantly higher than the errors we report here.&/p&&/blockquote&&br&&p&&strong&Skip-Thought Vectors&/strong&&/p&&br&&p&已经是相当有名的工作。模型上，具体使用是 RNN-RNN 的 encoder-decoder 模型；&strong&其中两个 RNN 都用了 GRU 去“模拟” LSTM 的更优表现&/strong&。在 encoder 阶段，只是一个 RNN；在 decoder 阶段，则是两个（分别对应前一个句子和后一个句子——也就是说不能预测多个前面的句子和后面的句子）。&/p&&p&这样的模型可以保留一个 encoding for each sentence，这个 encoding 会很有用，就被称为 skip-thoughts vector，用来作为特征提取器，进行后续 task。注意是 Figure 1 中所谓的 unattached arrows，对应在 decoder 阶段，是有一个 words conditioned on previous word + previous hidden state 的 probability 束缚。同时，因为 decoder 也是 RNN，所以可用于 generation（在论文结尾处也给出了一些例子）。&/p&&p&本文的另一个贡献是 &strong&vocabulary mapping&/strong&。因为 RNN 的复杂性，但作者又不希望不能同时 learn word embedding，所以只好取舍一下——我们 learn 一部分 word embedding（words in training vocabulary）；对于没出现的部分，我们做一个 mapping from word embedding pre-trained from word2vec。这里的思想就是 Mikolov'13 年那篇 word similarity for MT 的，用一个没有正则的 L2 学好 mapping。&/p&&p&在实验中，他们用此方法将 20K 的 vocabulary 扩充到了 930K。&/p&&blockquote&&p&&em&In our experiments we consider 8 tasks: semantic-relatedness, paraphrase detection, image-sentence ranking and 5 standard classification benchmarks. In these experiments, we extract skip-thought vectors and train linear models to evaluate the representations directly, without any additional fine-tuning. As it turns out, skip-thoughts yield generic representations that perform robustly across all tasks considered.&/em&&/p&&/blockquote&&p&首先是他们有三种 feature vectors，uni-skip/bi-skip/combine-skip。分别对应 encoder 是 unbidirectional，bidirectional，和 combine 的。分别都是 4800 dimensions。对于不同的 task，可能用不同的 feature indicator，比如把两个 skip-thoughts-vectors u 和 v，点乘或者相减，作为两个 feature，再用 linear classifier(logistic)。&/p&&br&&br&&p&&strong&Ask me anything: Dynamic memory networks for natural language processing&/strong&&/p&&p&这篇文章也是相当早就放在 arXiv 上了，ACL 2015 的论文中就已经有人引用。文章来自 Richard Socher 的 MetaMind 团队。主要就是利用一个 dynamic memory network（DMN）框架去进行 QA（甚至是 Understanding Natural Language）。&/p&&p&&br&这个框架是由几个模块组成，可以进行 end-to-end 的 training。其中核心的 module 就是Episodic Memory module，可以进行 iterative 的 semantic + reasoning processing。DMN 先从 input 接受 raw input（question），然后生成 question representation，送给 semantic memory module，semantic module 再将 question representation + explicit knowledge basis（只是设想）一起传给核心的 Episodic Memory module。这个 Episodic Memory module 会首先 retrieve question 中涉及到的 facts 和 concepts，再逐步推理得到一个 answer representation。由于可能有多个涉及到的 facts 和 questions，所以这里还用到了 attention mechanism。最后，Answer Module 就可以用接收到的 answer representation 去 generate 一个真正的 answer。&/p&&br&&p&&strong&Teaching machines to read and comprehend&/strong&&br&&/p&&br&&p&这篇论文有两个主要贡献，一个在于 &strong&attention-based model&/strong& 的运用和改进，一个在于构造了一个 supervised document-query based 的数据集，虽然说是供 machine comprehend 使用，其实依然没有超过 QA 范畴，就是基于一篇 document，一个 query（document-query pair）回答一个 entity form 的 answer。数据集在此不表。来看他们 attention-based 的相关 model。&/p&&p&&br&论文一共提出&strong&三个新 model&/strong&，其中只有后两个（图中 (a)(b)）是 attention-based 的。input 都是一个 document query pair。作者尝试了两种机制，一种是 document 按一小段句子（以标点分割）输入，一小段句子+一个query，这样算一次输入；另一种是一篇 document 全部输入完毕再输入 query，这种方法被认为失去了 query 的 mention 作用。&/p&&p&两个 attention-based model，(a) Attentive Reader 和 (b) Impatient Reader。(a) 非常好理解，看 (a) 左边就是标准的 attention mechanism 的结构啊，对比一下：&/p&&br&&p&再看 (b) Impatient Reader，这个 model 很有趣，尤其和我下面想说的非 NLP 那篇有点像。我按我的理解来解读，这个 model 强调&strong&“reread”&/strong&，就是说，对于每一个 query，有许多个 token，按照 query token 一个个输入，每一个 query token（不再是每一个 query），就都读一遍 document，然后下一个 token，再来一遍——reread。&/p&&p&我会把这种 reread 机制，理解为一种“逐渐”获取（理解）文章的过程，就像我们读一篇艰深的文章，读一遍不成，读两遍，读三遍。这个机制的 motivation 很好，但是如果只用来预测一个 token（the answer），我会认为起不到 motivation 的作用。个人理解。&/p&&br&&br&&p&&strong&Towards AI-complete question answering: A set of prerequisite toy tasks&/strong&&/p&&br&&p&和《Ask Me Anything》那篇一样，也是很早就放在 arXiv 上的工作。这个数据集不仅被《Ask Me Anything》引用，也被很多 ACL 2015 和后续的 QA 工作引用。文章主要就是介绍他们的 AI-related
QA 数据集，因为是 Facebook 团队制作且有 20类问题，所以这个数据集后来被缩写为 FB20。&/p&&p&按照上次介绍的 ICLR2016 中 Jianfeng Gao 团队的工作，在这 20类问题中，最难做的是 position reasoning 和 path finding 两类任务。&/p&&blockquote&&p&We achieve near-perfect accuracy on all categories, including positional reasoning and pathfinding that have proved difficult for all previous approaches due to the special two-dimensional relationships identified from this study.&/p&&/blockquote&&br&&p&如果想了解在这个数据集上的一些工作，可以看下面几篇论文：&br&&/p&&p&1.《Learning Answer-Entailing Structures for Machine Comprehension》Mrinmaya Sachan, Kumar Dubey, Eric Xing, Matthew Richardson. ACL 2015. CMU 出品，Eric Xing 老师的组。本文不是 NN，数学上还算简单。个人觉得有两个亮点，一个就是假设了一个中间的 hypothesis，一个是在数学的地方结合了 multi-task，并使用了 feature map 的 technique 把 multi-task 给“退化”成了原始问题。他们先用 Question 和 Answer，学出一个 hypothesis，这个 hypothesis 就是一种 latent variable，也可以认为是一种 embedding 后的 fact。如果我们认为 question + answer 共同描述了一个 fact/truth/event 的话。基于这个 hypothesis，再去 match 原始 paragraph/text 里的 relevant words。具体可以看看 Figure 1.我觉得这个蛮有趣的。因为让我想起编码解码。Question + Answer 的组合就是一种对于这篇 doc 的一种表达；而这篇 doc 本身是另一种表达。这两种表达就是两种 representation 的结果，那么中间真实的事情是什么？所谓的完整的 information 是什么？他这样直接结合的 hypothesis 肯定也是 reduce 了信息的。实际我觉得现在 Machine Translation/Conversation 那边也在做类似的事情。我们不要直接一对一，要有中间一个看不见的“hypothesis”。第二个 multi-task，他们用了FB20这20类，把任务细分，细分成 20个 subtask。这样就变成了 multi-task 的问题。然后使用了 feature map（Evgeniou 2004）的技术，把 multi-task 又给转化成了原始问题。我觉得还蛮有趣的。当然 multi-task 已经有非常多的解决办法了，这个只是一种适用于他的模型的有效简单的办法。&/p&&p&2.《Machine Comprehension with Discourse Relations》. Karthik Narasimhan and Regina Barzilay. ACL 2015.
MIT CSAIL 出品。开源。是一篇很 neat 的论文，而且不是 NN。这篇文章的卖点是：discourse information + less human annotation所以他们的 model，可以使用 discourse relation（relations between sentences, learned, not annotated) 去增强 machine comprehension 的 performance。具体的，他们先使用 parsing 等方法，去选出和 question 最 relevant 的一个句子（Model 1）或者多个句子（Model 2 和 Model 3），并在这个过程中建立 relation，最后预测。思想都是 discriminative model 的最简单的思想，找 hidden variable，概率连乘。如果对本文有兴趣，推荐看 Section 3.1，讨论了一下他们认为这个 task 上可能相关的四【类】feature。&/p&&p&3.《Reasoning in Vector Space: An Exploratory Study of Question Answering》. In submission to ICLR 2016. 文章来自 Microsoft Jianfeng Gao, Xiaodong He 团队。是一份比较详细的针对 Facebook 20 tasks（FB20）的分析和工作。所谓分析是指，过去针对 FB20 的 Reasoning Work 基本都是 end-to-end 的，所以对于 error case 的分析不够明确，不知道到底是作为 basis 的 semantics 就没建模好；还是 reasoning 的过程出了问题。为了进一步提高在这个 tasks 上的 performances，作者就将 end-to-end 拆分开来，利用 tensor product representation（TPR）的方法，融合一些 common-sense inference（比如东和西是 opposite 的两个方向），将 FB20 的正确率提高到了几乎完美的程度。&/p&&br&&br&&p&&strong&Visualizing and understanding recurrent networks&/strong&&/p&&br&&p&作者是写出《The Unreasonable Effectiveness Of RNN》博文的 Stanford 学生，Andrej Karpathy。同时 Andrej Karpathy 也是 Fei-Fei Li 教授的高徒。&br&&/p&&br&&p&这篇工作从几个月前递交到 arXiv，前几日又更新了一版，投到了 ICLR 2016，内容上是博文的扩展。主要是通过 controlled experiment 的实验方式，结合可视化的方法，去“量化”展示 char-LSTM 到底为什么 powerful，是否真的如 often cited/claimed 的那样，可以 model long term dependency。这篇工作最后的结论也和之前 Yoav Goldberg 澄清 char-LSTM 令人惊奇之处的文章一致——指出 char-LSTM 厉害之处，&strong&不在于它能 generate 出看起来还不错的 char sequence，而是在于其对于 bracket, quote 等显著 long distance information 的 retrieval 能力。&/strong&&/p&&br&&p&它们通过 visulization cell 的激活，gate activation statistics, error type/case analysis 的方式，展现了许多 LSTM 确实是“对应”和“负责”某些 character position 的，同时 LSTM 确实比 n-gram character language model 大幅降低了 bracket, quote 等 long distance information 的 error case。&/p&&br&&br&&p&&strong&End-to-end memory networks&/strong&&/p&&br&&p&这篇文章，及 Neural Turing Machine，其实是很多类似思想的前身工作，下次会把相关一起对比一下。这类工作的 motivation 是，如何把 large body 的 external memory 用在 Neural Networks 里。&/p&&p&&br&在这篇工作中，他们就是尝试性地探究了几种方式。首先，是 single-layer or multi-layer，其次是 feature 空间如何转换。如果将这样的 end-to-end memory networks 的输出拆分成两种，就可以和 typical RNN 的工作映射起来。将 output 分为 internal output 和 external output，那么分别就可以对应到 RNN 中的 memory 和 predicted label。&/p&&br&&br&&p&&strong&Grid Long-Short Term Memory&/strong&&/p&&p&总的来说，这篇的贡献应该是给出了一个更 flexible 还 computation capability 更高的框架。要理解这个论文，可能首先要理解三个概念：&strong&grid/block, stacked, depth。&/strong&（1）Grid/Block 是把一个 LSTM 机制改造后的一个 component，这个 component 可以是 multi-dimensional 的，决定了几个方向进行 propagate。每一个 dimension 都有 memory 和 hidden cell。1-dimensional 的 Grid LSTM 就很像上面所说的 Highway Networks。（2）Stacked 和 LSTM stacked 一样，是指把 output 和 input 连在一起。但是 stacked 并不会改变 Grid LSTM 的dimension。stacked 2D Grid LSTM 依然是 2D 的，而不是 3D 的。从 visualize 来看，无非就是把一个个方块/方形，平铺在空间里（每个 dimension 都要延展）。（3）Depth 则是会增加dimension。在一个 block 内部，变 deep，就是增加 layers。一个 block 由几个 layer 组成，就是几层 deep 的 Grid LSTM。&/p&&p&只是 1D/2D 的时候，Grid LSTM 看不出特别大的优点。但是当变成 multidimensional 的时候，就会比传统的 multidimensional LSTM 更好的解决 gradient vanishing 的问题。原因是，传统multidimensional LSTM 在计算每层的 memory cell 的时候，是把每个 dimensional 的 gate 信息集合起来的。显然这样有问题。Grid LSTM 就不是这样。它是每个 dimensional 分开计算memory cell。对于每一个 grid，有 N 个 incoming memory cells 和 hidden cells，同时还有 N个 outgoing memory cells 和 hidden cells。N 是 dimension 的个数。而 Grid LSTM share 的其实大的隐层 H。这样既保证了 interaction 又保证了 information flow。&br&&/p&&br&&p&这篇论文后面还有挺有趣的应用，把 MT 的任务转换成一个 3D Grid LSTM 的问题，其中两个dimensions 分别是 bi-LSTM 正向逆向读写，第三个 dimension 是 depth。效果不俗。&/p&&p&可能这篇论文的这个框架的提出，在于让 LSTM 的变种稍微有迹可循了一点，到底有多大performance 的提高，我还是比较怀疑的。&/p&&br&&br&&br&&b&Spatial Transformer Networks&/b&&br&&p&来自 Google DeepMind 的工作。主要是说，尽管 CNN 一直号称可以做 spatial invariant feature extraction，但是这种 invariant 是很有局限性的。因为 CNN 的 max-pooling 首先只是在一个非常小的、rigid 的范围内（2×2 pixels）进行，其次即使是 stacked 以后，也需要非常 deep 才可以得到大一点范围的 invariant feature，三者来说，相比 attention 那种只能抽取 relevant 的 feature，我们需要的是更广范围的、更 canonical 的 features。为此它们提出了一种新的完全 self-contained transformation module，可以加入在网络中的任何地方，灵活高效地提取 invariant image features.&/p&&p&&br&具体上，这个 module 就叫做 &strong&Spatial Transformers&/strong&，由三个部分组成： Localization Network, Grid generator 和 Sampler。Localization Network 非常灵活，可以认为是一个非常 general 的进一步生成 feature map 和 map 对应的 parameter 的网络。因此，它不局限于用某一种特定的 network，但是它要求在 network 最后有一层 regression，因为需要将 feature map 的 parameter 输出到下一个部分：Grid generator。Grid generator 可以说是 Spatial Transformers 的核心，它主要就是生成一种“蒙版”，用于“抠图”（Photoshop 附体……）。Grid generator 定义了 Transformer function，这个 function 的决定了能不能提取好 invariant features。如果是 regular grid，就好像一张四四方方没有倾斜的蒙版，是 affined grid，就可以把蒙版“扭曲”变换，从而提取出和这个蒙版“变换”一致的特征。在这个工作中，只需要六个参数就可以把 cropping, translation, rotation, scale and skew 这几种 transformation 都涵盖进去，还是很强大的；而最后的 Sampler 就很好理解了，就是用于把“图”抠出来。&/p&&p&&img src=&/eafbb4ffdea98ff5bd46a81e_b.png& data-rawwidth=&750& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&750& data-original=&/eafbb4ffdea98ff5bd46a81e_r.png&&这个工作有非常多的优点：（1）它是 self-contained module，可以加在网络中的任何地方，加任何数量，不需要改变原网络；（2）它是 differentiable 的，所以可以直接进行各种 end-to-end 的训练；（3）它这个 differentiable simple and fast，所以不会使得原有网络变慢；（4）相比于 pooling 和 attention 机制，它抽取出的 invariant features 更 general。&/p&&br&&br&&b&Semi-Supervised Learning with Ladder Networks&/b&&p&&img src=&/fb3ba36cbd8_b.png& data-rawwidth=&653& data-rawheight=&437& class=&origin_image zh-lightbox-thumb& width=&653& data-original=&/fb3ba36cbd8_r.png&&这篇论文并没有特别多的创新点，主要是将 Ladder Networks 从纯 unsupervised fashion 改成了 semi-supervised fashion。&strong&Ladder Networks&/strong& 其实就是把 stacked autoencoder 中 layer 和 decoded reconstruction 之间加上了 skip-connection，所以就像在 encoder 和 decoder 之间有了 ladder，因此命名。那么这篇论文的改进就是在 Ladder Networks 上，encoder 部分的每一层 layer 都加入了 Gaussian noise，并保持 decoder 部分是 noise-free 的。加了 noise 的部分用于 unsupervised autoencoder loss，noise-free 的就是用来提供 supervised loss。&/p&&p&但是这篇论文的实验结果实在是太 outstanding。在 MNIST 数据集上，达到了 1.13% 的超低错误率。这也可以一定程度上证明 semi-supervised 的 improvements。不过，这种 semi-supervised 暂时来看还没被运用得很好，因为这篇工作中，在 validation set 上用的依然是全部的 10K label，而不是小范围的 label。这点上，个人认为是有点 cheating 的。&/p&&br&&br&&b&Neural Turing Machines&/b&&p&&strong&Neural Turing Machines（NTM）&/strong& 这个工作应该是整个 DL Symposium 中最出名的了。跟这篇工作相关的工作有个五六篇（比如同是这个 Symposium 中的另外两篇《Large-scale simple question answering with memory networks》和《End-to-end memory networks》），下次有机会专门写一下。这次只讲这篇原始的 NTM。NTM 的 motivation 我个人理解，主要有两点：（1）neural networks 虽然可以提供很好的 hidden units 计算，去 model internal memory，但是我们在真实生活中有时候更需要 external memory 的辅助和交互（这是两件事，比如和 NTM 很像的 memory networks 其实就只有辅助，没有交互，而 NTM 是有交互的）；（2）RNN 作为一种出色的 neural networks，其实是图灵完备的（已被证明）。既然如此，是否可以去把它设计成图灵机？出于这两个目的，就有了 NTM 这个工作。&/p&&img src=&/44ec32acee2bd_b.png& data-rawwidth=&563& data-rawheight=&310& class=&origin_image zh-lightbox-thumb& width=&563& data-original=&/44ec32acee2bd_r.png&&&p&一个 NTM 包括 Controller，Read+Write Heads 和 External Memory；Controller 就是 NN。换言之，NTM 比一般的 NN 多在了读写头和外部存储交互（memory networks 就没有读写头）。个人理解，如果把 NTM 中的 Controller 比作计算机的 CPU，那么其中的 memory 就是计算机的 RAM，而 hidden states 就是 CPU 中的 registers。NTM 中的 Read+Write Heads 非常重要，首先它们可以实现 content-based/location-based 的相关操作，也因此就可以模拟 Focus/Attention 的效果——于是就可以用 content addressing 实现查找 similar data（content-based）。Content addressing 之后，interpolation，提供的是 gate 机制；convolutional shift 提供的是 location-based addressing。有了上面这些模块，NTM 就可以模拟图灵机，实现一些算法。不仅如此，NTM 是 end-to-end differentiable 的。&/p&&p&&img src=&/cbcb4c191ae5bfd7d8c8151_b.png& data-rawwidth=&681& data-rawheight=&252& class=&origin_image zh-lightbox-thumb& width=&681& data-original=&/cbcb4c191ae5bfd7d8c8151_r.png&&从 NTM 的两个 motivation 出发，就可以看出NTM 的两个 goal：（1）NTM 是为了增强 RNN 的学习能力，那么它也应该像 RNN 一样能 solve problems；（2）NTM 是模拟图灵机，是否有可能学习出内部算法？基于这两个 goal，这篇工作中设计了很多种 tasks，比如 copy，比如 priority sort，同时横向对比了三种架构，NTM with LSTM, NTM with feedforward, standard LSTM。&/p&&br&&br&&b&Deep Generative Image Models Using A Laplacian Pyramid Of Adversarial Networks&/b&&p&这个工作虽然知名度不那么大，但是也已经被广泛引用和改进。同样是来自 NYU 和 Facebook AI team 的合作（这次 DL Symposium 中入选的很多篇都出自他们）。工作的思想上很像之前推荐过很多次的 Google DeepMind 的DRAW，就是说，我们在 generate 图片时，不要强迫 model 一步到位，而是让它一步步来。&br&&/p&&p&这篇工作中的 model 叫做&strong& Laplacian Generative Adversarial Networks（LAPGAN）&/strong&，由 conditional GAN 和 Laplacian pyramid 结构组成。前者，conditional GAN 是 GAN 的一种改造，而 GAN 是由一个用于生成 sample 的 generative model（G）和一个用于比较 G 生成的 sample 和真实 training data 的 discriminative model（D）构成的框架。那么 conditional GAN 就是在此基础上，再增加上 additional information，比如 sample class/label。后者，Laplacian pyramid 则是一种层次化的图像特征表达，主要体现的图像不同 scale 之间的差异。具体公式可以见 Equation (3)-(4)。那么这篇工作就是将这两点结合起来，使得 GAN 也变成一种层次化的 framework，变成了 multi-scale 的。&br&&/p&&p&&img src=&/77a88fcc032c10eaf23f7_b.png& data-rawwidth=&923& data-rawheight=&382& class=&origin_image zh-lightbox-thumb& width=&923& data-original=&/77a88fcc032c10eaf23f7_r.png&&个人理解，这样的 LAPGAN 有两个好处：（1）是 unsupervised，这是 GAN 的优势。可以直接从 finest/highest-scale/level 的图像，一直利用 Adversial Network 逐步进行 training；（2）就像 DRAW 一样，LAPGAN 的核心思想就是把 generation 的过程给“分解”了，变成了一种逐步的“refinement”，所以降低了网络每次需要记忆的内容量，也同时就提高了网络的 capacity 和 scalability。反过来，这样的网络也有一个劣势，就是它抛弃了图像的 global feature 和 representation，缺少了对于一个 image 的 probability，所以也就在进行 evaluate 时，需要用一些特殊的技巧（比如这篇文章中采用的 Gaussian Parzen window）。&/p&&blockquote&&p&&em&Breaking the generation into successive refinements is the key idea in this work. Note that we give up any “global” we never make any attempt to train a network to discriminate &/em&&em&between the output of a cascade and a real image and instead focus on making each step plausible. Furthermore, the independent training of each pyramid level has the advantage that it is far more difficult for the model to memorize training examples – a hazard when high capacity deep networks &/em&&em&are used.&/em&&/p&&/blockquote&&br&&br&&b&Natural Neural Networks&/b&&p&这篇论文的 motivation 也很 fundamental，是说 SGD 这样基于 point gradient 的优化方法，在日趋复杂的 NN 架构上越来越无力。另一方面，distribution gradient 的方法则还有很多值得探索的空间。毕竟 distribution 在优化的过程中，是一直可被捕捉的（见今天的另一篇论文《Early stopping is nonparametric variational inference》）。Distribution gradient 的求解就需要 KL divergence measurement 和 Fisher matrix。然而，Fisher matrix 的求解计算量非常大（matrix size 大，且包括逆运算等等），使得过去想用 Fisher matrix 的工作都不太 scalable。&/p&&p&基于这个 distribution gradient （也许）可以帮助提高 convergence 效率的想法，这篇工作开始探究 Fisher matrix 的性质。最终通过假设和实验，设计出了一种基于特定 Fisher matrix
的 NN（给 Fisher matrix 加了一些限定条件，并忽略了一些 interaction）。在这种 NN 下，它们的优化算法与更有名的 Mirror Descent 很像。&br&&/p&&p&个人认为这篇工作很直观的贡献是，过去的一些 NN tricks，比如 batch normalization （before non-linearity），zero-mean activations 等等，在这个框架下，都可以有一些理论上的解释。也算是 theoretical Deep Learning的一种进展吧。&br&&/p&&br&&br&&b& Early stopping is nonparametric variational inference&/b&&p&&strong&这篇文章很推荐&/strong&，是一篇优化相关的工作。出发点是，我们除了去优化 training loss，我们也可以优化 marginal likelihood。这样有很多优势，首先，我们就不需要哪些基于 validation set 的 trick 了（比如 early stopping），我们可以直接用 marginal likelihood estimator 去 evaluate performance。&/p&&p&那么如何实现这件事呢，这篇工作给优化过程找了一些 Bayesian 的解释：优化过程中，每一步都会“生成”一个 distribution。这样，整个优化过程中，就会产生一个 distribution sequence。这个 sequence 从 Bayesian 的角度，可以看成是被某个 true posterior distribution 不断 sample 出来的，sample 的样本数 N，也就是优化的迭代次数，就可以被看成是 variational parameter。有了这样一个解释，作者进一步就把 early stopping 这个 trick 解释成了对 varitional lower bound 的优化；ensembling random initializations 就可以看成是 ensembling various independent variational samples.&br&&/p&&p&上面所说的，就是这篇论文的第一个贡献（也是论文的标题）。除此以外，本文利用这样的解释，进一步去构造了 marginal likelihood estimator，并用这个 estimator 去做了 training stop 选择，model selection capacity 选择和 model hypermeter 选择。&br&&/p&&br&&p&之所以推荐这篇文章，并不是说它给出的这种优化方法就比以前 SGD 等等优化 training loss 的好；而是基于两个原因：（1）首先，它里面提到了非常多对于优化的思考。比如 training loss 和 marginal likelihood 两个“指标”，到底应该更“相信”哪个？varational lower bound 这个东西越高，是否真的代表 model 的 accuracy
越准？它和 validation error/test error 指标相反的时候该怎么理解？这些是很有趣的。（2）对于优化过程中 distribution sequence 的解释我个人觉得很有用，现在 variational sequence learning 的工作也越来越多，但是被优化方法局限。这个工作也是一个启发。&/p&&br&&br&&b&Dropout as a Bayesian approximation: Representing model uncertainty in deep learning&/b&&p&这篇论文&strong&从 Bayesian 角度，解释了 why dropout works&/strong&。虽然在2013年，也有人试图解释过 dropout，但当时是从 sparse regularization 的角度解释的，有一定局限性。这篇工作更 general，更 provoking。&/p&&p&首先作者论证了 dropout 在理论上，是等价于一种 Gaussian Process 的 Bayesian approximation 的。这个证明过程很简单，大家可以去看一下。个人感觉，这个解释其实和dropout as noise regularization 很相似，毕竟 approximation 也在引入 noise。只不过它们这种解释更数学化。 &br&&/p&&p&随后，有了这样一种解释，就可以从使用了 dropout 的 NN 中，得到 model uncertainty。这个 uncertainty 其实才是作者的 motivation（当然也是 Bayesian 学派的 motivation）。比如现在的 NN，有一个 softmax layer 去 output 出一个 prediction，比如就是预测一个 label 吧，这个 output 只是对这个 label 的 propability，但是并不包含它对于自己这个 prediction 的 certainty 程度。设想一种情况，我们一直用 dog 的图像去 train 一个网络，最后让这个网络预测的全是 cat 的图片；最后很可能它预测的 probability 有些比较高，但其实 uncertainty 应该更高。以前的框架下，都无法很好地涵盖这种 uncertainty as output。现在，有了 dropout as approximation 的解释，就可以通过 moment-matching 的技术，从 NN 中得到这种 uncertainty 了。&/p&&p&得到这种 uncertainty 后，可以把它用于 regression, classification 甚至是 reinforcement learning 的各种任务上。从实验结果来看，增加了 uncertainty 之后，各种 task 都有提升。&/p&&p&另外可以想到，这样的 Bayesian 解释，有助于提高 model interpretation 的能力，也算是一个非常大的 motivation。最后，如果觉得论文读起来比较枯燥，可以去作者主页找他相关的 slides，看起来非常生动。主页上还有他自己写的一篇 blog，详细地展示了他的 motivation。这次 DL Symposium 中的另外两篇，《Stochastic backpropagation and approximate inference in deep generative models》和《Scalable Bayesian optimization using deep neural networks》也和这个工作非常相似，就不单独介绍了。&/p&
正好最近在公众号写 NIPS 2015 Deep Learning Symposium 的论文总结，直接搬运到这里吧。先来说结论，我推荐的论文有：《Character-aware Neural Language Models》. Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush.《A Neural Algorithm Of A…
正打算做个笔记，那就顺带放知乎好了（禁止转载）&br&我每场poster session都去了，把我比较能看懂的文章都扫了一遍，其中很多文章都给我留下的深刻的印象，在跟作者的交流过程中受益匪浅。我对theory的东西不是特别感兴趣（虽然也会了解一下大致有什么结论），所以以下按照类别说一说我觉得比较有意思的：&br&&br&&b&优化&/b&&br&&br&&i&Sparse Linear Programming via Primal and Dual Augmented Coordinate Descent &/i&&br&UT Austin&br&这个工作利用LP解的稀疏性开发了一个近似求解LP的快速算法&br&&br&&b&统计&/b&&br&&br&&i&A Linear-Time Particle Gibbs Sampler for Infinite Hidden Markov Models&/i&&br&University of Cambridge&br&利用hidden states后验分布的稀疏性设计了一个加速的particle Gibbs sampler&br&&br&&i&Estimating Mixture Models via Mixtures of Polynomials&/i&&br&Stanford&br&一个非常精妙的想法：把mixture model的参数看成empirical measure，通过先估计它的moment来反过来求解参数，某种程度上避免了传统EM方法中identifiability的问题。&br&&br&&i&Moment matching for LDA and discrete ICA&/i&&br&INRIA/ENS&br&算是第二篇利用moment matching来求解LDA的算法，比前一篇的效果好，这类moment based的方法可以避免传统方法要么太过依赖初始化（variational inference），要么收敛太慢的问题（MCMC）。&br&&br&&i&Extending Gossip Algorithms to Distributed Estimation of U-statistics&/i&&br&ParisTech&br&我也很喜欢这个工作，传统的gossip algorithm只能用来求解mean statistics，作者把它推广到U-statistics，值得一看。&br&&br&&i&Fast and Accurate Inference of Plackett–Luce Models&/i&&br&EPFL&br&PL model的应用在推荐系统中非常广泛，这篇文章的方法可以适用于更加flexible的ranking tuple data。&br&&br&&br&&b&学习&/b&&br&&br&&i&Learning with Group Invariant Features: A Kernel Perspective&/i&&br&通过定制action来自动学习action invariant的kernel，不过作者没有给出对具体问题应该如何设计template function的回答（目前用的是Gaussian sampling）。&br&&br&&i&Principal Differences Analysis: Interpretable Characterization of Differences between Distributions&/i&&br&MIT&br&一个新的框架，可以用来选择特征（feature selection），效果比传统方法好很多，非常值得一看。缺点的优化问题是非凸的。我跟作者聊完后，发现这个工作可以启发很多非常有意思的扩展。&br&&br&&i&Distributionally Robust Logistic Regression&/i&&br&EPFL&br&这个工作有点四两拨千斤的感觉，本来一个特别复杂的东西，组合在一起后能变成一个特别简单的东西，让我非常surprise。但是它的推导我还得在check一下。&br&&br&&i&End-to-end Learning of Latent Dirichlet Allocation by Mirror-Descent Back Propagation&/i&&br&Microsoft Research, Redmond&br&这个工作把mean field inference看成一个chain，从而通过BP来优化LDA参数，感觉有点神奇。但是具体的模型有点太过复杂了。值得一提的是，这个模型不是传统的generative LDA，而是discriminative的，目的是用来分类。&br&&br&&i&Learning with a Wasserstein Loss&/i&&br&MIT&br&一个非常简单的想法，效果也非常好。这类工作可遇不可求，作者给出了generalization bound（虽然好像也没什么卵用）。&br&&br&&b&神经网络&/b&&br&今年有很多把神经网络和其他领域结合的问题，大部分的策略就是在传统框架下的线性operator换成一个neural network based的非线性operator。很多时候我对此类idea都有点眼盲，所以也不是太注意。另外还有很多设计neural net的architecture的，我个人也不是太关心。&br&&br&其他文章带补充（等我回顾一下我拍的poster）。&br&最后今年的Optimization workshop真的非常赞，speaker讲的内容让我了解到很多东西。
正打算做个笔记，那就顺带放知乎好了（禁止转载）我每场poster session都去了，把我比较能看懂的文章都扫了一遍，其中很多文章都给我留下的深刻的印象，在跟作者的交流过程中受益匪浅。我对theory的东西不是特别感兴趣（虽然也会了解一下大致有什么结论），…
已有帐号？
无法登录？
社交帐号登录
在读博士，研究小世界里的大数据}

杰西卡魔网络

cvpr 2015 paper list有什么值得关注的亮点

我要回帖

更多关于 cvpr 2015 best paper 的文章

更多推荐