从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

字号+ 作者:乐投网 来源:深度学习 2017-12-22 17:02 我要评论( )

2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了

2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了。来自机器学习创业公司的 Eduard Tyantov 最近就为我们整理了这样一份列表。想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答。

1. 文本

1.1 谷歌神经机器翻译

去年,谷歌宣布上线 Google Translate 的新模型,并详细介绍了所使用的网络架构——循环神经网络(RNN)。

关键结果:与人类翻译准确率的差距缩小了 55-85%(研究者使用 6 个语言对的评估结果)。但是该模型如果没有谷歌的大型数据集,则很难复现这么优秀的结果。

参考阅读:

重磅 | 谷歌翻译整合神经网络:机器翻译实现颠覆性突破(附论文

专访 | 谷歌神经网络翻译系统发布后,我们和 Google Brain 的工程师聊了聊

1.2 谈判会达成吗?

你或许听说过「Facebook 因为聊天机器人失控、创造自己语言而关闭聊天机器人」的消息。这个机器人是用来进行谈判的,其目的是与另一个智能体进行文本谈判,然后达成协议:如何把物品(书籍、帽子等)分成两份。谈判中每个智能体都有自己的目标,而对方并不知道。谈判不可能出现未达成协议的情况。

研究者在训练过程中收集人类谈判的数据集,训练监督式循环网络。然后,让用强化学习训练出的智能体自己与自己交流,直到获得与人类相似的谈判模式。

该机器人学会了一种真正的谈判策略——对某个交易的特定方面假装产生兴趣,然后再放弃它们,以达到真实目标。这是第一次尝试此类互动机器人,而且也比较成功。

当然,称该机器人创造了一种新语言的说法过于夸张了。和同一个智能体进行谈判的训练过程中,研究者无法限制文本与人类语言的相似度,然后算法修改了互动语言。这是很寻常的事。

参考阅读:

业界 | 让人工智能学会谈判,Facebook 开源端到端强化学习模型

2. 语音

2.1 WaveNet:一种针对原始语音的生成模型

DeepMind 的研究者基于先前的图像生成方法构建了一种自回归全卷积模型 WaveNet。该模型是完全概率的和自回归的(fully probabilistic and autoregressive),其每一个音频样本的预测分布的前提是所有先前的样本;不过研究表明它可以有效地在每秒音频带有数万个样本的数据上进行训练。当被应用于文本转语音时,它可以得到当前最佳的表现,人类听众评价它在英语和汉语上比当前最好的参数(parametric)和拼接(concatenative)系统所生成的音频听起来都显著更为自然。

单个 WaveNet 就可以以同等的保真度捕获许多不同说话者的特点,而且可以通过调节说话者身份来在它们之间切换。当训练该模型对音乐建模时,我们发现它可以生成全新的、而且往往具有高度真实感的音乐片段。该研究还证明其可以被用作判别模型,可以为音速识别(phoneme recognition)返回很有希望的结果。

该网络以端到端的方式进行训练:文本作为输入,音频作为输出。研究者得到了非常好的结果,机器合成语音水平与人类差距缩小 50%。

该网络的主要缺陷是低生产力,因为它使用自回归,声音按序列生成,需要 1-2 分钟的时间才能生成一秒音频。

参考阅读:

DeepMind WaveNet,将机器合成语音水平与人类差距缩小 50%

2.2 唇读

唇读(lipreading)是指根据说话人的嘴唇运动解码出文本的任务。传统的方法是将该问题分成两步解决:设计或学习视觉特征、以及预测。最近的深度唇读方法是可以端到端训练的(Wand et al., 2016; Chung & Zisserman, 2016a)。目前唇读的准确度已经超过了人类。

Google DeepMind 与牛津大学合作的一篇论文《Lip Reading Sentences in the Wild》介绍了他们的模型经过电视数据集的训练后,性能超越 BBC 的专业唇读者。

该数据集包含 10 万个音频、视频语句。音频模型:LSTM,视频模型:CNN + LSTM。这两个状态向量被馈送至最后的 LSTM,然后生成结果(字符)。

训练过程中使用不同类型的输入数据:音频、视频、音频+视频。即,这是一个「多渠道」模型。

参考阅读:

如何通过机器学习解读唇语?DeepMind 要通过 LipNet 帮助机器「看」懂别人说的话

2.3 人工合成奥巴马:嘴唇动作和音频的同步

华盛顿大学进行了一项研究,生成美国前总统奥巴马的嘴唇动作。选择奥巴马的原因在于网络上有他大量的视频(17 小时高清视频)。

研究者使用了一些技巧来改善该研究的效果。

3. 计算机视觉

3.1. OCR:谷歌地图与街景

谷歌大脑团队在其文章中报道了如何把新的 OCR(光学字符识别)引擎引入其地图中,进而可以识别街头的标志与商标。

在该技术的发展过程中,谷歌还给出了新的 FSNS(French Street Name Signs),它包含了大量的复杂案例。

为了识别标志,网络最多使用 4 张图片。特征通过 CNN 提取,在空间注意力(考虑像素坐标)的帮助下缩放,最后结果被馈送至 LSTM。

相同方法被用于识别广告牌上店铺名称的任务上(存在大量噪音数据,网络本身必须关注正确的位置)。这一算法被应用到 800 亿张图片之上。

3.2 视觉推理

视觉推理指的是让神经网络回答根据照片提出的问题。例如,「照片中有和黄色的金属圆柱的尺寸相同的橡胶物体吗?」这样的问题对于机器是很困难的,直到最近,这类问题的回答准确率才达到了 68.5%。

为了更深入地探索视觉推理的思想,并测试这种能力能否轻松加入目前已有的系统,DeepMind 的研究者们开发了一种简单、即插即用的 RN 模块,它可以加载到目前已有的神经网络架构中。具备 RN 模块的神经网络具有处理非结构化输入的能力(如一张图片或一组语句),同时推理出事物其后隐藏的关系。

使用 RN 的网络可以处理桌子上的各种形状(球体、立方体等)物体组成的场景。为了理解这些物体之间的关系(如球体的体积大于立方体),神经网络必须从图像中解析非结构化的像素流,找出哪些数据代表物体。在训练时,没有人明确告诉网络哪些是真正的物体,它必须自己试图理解,并将这些物体识别为不同类别(如球体和立方体),随后通过 RN 模块对它们进行比较并建立「关系」(如球体大于立方体)。这些关系不是硬编码的,而是必须由 RN 学习——这一模块会比较所有可能性。最后,系统将所有这些关系相加,以产生场景中对所有形状对的输出。

目前的机器学习系统在 CLEVR 上标准问题架构上的回答成功率为 68.5%,而人类的准确率为 92.5%。但是使用了 RN 增强的神经网络,DeepMind 展示了超越人类表现的 95.5% 的准确率。RN 增强网络在 20 个 bAbI 任务中的 18 个上得分均超过 95%,与现有的最先进的模型相当。值得注意的是,具有 RN 模块的模型在某些任务上的得分具有优势(如归纳类问题),而已有模型则表现不佳。

下图为视觉问答的架构。问题在经过 LSTM 处理后产生一个问题嵌入(question embedding),而图像被一个 CNN 处理后产生一组可用于 RN 的物体。物体(图中用黄色、红色和蓝色表示)是在卷积处理后的图像上使用特征图向量构建的。该 RN 网络会根据问题嵌入来考虑所有物体对之间的关系,然后会整合所有这些关系来回答问题。

参考阅读:

关系推理水平超越人类:DeepMind 展示全新神经网络推理预测技术

3.3 Pix2Code

哥本哈根的一家初创公司 UIzard Technologies 训练了一个神经网络,能够把图形用户界面的截图转译成代码行,成功为开发者们分担了部分网站设计流程。令人惊叹的是,同一个模型能跨平台工作,包括 iOS、Android 和 Web 界面,从目前的研发水平来看,该算法的准确率达到了 77%。

为了实现这一点,研究者们需要分三个步骤来训练,首先,通过计算机视觉来理解 GUI 图像和里面的元素(按钮、条框等)。接下来模型需要理解计算机代码,并且能生成在句法上和语义上都正确的样本。最后的挑战是把之前的两步联系起来,需要它用推测场景来生成描述文本。

虽然该工作展示了这样一种能自动生成 GUI 代码的潜力系统,但该研究只是开发了这种潜力的皮毛。目前的 Pix2Code 模型由相对较少的参数组成,并且只能在相对较小的数据集上训练。而构建更复杂的模型,并在更大的数据集上训练会显著地提升代码生成的质量。并且采用各种正则化方法和实现注意力机制(attention mechanism [1])也能进一步提升生成代码的质量。同时该模型采用的独热编码(one-hot encoding)并不会提供任何符号间关系的信息,而采用 word2vec [12] 那样的词嵌入模型可能会有所好转。因此将图片转换为 UI 代码的工作仍处于研究之中,目前尚未投入实际使用。

项目地址:https://github.com/tonybeltramelli/pix2code

参考阅读:

深度学习助力前端开发:自动生成 GUI 图代码(附试用地址)

3.4 SketchRNN:教机器画画

你可能看过谷歌的 Quick, Draw! 数据集,其目标是 20 秒内绘制不同物体的简笔画。谷歌收集该数据集的目的是教神经网络画画。

研究者使用 RNN 训练序列到序列的变分自编码器(VAE)作为编解码机制。

最终,该模型获取表示原始图像的隐向量(latent vector)。

解码器可从该向量中提取图画,你可以改变它,生成新的简笔画。

甚至使用向量算术来绘制猫猪(catpig):

参考阅读:

谷歌发布 Quick Draw 涂鸦数据集:5000 万张矢量图,345 个类别

3.5 GAN

GAN 是深度学习领域里的一个热门话题。目前这种方法大多用于处理图像,所以本文也主要介绍这一方面。GAN 的全称为生成对抗网络,是 2014 年由 Ian Goodfellow 及其蒙特利尔大学的同事们率先提出的。这是一种学习数据的基本分布的全新方法,让生成出的人工对象可以和真实对象之间达到惊人的相似度。

GAN 背后的思想非常直观:生成器和鉴别器两个网络彼此博弈。生成器的目标是生成一个对象(比如人的照片),并使其看起来和真的一样。而鉴别器的目标就是找到生成出的结果和真实图像之间的差异。鉴别器通常会从数据集中给出图像用于对比。

由于很难找出两个网络之间的平衡点,训练通常难以连续进行。大多数情况下鉴别器会获胜,训练陷入停滞。尽管如此,由于鉴别器的设计可以帮助我们从损失函数设定这样的复杂问题中解决出来(例如:提升图片质量),所以 GAN 获得了众多研究者的青睐。

典型的 GAN 训练结果——卧室和人脸。

在此之前,我们通常会考虑使用自编码器(Sketch-RNN),让其将原始数据编码成隐藏表示。这和 GAN 中生成器所做的事情一样。

你可以在这个项目中(http://carpedm20.github.io/faces/)找到使用向量生成图片的方法。你可以自行尝试调整向量,看看生成的人脸会如何变化。

这种算法在隐空间上同样适用:「一个戴眼镜的男人」减去「男人」加上「女人」就等于「一个戴眼镜的女人」。




转载请注明出处乐投网。

1.乐投网遵循行业规范,转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源;

相关文章
  • 从Pipenv到PyTorch,盘点2017年最受欢迎的十大机器学习Python库

    从Pipenv到PyTorch,盘点2017年最受欢迎的十

    2017-12-26 14:49

  • 拿下吴文俊奖,今日头条李磊谈AI如何实现内容创作

    拿下吴文俊奖,今日头条李磊谈AI如何实现内容

    2017-12-26 14:47

  • 我们能否复制DeepMind的成功?

    我们能否复制DeepMind的成功?

    2017-12-26 14:46

  • SWATS:自动由Adam切换为SGD而实现更好的泛化性能

    SWATS:自动由Adam切换为SGD而实现更好的泛化

    2017-12-26 14:45

  • 2018年人工智能和机器学习路在何方? 听听美国公司怎么做

    2018年人工智能和机器学习路在何方? 听听美国

    2017-12-26 09:03

  • 佛蒙特大学给机器人口述形态学,使其理解人类指令

    佛蒙特大学给机器人口述形态学,使其理解人类

    2017-12-26 08:58

  • 上海纽约大学青年学者论坛:五大单元探究AI前沿

    上海纽约大学青年学者论坛:五大单元探究AI前

    2017-12-25 14:02

  • 基于Apache MXNet,亚马逊NMT开源框架Sockeye论文介绍

    基于Apache MXNet,亚马逊NMT开源框架Sockeye

    2017-12-25 14:01

读者观点