当前位置: 绝缘体 >> 绝缘体发展 >> NLPer复工了先看看这份2019机器
机器之心编译作者:SebastianRuder机器之心编译参与:王子嘉、GeekAI
年是机器学习和自然语言处理领域飞速发展的一年。DeepMind科学家SebastianRuder从10个方面总结了我们在过去的一年中取得的重要进展,对未来的研究方向有着重要的指导意义。
本文介绍了年中机器学习和自然语言处理领域10个影响巨大的有趣研究方向。对于每个方向,本文都会先总结今年我们在该方向取得的主要进展,简要说明我认为这个方向重要的原因,最后对未来的工作进行简短的展望。这10个方向分别是:
通用无监督预训练(Universalunsupervisedpretraining)彩票(Lotterytickets)假设神经正切核(TheNeuralTangentKernel)无监督多语言学习(Unsupervisedmultilinguallearning)更多鲁棒的对比基准(Morerobustbenchmarks)机器学习与自然语言处理对科学发展的贡献(MLandNLPforscience)解决自然语言生成问题中的解码误差(FixingdecodingerrorsinNLG)增强预训练的模型(Augmentingpretrainedmodels)高效且记忆范围广的Transformer(Efficientandlong-rangeTransformers)更加可靠的分析方式(Morereliableanalysismethods)通用非监督预训练由于BERT(Devlinetal.,)及其变体横空出世,无监督预训练在今年的自然语言处理(NLP)领域大放异彩。众多BERT的变体已经在多模态场景下被应用,这些场景主要涉及文本及其相关的图像、视频(如下图所示)。无监督训练也开始渗透到过去监督学习统治的领域。在生物信息学领域中,Transformer语言模型的预训练也开始被应用在蛋白质序列预测上了(Rivesetal.,)。在计算机视觉领域,包括CPC(Hénaffetal.,),MoCo(Heetal.,)和PIRL(MisravanderMaaten,)在内的模型,以及为了提升在ImageNet数据上的采样效率与图像生成效果而提出的强大的生成器模型BigBiGAN(DonahueSimonyan,)都利用了自监督学习方法。在语音领域,多层卷积神经网络(Schneideretal.,)和双向CPC(Kawakamietal.,)学习到的表征都比最先进的模型表现要好,而且所需的训练数据也更少。它为什么重要?无监督预训练使得我们在训练模型时对已标注数据的需求量大大减少。这使得那些以前数据需求得不到满足的领域开始有了焕发活力的可能性。接下来会怎么发展?尽管研究人员已经着手研究无监督预训练,而且已经在一些独立领域上已经取得了巨大的成功。但如果未来它能够朝着多模态紧密融合的方向发展,应该还是很有趣的。
最近提出的BERT的多模态变体VideoBERT(Sunetal.,)。它可以基于食谱生成视频的「token」(图片上半部分),还可以在给定某个视频「token」时,预测后面不同的时间尺度下的「token」(图片下半部分)。彩票假设如下图所示,FrankleandCarbin()定义了「中奖彩票」(winningtickets)——也就是在密集的、随机初始化的前馈网络中找到的初始化良好的子网络,独立训练这个子网络应该得到与训练完整网络相近的准确率。虽然最初的剪枝过程只适用于小的视觉任务,但后来的工作(Frankleetal.,)将剪枝应用于早期的训练,而不是初始化阶段,这使得找到更深的模型的小子网络成为可能。Yuetal.()在NLP与RL的LSTM和Transoformer模型中也发现了「中奖彩票」。尽管这种中奖的彩票还是很难找到的,但它们似乎可以在数据集和优化器之间转移(Morcosetal.,)。为什么重要?在神经网络变得越来越先进的同时,它们的规模也与日俱增,训练它们并将其用于预测的算力需求也越来越大。能够稳定地找出达到类似性能的较小的子网络可以大大减少训练与推理的算力需求。这可以加速模型迭代,并且为终端设备计算和边缘计算开启了新可能。接下来会怎么发展?目前来说,在低资源的场景下,为了产生实际的效益,想要找出「中奖彩票」仍然需要巨大的计算开销。更加鲁棒的one-shot剪枝方法对剪枝过程中噪音的敏感度小一些,因此可以在一定程度上缓解这个问题。研究「中奖彩票」的特性也能够帮助我们更好地理解初始化,了解神经网络训练的过程。
不同剪枝率下的测试准确率——实线代表中奖彩票,虚线代表随机采样得到的子网络(FrankleCarbin,)。神经正切核估计一般人都很难想到,当神经网络很宽(更确切地说是无限宽)时,其实是比它窄的时候更好研究的。研究结果表明,在无限宽极限下,神经网络可以近似为一个带核的线性模型,该核即为神经正切核(NeuralTangentKernel,NTK,Jacotetal.,)。实际上,这些模型的性能不及深度有限的模型(Novaketal.,;Allen-Zhuetal.,;BiettiMairal,),这也限制了研究结果在标准方法上的应用。然而,近期的一些工作(Lietal.,;Aroraetal.,)已经大大降低了神经正切核与标准方法的性能差距(参见ChipHuyen关于NeurIPS其他相关论文的博文)。为什么重要?NTK可能是我们所掌握的用于分析神经网络理论行为最强大的工具。虽然它也有其局限性(即实用的神经网络仍然比相应的NTK版本的模型性能更好),而且这个领域迄今为止的研究成果都还没有转化成实际效益,但它可能帮助我们打开深度学习的黑盒。下一步该做什么?目前看来,NTK与标准方法的差距主要来源于宽度的不同,未来的工作可能会试着去描述这种差距。这也将帮我们将无限宽度限制的想法放在实践中。最终,NTK可能帮助我们理解神经网络的训练过程和泛化行为。
带有NTK的线性模型在输出放缩因子α取不同值时的学习过程,图中的椭圆为NTK的可视化结果。无监督多语言学习多年来,跨语言表征主要
转载请注明:http://www.aideyishus.com/lktp/2144.html