诺亚方舟实验室的深度学习研究
诺亚方舟实验室在进行自然语言处理与深度学习的研究,目标是构建更好的机器翻译、自然语言对话系统。最近在相关研究中取得了一定的成果,也得到了业界同行的肯定。下面介绍几个代表性的工作,并总结其主要结论。
自然语言对话是人工智能最具挑战的问题之一,现在有许多实用的对话系统,如苹果Siri,能够与人做简单的对话,完成一些简单的任务,比如问天气、查股票,但是现在的对话系统距离与人进行自由对话的理想还差得很远,今后需要不断开发更先进的对话技术。当前的技术主要是能进行单轮对话,如果能做多轮对话也是在单轮对话的基础上加一些简单处理。单轮对话技术又分为基于规则的、和基于数据的,据我们所知,现在的系统都是基于这两种方式。诺亚方舟实验室的主要贡献是,系统地研究了基于数据的单轮对话系统,用深度学习开发出了业界最先进的技术。提出了多个深度学习模型[8,9,10],其中的神经应答机(Neural Responding Machine),是业界第一个基于深度学习的单轮对话生成模型[10]。人给出一句话,这个系统能自动产生一句回复,整个系统完全是由大规模对话数据自动构建,核心是循环神经网络模型。这个系统能生成让人惊叹的回复,对话的成功率也比已有的基于翻译模型的系统有大幅度的提升。我们的对话研究,现在重点转移到了多轮对话、知识使用、简单推理等几个方面。
机器翻译可以帮助人类克服语言障碍,是自然语言处理的主要应用。机器翻译的主流现在依然是统计机器翻译(Statistical Machine Translation, SMT),特别是采用词语级的翻译方式(phrase-based)。近年来,有不少学者尝试将深度学习技术与SMT结合,比如,BBN的学者发现,用深度模型实现源语言与目标语言的联合模型,并将这个模型作为SMT 模型的一个特征使用,可以提升SMT的准确度。沿着这个思路,我们也提出了两个卷积神经网络模型[11,12,13],作为源语言与目标语言的联合模型以及目标语言的语言模型,并将它们用为SMT模型的特征,整体将BLEU分数提高了两个点。另一个更加大胆也是被寄予厚望的方向,是完全用深度学习实现机器翻译系统,称为神经机器翻译(neural machine translation, NMT),已取得了初步的成果,达到与SMT持平的好结果。比如,蒙特利尔大学的学者提出了基于循环神经网络的系统RNNSearch。其基本想法是用RNN将源语言的句子转换成中间表示,再用另一个RNN将中间表示转换为目标语言的句子,另外,他们还导入注意力(attention)的机制,能进一步提高翻译的准确率。我们也在进行NMT的研究,提出了深度记忆(DeepMemory,DM)模型[14]。DM将源语言的句子通过一系列非线性变换,转换成中间表示,再转换成目标语言的句子。受神经图灵机的启发,DM将中间表示分别存放在不同记忆中,通过神经网络控制对记忆的读写操作,从而实现各种复杂的中间变换,如顺序的调换,适合于相远语言之间的翻译。DM在中英翻译上达到了单模型与SMT的标杆系统Moses同等的水平。
以上是应用,用于自然语言处理的深度学习基本技术方面,我们也做了一定的深入研究,取得了领先的成果。诺亚方舟实验室的主要贡献包括,提出了用卷积神经网络(CNN)模型表示语句语义,应用在自动问答、单轮对话、图片搜索、机器翻译、情感分析上,大幅度提升了所有这些任务的准确率[8,11,12,13,15,16];在几个任务上系统地比较了CNN与RNN(循环神经网络)的关系,得出了CNN更适合于语言的匹配(matching),RNN更适合于语言的转换(translation)的结论。事实上,CNN是自然语言处理的强有力工具。它对句子进行扫描,抽取特征,选择特征,最后组合成句子的语义表示。它的特点是不需要进行句法分析,特征抽取与选择更具有鲁棒性;从语句的整体出发进行特征抽取与选择,更适合于整个语句的匹配(不需生成语句),如问答中的问句与回答的匹配。 深度学习的未来发展趋势
深度学习的领军人物LeCun, Bengio & Hinton在《自然》杂志上是 这样预见深度学习的未来发展趋势的[17] :首先,虽然最近非监督学习被监督学习抢去了风头,但是长期来看,仍然是更为重要的问题;在计算机视觉领域,结合多种模型,如深度学习与强化学习,构建端到端的系统,可能会实现更加接近人的识别机制;自然语言处理将是深度学习今后大显身手,取得重大突破的领域,能够更好地“理解”语句与篇章语义的系统将会出现;最后,深度学习与符号人工智能的结合,将给人工智能领域带来革命性的变化。
深度学习确实为人工智能、计算机科学开启了一片新天地,展望未来,的确让人感到无比兴奋,基于深度学习及其他相关技术,我们确实有可能让计算机更接近人,让一些在科幻电影、科幻小说中的虚构成为现实。
参考文献
Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems(pp. 1097-1105).Dahl, G. E., Yu, D., Deng, L., & Acero, A. (2012). Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1), 30-42.Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on(pp. 8595-8598). IEEE.Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.Graves, A., Wayne, G., & Danihelka, I. (2014). Neural Turing Machines. arXiv preprint arXiv:1410.5401.Weston, J., Chopra, S., & Bordes, A. (2014). Memory networks. arXiv preprint arXiv:1410.3916.Baotian Hu, Zhengdong Lu, Hang Li, Qingcai Chen. Convolutional Neural Network Architectures for Matching Natural Language Sentences. NIPS’14, 2042-2050, 2014.Mingxuan Wang, Zhengdong Lu, Hang Li, Qun Liu. Syntax-based Deep Matching of Short Texts. IJCAI’15, 2015.Lifeng Shang, Zhengdong Lu, Hang Li. Neural Responding Machine for Short Text Conversation. ACL-IJCNLP’15, 2015.Fandong Meng, Zhengdong Lu, Mingxuan Wang, Hang Li, Wenbin Jiang, Qun Liu. Encoding Source Language with Convolutional Neural Network for Machine Translation. ACL-IJCNLP’15, 20-30, 2015.Baotian Hu, Zhaopeng Tu, Zhengdong Lu, Hang Li, Qingcai Chen. Context-Dependent Translation Selection Using Convolutional Neural Network. ACL-IJCNLP’15, 536-541, 2015.Mingxuan Wang, Zhengdong Lu, Hang Li, Wenbin Jiang, Qun Liu. GenCNN: A Convolutional Architecture for Word Sequence Prediction. ACL-IJCNLP’15, 1567-1576, 2015.Fandong Meng, Zhengdong Lu, Zhaopeng Tu, Hang Li, Qun Liu. A Deep Memory based Architecture for Sequence-to-Sequence Learning, arXiv:1506.06442, 2015.Lin Ma, Zhengodng Lu, Lifeng Shang, Hang Li . Multimodal Convolutional Neural Networks for Matching Image and Sentence, ICCV’15, 2015.Han Zhao, Zhengdong Lu, Pascal Poupart, Self-Adaptive Hierarchical Sentence Model. IJCAI 2015: 4069-4076, 2015.LeCun, Yann, Yoshua Bengio, & Geoffrey Hinton (2015). Deep Learning. Nature 521.7553: 436-444.
作者简介
吕正东,华为技术有限公司诺亚方舟实验室资深研究员。西安邮电学院毕业,俄勒冈健康与科学大学博士。曾任微软亚洲研究院副研究员。研究方向包括机器学习、数据挖掘及自然语言处理。
李航,华为技术有限公司诺亚方舟实验室主任。日本京都大学电气工程系毕业,日本东京大学计算机科学博士。曾就职于日本NEC公司中央研究所,任研究员,以及微软亚洲研究院,任高级研究员与主任研究员。研究方向包括信息检索、自然语言处理、统计机器学习及数据挖掘。
End.