微软亚洲研究院副院长：语言智能的未来

ljrj123 · 发表于 2019-8-15 13:07:59

（一）有了大数据、神经网络、不断完善的网络结构、云计算、落地场景、未来的NLP会发展的越来越好。有几点预测：

1、未来的口语机器翻译一定是普及的，出国的语言交流将不是问题；

2、聊天系统越来越实用；

3、电脑创作诗词，小说，歌曲将会流行起来；

4、语音助手，物联网，智能家居，智能硬件等等都会因为自然语言的发展而普及起来；

5、与其他AI技术一起再金融、法律、教育、医疗上得到广泛应用。

整体上人工智能会提升人的生活质量，普惠所有人，因此我认为自然语言是未来的一个很好的方向。

（二）自然语言领域还有哪些的题目还能选呢？

神经网络机器翻译还可以在做，例如生词、篇章级的处理还不好，而且领域迁移做的不好，这些领域还可以进一步研究。第二个思路，用小数据集来训练机器翻译系统。

第二个方向，针对问答系统（QA），除了可以针对知识库来做，还可以无结构的文本集，表格图片。第二个和QA有关的是语义分析。

第三个方向是多轮对话，如何更好地建模上下文，甚至用户的不同时期的回复来生成好的回复。

最后还有很多跨学科跨领域的地方，例如歌曲创作等等。

而未来创业呢？主要考虑场景，先从市场需求出发，反推需要的技术。需要大家了解市场，可以通过在公司实习，了解实际需求，来反思学校学到的东西，哪些是用的上的，哪些还不行。也许可以发现我们未来创业的机会。

（三）视频现在是现象级的事件，发展很强劲，那么关于视频，它和自然语言怎么结合，未来会爆发出哪些和自然语言有关的应用场景？

现在的趋势是图文结合越来越紧密，一个图用关键词和一段话进行描述，而视频也是一样的，这方面的研究是方兴未艾，没有做的很好，假设这个技术越来越好的情况下，就能产生很多应用。

把物理和数字联系起来，例如用照相机对实物拍照时，电脑已经知道这个图景的属性，将这些属性再经过自然语言处理，就可以自动的翻译识别，生成一个可视化报告，可以完全联动起来。

我们可以设想一个照相机的场景，照相机照完后，自动将图片的一系列信息展示出来，而处理对一系列时序图片，就相当于是对视频的处理，我们就能知道视频出现的人物、物体和事件等等，可以得到文字描述。将来或许也我们也就可以是输入一段文字，通过图或者一小段视频表达出来，这样图文的互相转化会产生新的的机会。

（四）现在已经有很多团队开始视频理解方面做研究，未来根据图片，文字生成视频这款，您感觉会需要多少时间？

这首先要有数据集，这些数据应该是有一个视频或者图片对应的描写是什么，但目前来看这方面数据还不够，而为了广泛的应用，我们需要对常见的视频情景做各种人工数据采集。基于这个，再进行神经网络的编解码训练，所以我猜测，如果有数据集，三年之内常见的图文转化的应用都会被做掉。

（五）相关技术

自然语言的这些研究也不是孤立的，实际上它的周围有一些支撑技术，比如说用户画像。基于用户画像，可以提供个性化的服务。

云计算使得训练速度加快，并且很容易的部署，然后机器学习和深度学习，在数据提供的条件下，自动学习其中的知识、建模，然后部署到真正的系统里面。

还有是知识图谱，包含具体领域的一些知识图谱，比如说金融领域的，或者是常识意义上的知识图谱。

所有这些技术综合起来，使自然语言的任务做得更好。

ROSoft YaHei">

由灵玖软件研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

　　NLPIR大数据语义智能分析平台十三大功能：

　　精准采集：对境内外互联网海量信息实时精准采集，有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

　　文档转化：对doc、excel、pdf与ppt等多种主流文档格式，进行文本信息转化，效率达到大数据处理的要求。

　　新词发现：从文本中挖掘出新词、新概念，用户可以用于专业词典的编撰，还可以进一步编辑标注，导入分词词典中，提高分词系统的准确度，并适应新的语言变化。

　　批量分词：对原始语料进行分词，自动识别人名地名机构名等未登录词，新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

　　语言统计：针对切分标注结果，系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语，会自动给出相应的英文解释。

　　文本聚类：能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

　　文本分类：根据规则或训练的方法对大量文本进行分类，可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

　　摘要实体：对单篇或多篇文章，自动提炼出内容摘要，抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

　　智能过滤：对文本内容的语义智能过滤审查，内置国内最全词库，智能识别多种变种：形变、音变、繁简等多种变形，语义精准排歧。

　　情感分析：针对事先指定的分析对象，系统自动分析海量文档的情感倾向：情感极性及情感值测量，并在原文中给出正负面的得分和句子样例。

　　文档去重：快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

　　全文检索：支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

　　编码转换：自动识别内容的编码，并把编码统一转换为其他编码。

		自动登录	找回密码
密码			立即注册

微软亚洲研究院副院长：语言智能的未来

站长推荐 /1