AI 2.0:从 Google Translate 开始面向消费市场
2006 年谷歌翻译正式上线,预示着 AI 2.0 的开端。它提供了90 种语言翻译,90*90 的 8100 个语言对,每天 2 亿人同时使用,10 亿个句子被机器自动翻译。这是 AI 发展史上,第一个得到全世界高频使用的系统,人工智能技术终于开始面向消费者。
为什么几十年没有得到发展的 AI 技术,谷歌却能推出这个系统并得到大规模普及?一方面,谷歌是全球化的互联网公司,用户对信息全球化的需求巨大,谷歌翻译是很有市场的。另一方面,谷歌在数据、算法和基础设施上的架构非常合理。它可以去网上抓 100 万或 1000 万个句子对,当作机器训练的语料,云计算结构等基础设施也能负荷这么大的数据处理量。
谷歌崇尚的是“一定要做出产品”,不是学校里做成实验就火速发论文,跟同行侃侃而谈。在语言识别里,一帮既是工程师又是科学家的人,天天在想如何把它做成产品,实现大规模化、高准确率,所以谷歌第一个把语言识别变成 to C 产品就不足为奇了。
过去两三年,深度学习得到重新应用并且与大数据结合,语音识别和机器翻译得到突破,出现了各种移动端产品。所以 AI 1.0 到 2.0的发展,是从军用到民用,从学术界到谷歌这类公司主导。以前产品大多 to B,未来大规模的一定是 to C。
有时,普通用户会觉得计算机怎么这么笨?比如你说“我想静静”,它会问你静静是谁。但计算机能够做的,把识别过程非常机械地抽象出来,当知道第一步、第二步、第三步干什么,它就会做得很好。比如促销卖东西的各种方式,给出每种大概的收益,计算机擅长的是组合各种促销方式,给出最优解。但是人类的直觉、创造力、情感,是无法用计算机建模的,这也是它为什么“笨”的原因。
AI 3.0:从软件到硬件,从信息到服务
从工程师或者现实的创业者去看,未来可能有两大趋势:一个是从软件到硬件,一个是从信息到服务。
过去早期人工智能硬件载体主要是 PC,2010 年后的移动时代,我们更多使用起了手机。未来我们会有各种各样的新硬件,比如可穿戴、VR、无人驾驶、智能家居。它首先一定是移动性的,可以随身携带或者自己移动。
因此,未来 AI 技术的发展也会大不相同。现在的识别是根据声音,但未来会从单一到综合。当我戴着头盔说“不要”,手也摆一下,通过视觉、声音等的识别会更加精准。此外,它提供的服务是多维度的,过去的 Siri 是软件服务,现在集成到硬件载体,是综合手势、声音等各种,还能移动。过去,人跟机器或者跟物理世界沟通现在由于机器人、VR、无人驾驶的存在,机器要对物理世界建模与之交互,机械可以帮人类主动做更多事情,这是未来比较大的技术趋势。
另外,你会希望不只找到信息,而是直接完成任务。比如以前用 Siri 会说“附近有什么咖啡馆?”,现在则是“能不能给我送一杯咖啡?”查飞机票只是第一步,还可以直接帮忙预订。但是实现上也有很多困难,这也就是为什么 Siri 现在不能直接支付,因为后续涉及很多复杂的处理。
人机混合:我们正在做的尝试
实现人工智能的方式往往是两个极端:要么纯人工,要么纯机器。人工的问题是,实时服务无法 24 小时在线,态度非标准,响应速度慢,但人比较聪明可以处理复杂情况。计算机可以全天在线,快速响应,但不够聪明。所以未来是中间的模式——“Human in the loop”。
人机混合服务在过去也有很多,比如淘宝客服或电话客服系统。但不一样的是,未来人的因素越来越少,机器主导智能助理,人很悠闲,但是用户反而感觉效率高、速度快。机器需要判断对决策是否有信心,如果能够完成,客服便不会参与。
实际上,用户需求非常多,不是每个客服都能处理所有情况,涉及到需求匹配客服,算法非常复杂。过去的 AI 不太希望有人去参与,但现在,我们必须承认,纯粹靠机器,AI 是不可能百分之百准确的。只有机器跟人混合的计算,才有可能给用户提供合理的服务,魔法小问就是我们的尝试。