我们都知道,人工智能需要获取数据进行训练以感知世界,但往往忽略到底需要多少数据。「仅仅获取人类用于理解和识别所需的信息量是不够的,这些系统需要数百乃至数千倍这样的信息以供训练,」Sheffield 大学的教授,亚马逊人工智能团队成员 Neil Lawrence 说道,「纵观应用级深度学习的成功案例,你会发现他们都获得了海量数据。」在语音和图像识别领域,这种现象尤为明显。像谷歌和 Facebook 这样的大型公司可以随心所欲地截取大量数据「例如你在安卓手机上用于语音搜索的音频」,这种优势让他们可以创造更有效的新工具。
Lawrence 认为:「数据就像工业革命时代的煤一样举足轻重。」他以 Thomas Newcomen 作为比喻,这位发明家在 1712 年发明了蒸汽机的原型—用煤作燃料,比众所周知的詹姆斯瓦特早 60 年。Newcomen 的发明并不完美,相比瓦特的机器,前者低效而昂贵。人工智能或许也处在这样一个时代,人们还只能努力从矿藏中不断挖掘矿石作为燃料,抵消机器本身的缺陷。