大数据的傲慢
通过在疾病控制和预防中心(CDC)的数据与数百万计的搜索词条之间建立相关性,GFT违反了Hyndman的四个可预测性关键因素中的第一个也是最重要的一个因素:了解数据关系背后的偶然因素。由于存在随机可能性,结果出现过多的虚假相关性。虽然这是在数据科学所有分支中的一个关注焦点,这一事件说明隐性假设的本质是不可靠的,它使大数据忽视了传统数据分析的形式的必要。
Lazer团队从此次失败中得到的教训不是说社交媒体的数据对于预测疾病爆发是无用的。教训是,大数据和机器学习算法应该被视为对人类判断和传统分析形式的补充,而非替代。
Philip Tetlock与Dan Gardner共同撰写了In Superforecasting: The Art and Science of Prediction,讨论以大数据为基础的AI技术无法取代人的判断。Tetlock报告了他与David Ferrucci的谈话,Ferrucci领导工程团队开发了在《危险边缘》游戏中获胜的Watson系统。Tetlock提出了2个问题:
1. 哪两位俄罗斯领导人在过去十年交换了工作?
2. 两位俄罗斯最高领导人会在10年后交换工作吗?
Tetlock指出,第一个问题考的是历史事实,许多在线文档都有电子记,计算机算法可以使用模式识别技术找出答案。第二个问题需要猜测普京的意图和俄罗斯政治的动态。Ferrucci对于计算机算法能在不确定的条件自动化这种判断形式表示怀疑。随着数据量的增加和机器学习方法的不断改进,模式识别应用将更好地模仿人类的推理过程,但Ferrucci说,模仿和表达意义、产生意义是不同的。Tetlock说,二者之间的差距有待人类判断来补充。
数据越来越多,统计方法也在进化,但是最终的结果也不会让Paul Meehl感到惊讶。的确,计算机可以自动化某些传统上只能由人类完成的任务。比如,信用评分在很大程度上替代了银行信贷员的角色。但更普遍的是,计算机只能协助而不是取代人类在不确定的条件下做出 这就是说,人类与计算机合作的性质很有可能发生变化。Tetlock引用“自由国际象棋”作为人机合作的典型例子,我们在未来可能会看到更多这样的例子。Garry Kasparov(被IBM深蓝计算机在在1996年击败)对2005年的自由国际象棋的讨论就很好地说明了这种合作的可能性。Kasparov说:
比赛结束时出现了惊喜。获胜者不是使用一台最先进计算机的大师,而是同时使用三台计算机的一对美国业余棋手。他们操纵和“训练”计算机的技能能够抗衡大师级别的对手具备的高超棋艺,以及其他参赛者更加强大的计算能力。能力弱的人+机器+较好的过程要胜过一台强大的计算机,而且,更胜过能力强的人+机器+较差的过程。