培养开放心态,迎接大数据时代:《大数据》作者麦尔荀伯格首度访

培养开放心态,迎接大数据时代:《大数据》作者麦尔荀伯格首度访

昨日,远见天下文化出版事业群于新北市政府举行「大数据论坛」,邀请《大数据》作者之一的 麦尔荀伯格 教授首度来台演讲。

演讲一开始,麦尔荀伯格先以着作《大数据》使用的例子作为开场:2009 年,Google 透过比对使用者的关键字、搜寻时间和地点,得出流感的发展趋势预测,几乎与疾病管制中心的专家们得出的研究结果相同,但是快了两週!而且还是即时分析。

接着他又举了 Farecast 这个机票价格预测网站的例子,由于创办人 Oren Etzioni 教授在某次搭飞机之后发现自己的机票卖贵了,于是他蒐集各大网站的机票价格资料,告诉使用者何时买机票会最便宜,準确度达 70%。

麦尔荀伯格首先从大数据的几个特性例如资料的数量、相关性重于因果关係等等谈起,最后回到「人」的议题,探讨大数据时代下「人性」有多重要。我们相当推荐各位读者阅读麦尔荀伯格与库基耶和着的《大数据》。

资料的大小

根据 Mary Meeker 的 2014 年网路趋势报告 ,目前无论是运算、储存、蒐集资料的成本每年都在以显着的比例下降,我们处理大数据的能力比起过去要强大的多。

以基因定序工作为例,2000 年时,人类基因组计划工作草图完成,耗时多年,所耗用的经费庞大。到了今天,任何一个人如要做自己的基因定序,只需要花二至三天,费用不到 1,000 美金。

资料的数量「变大」后会发生什幺事?

麦尔荀伯格以一个很简单的比喻告诉大家,当资料量变多的时候,会发生什幺事

他说,假如自己要为现场的观众拍照,那幺恐怕得决定要将焦距对準前排还是后排的听众,而且无论如何一定有一部分观众的脸是模糊的,但如果使用光场相机,那幺情形就不一样了,这台相机可以将所有的「资讯」都记录下来,「事后」再调整焦距。就好比我们为一匹奔驰中的赛马拍照,得到的是一张相片;每一分钟拍一张照片,得到的是一系列的照片;但若在一秒内连续拍摄 16 张,就成了一段短片——我们做的事情不变,就是拍照。

麦尔荀伯格说,使用大数据就跟我们使用光场相机一样:我们先把所有的资讯收集起来,日后将有机会发现原本不知道或是没有注意到的事。

What vs. Why

接着麦尔荀伯格讲的是大数据另一个非常重要的观念:巨量资料告诉我们的是「什幺」,不是「为什幺」。大量的数据经过分析后,我们得到的是相关性,而不是因果关係。

他举了 Wlamrt 超市的例子,这家全球零售巨头了解到,在龙捲风、飓风袭击前,人们会购买手电筒——这不并意外,只是他们也发现,人们还会买很多的 Pop-Tarts,Wlamrt 不知道为什幺人们这幺做,不过他们晓得要在对的时候将这项产品放在货架上最显眼的位置。麦尔荀伯格又举了一个例子:假如你前一晚去吃大餐而隔天早上拉肚子,很快地你会推论出一定是因为昨晚吃的东西有问题,但说不定真正的原因其实是你跟某人握了手——建立因果关係的机制深深地烙印在我们的脑中。

在大数据面前,我们要注意资料要告诉我们「什幺」而不是「为什幺」,在我们去探究「为什幺」之前,先专注于了解到底「发生什幺事」。当亚马逊和 Netflix 在推荐使用者内容时,他们并不知道为什幺要推荐这些东西。

麦尔荀伯格又举了一个例子:翻译。50 年代电脑科学家试图透过建立规则的方式,再输入字典资料告诉电脑该如何翻译,这个作法以失败告终,因为例外实在太多了。80 年代晚期,IBM 尝试了另一个方法:他们使用加拿大国会文件中的 300 万个句对,统计某个词最常被翻译成另一种语言的相对词彙,使用统计方法,IBM 在机器翻译上取得了长足的进步,接着他们又想,如果调整演算法,说不定可以让翻译效果变得更好,结果却不尽人意,后来 IBM 便放弃这个计画。

最后是谁办到了?大家应该都有猜到:Google。这家搜寻引擎公司认为问题不在于演算法,而是用来训练电脑的资料。与其输入辞典、翻译规则或是 300 万句的国会翻译资料,Google 决定餵给电脑整个网际网路:数以十亿计的网页、数兆个词彙、近亿句的英文句子 虽然资料杂乱,不如 IBM 先前使用的经过精心翻译,但是却能顺利地将许多语言完成翻译,并且具备够好的品质。「我如果想知道台湾读者对我写的书的看法,就会用 Google 翻译。」麦尔荀伯格说。

解决医疗问题的,可以是电脑科学家

大数据的相关性显示在另外一个例子:早产儿照护。早产儿容易遭受感染,但是常常在医生发现症状后会医治不及。Carplyn McGregor 博士与安大略理工学院和 IBM 的研究人员合作,从早产儿身上每秒读取 1,200 个资料点。经过数週后他们从许多早产儿身上搜集到许多资料,让科学家从中找到了一种模式,可以在早产儿出现感染症状前的 24 小时提出预警。「专业医师们哪想得到,在爆发严重感染前,生命指数却有一段时间呈现非常稳定的情况呢?」这个案例也显示:用大数据解决实际问题时,往往这些资料科学家并非该问题的专家,但正因他们能够找出大数据告诉我们「发生什幺事」,可以协助解决令「知道为什幺」的专家们苦恼的问题。

颠覆传统科学研究方法

我们知道科学家们在研究问题时,会先提出假设,然后进行验证,但是在大数据的时代,这个流程出现了变化。例如 Google,他们有个理论,但不知道要做什幺假设,所以他们把这项工作交给机器,让电脑从大量资料中产生假设。

数据再利用,资料即产品

过去,人们会针对特定目的蒐集资料,但是在大数据时代,就像前面所举,可以「先拍照再对焦」的光场相机,很多时候我们不会知道原来资料还有别的用途。

麦尔荀伯格举了几个例子,像是新创公司利用全球 SWIFT网路资料预测全球经济;荷兰电信公司利用基地台数据测量当地的天气变化,发现自己可以进军气象预报事业;劳斯莱斯是汽车公司,但他们同时也是全球第二大的飞机引擎製造商,他们整合自家飞机引擎数据分析后,可以在引擎故障发生前先预测故障的会是哪一具引擎并提早进行检修。

大数据时代下的「人性」

演讲最后,麦尔荀伯格再次提醒观众,千万要小心因果关係与相关性的问题,以及大数据的限制。又,他也呼吁大家要重视大数据时代下,蒐集资料会不会侵犯了人们的隐私,以及我们利用大数据预测的事:美国的 Target 百货曾经利用消费者的购物记录,在妇女自己还不知道的情形下,预测出她怀孕了。

大数据这项威力强大的技术带来许多好处,同时也带来许多挑战,我们需要学习的事情还很多,勿忘谦卑与人性。「最终,资料只是现实的影子。」麦尔荀伯格说。

麦尔荀伯格的演讲结束后登场的就是这次的大数据论坛。

培养开放心态,迎接大数据时代:《大数据》作者麦尔荀伯格首度访
政治人物应该具备的能力

今天新北市场朱立伦在座,他也问了麦尔荀伯格「政治人物该怎幺看待民意调查」这个问题,麦尔荀伯格表示,民意调查可以了解民众当下的想法,但是无法预测人们未来的行为。他也提醒政治人物应该具备三种能力:

他也提到,政府部门是掌握最多数据的机构,而政府决策影响甚巨,更该好好运用这些数据作为施政方向的基础。先前 纽约市长彭博就请出大数据专家 ,找出危险程度最高的老旧建筑,希望降低火灾事故。世界上有愈来愈多国家对资料保持愈来愈开放的态度,

避免资料独裁,应把资料视为机会

虽则麦尔荀伯格非常推崇巨量资料,但是正如「役物而不役于物」,他提醒我们不应全盘信任资料,应该带着批判的眼光审视资料,否则到头来反而容易走向另一个极端:对资料失去信任。麦尔荀伯格认为,适当配套的法律与政策架构,可以为巨量资料带来健康良性的发展。

资料能够告诉我们社会的变化趋势,替我们预测未来,至于能否善加利用提前因应,就考验政府的态度了。这并不表示政府得通通自己来,而是应该解放资料,交由民间力量解构分析。资料开放的威力有多强大,g0v 零时政府等组织已经树立典範,他们挖出各种公家机关冗赘複杂的资讯,结合众人力量拆解、重组,转化为清晰易读的版本,达成真正揭露资讯的效果。

只是,新北市长朱立伦在会中表示,公务员对于「资料开放」仍存有心理障碍,很怕因此「工作不保」,恐惧民间反弹,「不敢失败、不敢冒险」的心态依旧很普遍。但朱立伦也承诺,藉着资料开放打造更有效率的新北市政府,并将开放的精神推广到全国。

培养开放心态,迎接大数据时代

在资料导向的新经济时代,台湾应该如何接招?麦尔荀伯格认为,在天然资源贫乏的地区,更该具备数据分析的能力,比如大学设立巨量资料分析研究所,会有很大的帮助。目前巨量资料专家还不是很多,是值得好好把握的机会。而在专业技能之外,也应该培养开放的心态与冒险犯难的精神,他鼓励台湾人别只侷限在台湾,应当放眼世界。

其实,麦尔荀伯格自己就是出生于奥地利偏远山城,但从学生时代就有宏大的野心,身为律师的父亲要他继承衣钵,但他对物理与电脑的兴趣更加浓厚。在父亲过世前一天,他问儿子「到底想要做什幺」,麦尔荀伯格说「我要到哈佛大学当教授」,父亲仍要他好好思考第二选项,不过终究,麦尔荀伯格做到了。他完成父亲的遗愿,念了哈佛法律并顺利当上哈佛法律教授,但后来也遵循自己的意志,探索浩瀚的网路科技,麦尔荀伯格目前担任牛津大学网路机构教授。

上一篇:
下一篇: