数据新闻手册 中文 2.0
读取...
Custom Search
Web
 
 
 

简单三步让自己变的有数据素养

正如文字素养着重于“`通过阅读获取知识,能条理写作,并可以批判性分析书面材料的能力”,数据素养是一种消化数据获取知识、梳理并批判性分析数据的能力。数据素养不仅包括统计素养,更需要懂得如何处理庞大的数据集,明白这些数据集是怎样产生的,知道怎样把各种数据集联系起来,且懂得解释它们。

Figure 1. 深入挖掘数据 (JDHancock 摄)

波音特新闻大学(Poynter”s News University)开设了针对新闻工作者的数学课程,帮助他们去理解诸如比例变化和平均数等概念。有趣的是,与此同时,在距离波特因学院不远的佛罗里达州的小学里也面向5年级的学生(10-11岁的孩子)开设涵盖同样知识的课程作为必修课

这些新闻从业者急需的数学知识竟然来自高中之前的课程,可见如今新闻编辑部的数据素养有多欠缺。这是个大问题。如果一个数据新闻从业者连什么是“置信区间”都不知道,怎么去利用全球气候变化的系列数据呢?如果一个数据新闻记者连中位数和平均数都无法区分,怎么写关于收入分配的报道?

当然,一个记者不需要为了更高效率地处理数据而去专门拿一个统计学的学位。不过,如果掌握一些数据处理的小技巧,那么,他们面对数字的时候会从中挖掘出更有价值的信息来,进而写出更为出色的报道。正如马克思·普朗克学院教授杰德·吉仁泽所说(Gerd Gigerenzer),如果缺少洞察,那么再好的数据处理工具也无助于新闻质量的提升。

所以,接下来,你只需要问三个简单的问题,即使你在数学或者统计学知识方面有所欠缺你也可以成为一名老练的数据记者。

1. 数据是怎么被收集的?

惊人的GDP增长

伪造数据是利用重大数据出风头的捷径。这听起来毫不稀奇,但正如GDP数据通常被人们评论的那样,数据很可能是假的。前英国大使卡瑞吉·默里在其著作《撒马尔罕城谋杀》中称,乌兹别克斯坦的经济增长率受制于地方政府和国际经济体之间的紧张谈判。换句话说,它与地方经济没有任何关系。

GDP被作为首要经济发展情况参考指标,是因为政府需要用它来监控自己的主要收入来源——增值税。一旦当一个政府不靠增值税提供资金,或当它不公布财政预算时,就没有采集GDP数据的理由了,并且通过伪造GDP数据,国家会看起来富足繁荣。

犯罪率永远在增加

《国度报》报道称,“`西班牙的犯罪率上升了3%。”RTL电视台说,布鲁塞尔正在打击非法侨民和吸毒者犯罪。这类基于警方统计资料的报道很常见,但关于犯罪的更多情况,它没有反映出来。

我们可以相信,在欧盟内部,数据没有被篡改。但警方应对犯罪发生的诱因做出更多回应。比如,当工作业绩与打击犯罪率挂钩时,警察就被鼓励尽可能多地汇报不需要调查的犯罪事件。这类罪行之一就是吸毒。从而,这就解释了为什么在法国与毒品相关的犯罪在过去15年中翻了四倍,但毒品消耗量却不变。

你能做些什么?

当怀疑一个数字的可信度时,往往要进行反复检查,就像你寻找数据时那样——就算它引用自官方。在乌兹别克事件中,给在当地居民打个电话就完全足以证实数据的可信性了(“问问该国是不是像官方数字显示的(那样),(感觉像是)比1995年时富裕了3倍”)。

针对警方数据的可信性,社会学家常常会进行受害者研究。在这个过程中,他们会询问人们是否遭遇犯罪事件,以此来验证警方数据的真实度。这些研究所得数据要比警方数据更平稳。因此,也许这就是它们上不了头条新闻的原因。

虽然其他检验方法可以让你准确评估数据的可靠性,比如本福德法则(Benford”s law),但最重要和有效的方法还是你自己的批判性思考。

2. 我们应该从中学到什么?

夜里工作会使多发性硬化症的风险加倍

相信一些理智的德国人在读了本篇新闻这个标题后都会停止在夜里工作。但这篇文章最后并没有告诉我们真实的风险是什么。

1000个德国人中,只有一个会在有生之年患上多发性硬化症。假设现在,如果这1000个德国人都上夜班,那么多发性硬化症患者的数量将上升到2个。因为上班时间改变而增加的患多发性硬化症的风险是1/1000,不是100%。所以,当你在考虑是否接受一份工作时这个信息或许更有用。

平均15个欧洲人里就有一个是彻底的文盲

上面的标题看起来很唬人,但是它也绝对是真实的。在50亿欧洲人中,有3,600万可能都不识字。但是,即使文盲数量达到3600万,其比例也仍然低于7%(数据来自欧洲统计局)。

在采用平均值的时候,要时刻思考“是什么的平均值?” 涉及的基数是同质的吗?例如,非均匀分布的样本就解释了为什么大多数人的驾驶水平都高于平均值。很多人一生都没有或仅出过一次事故。但是,几个鲁莽的司机制造了大量事故,就会推高事故的平均值,使其高于大多数人的经历。对于收入分配也是同样的道理:即,大多数人的收入低于平均值。

你能做些什么

随时注意数据分布和基数比率。通过检验其平均值和中位值,以及靠众数(分布中最常见的数值),来进行数据洞察分析。就像在多发性硬化症报道的例子中,分辨出哪种数据更重要,就能更容易地配合主题合理运用数据。最后可知,从本盏率的角度进行报道(1000个中有1个)比用百分比(1%)更易于读者理解。

3. 信息有多可靠?

样本量的问题

萨拉戈萨出资的<Diaro de Navarra>公布的一份调查称“`80%的人对司法系统不满意。”仅仅从4.6千万西班牙人中找了800名受访者进行调查,怎么能做出这一推断?这一数据明显被夸大了。

在对大量人口进行研究时(数以千计),要控制误差率低于3%,只需要不到1000的抽样人口。这意味着,如果你找完全不同的样本重新调查,10次中有9次,你得到的结果和你最初得到的结果之间的误差不会超过3%。统计学是很有用的东西,而且在狡猾的调查中,抽样出来的样本量几乎不会受到质询。

喝茶能降低中风的风险

关于喝茶益处的文章司空见惯。《德国世界报》上的这篇短文称,茶叶能完全地降低心肌梗塞风险。虽然一些人认真研究茶叶的功效,但很多研究没有考虑到生活方式的因素,例如减肥、消遣或运动。

在大多数国家,茶是有保健意识的上层人的饮料。如果研究者不能在对茶的研究中考虑进生活方式的因素,那么他们能告诉我们的就只是“富人更健康,原因可能是他们很可能喝了茶”。

你能做些什么

在有关茶的报道案例中,在很多情况下,相关性和误差背后的数学规律同样适用。但如果研究者不寻找相互关联的因素(例如喝茶与做运动的联系),他们的研究结果将毫无价值。

作为一名新闻工作者,去挑战一项研究的数值例如样本量的结果毫无意义,除非严重怀疑数据的可信性。但是,观察研究者是否考虑了相关信息则很容易做到的。

尼古拉斯·凯瑟-布瑞尔(Nicolas Kayser-Bril),Journalism++