数据新闻手册 中文 2.0
读取...
Custom Search
Web
 
 
 

卫报数据博客的幕后

当我们启动数据博客(Datablog)的时候,并不知道是否会有人对这些原始数据、统计和可视化感兴趣。就像我办公室里一些颇有地位的人问的一样:“为什么会有人想要这玩意儿?”

《卫报》数据博客(Guardian Datablog)——目前由我编辑——曾经是一个小小的博客,专门提供我们新闻报道背后的完整数据集。现在,它包括一个首页 、各国和全球范围的发展数据的搜索引擎、网络上和卫报的视觉艺术家们的数据视觉化作品,以及探索公共开支数据的工具。每天,我们使用谷歌电子表单(Google spreadsheets)来分享完整的数据。我们分析这些数据,并将之可视化。之后,我们用这些数据为报纸和网站提供新闻故事。

积累数据集,与数据“搏斗”,使它可以让当天的新闻报道变得有意义—.作为一名与图形打交道的新闻编辑和记者,这是我一贯工作的合乎逻辑的延伸。

之前那个被问及的问题已经有了答案。对于公共数据而言,这几年简直是不可思议。奥巴马 将公开美国政府的数据错误作为其第一个法案。紧随其后,一系列的政府数据网站如雨后春笋般在全世界建立起来:澳大利亚,新西兰,还有英国政府的Data.gov.uk。

我们已经有了整个不列颠最非比寻常的数据新闻报道——议员开支丑闻案。这一事件的余波使得威斯敏斯特决意每年都发布海量的数据。

我们已经有了一次大选,大选中所有的主要政党都同意数据透明化,要将我们的数据“金库”向全世界开放。我们还有报纸发表专栏文章,为督促财政部发布综合在线信息系统(COINS,Combined Online Information System)数据库作坚持不懈的努力。

与此同时,网络上涌现出越来越多的数据也说明了更多的人开始对新闻背后的原始事实感兴趣。我们启动数据博客(Datablog)的时候,以为读者应该是那些制作应用程序的开发者们。实际上,恰恰是广大的普通读者更想深入了解各种数据,包括碳排放、东欧移民、阿富汗发生的死亡事件,甚至是甲壳虫乐队在他们的歌里面使用“爱(Love)”的次数(613)。

Figure 5. 卫报数据博客的制作过程示意图(卫报)

渐渐地,新闻报道中开始反映并加入数据博客的工作。我们众包了458,000份与议员花销的相关文档,并详尽分析了议员们所声称的那些数据。我们帮助用户们仔细探索财政部的开支数据库,并发布新闻报道背后的数据。

不过真正改变数据新闻的事情发生在2010年的春天,它开始于一份电子表单:92,201行数据,每一行都包括一条发生在阿富汗的军事事件的详尽信息。那是维基解密战争档案,以上内容便是它的第一部分。它还有两部分:伊拉克和密电。档案的前两部分有个官方的名称:美国重要军事行动数据库(SIGACTS: the US military Significant Actions Database)。

新闻机构一贯讲究“地缘”,也就是跟编辑部的接近程度:如果离编辑部近,你就更容易提议故事并参与其中进程;与之相反,如果人家看不到你,他也就不会想到你。在维基解密之前,我们与图形部门在一起,跟编辑部在不同的楼层。维基解密事件之后,我们就跟编辑部做起了邻居,待在同一个楼层。这意味着我们能够更容易地向编辑提出想法。新闻室另一端的记者们也会想到让我们为新闻报道提供帮助。

不久之前,记者还是官方数据的看门人。记者们会撰写跟数字相关的报道,发布给对原始的统计数据毫无兴趣的公众。而今天我们会想着让原始信息进入报纸,这在过去简直就是诅咒。

现在情况已经截然不同。我们的角色正在向解释者转变——帮助人们理解数据。有时候我们发布数据仅仅是因为数据本身很有趣。

但是,没有经过分析的数字仅仅是数字而已,这恰是我们的价值所在。当英国首相声称2011年8月发生的暴乱与贫困无关时,我们在有贫困指数的地图上标注骚乱者的地址,以此来揭示这份声明背后的真相。

所有的数据新闻背后都是一系列作业流程。随着新的工具与技术的出现,它也在不断变化。有些人说这项工作要跟超级黑客一样,自己编写代码,然后被淹没在SQL中。你确实可以这么干,不过我们的很多工作其实仅仅使用了Excel。

首先,我们定位数据,或者从不同的渠道获取数据,比如说突发新闻、政府数据、记者的调查等等。接着,我们开始考虑用这些数据我们能做什么——我们需要把它跟另外一个数据集整合到一起么?如何展示数据随着时间的变化?电子表单通常会被整理得非常规整——无关的数据栏和奇怪的合并单元格没有丝毫价值。我们通常还期望数据文档不是PDF——对数据来说,这可谓人类已知的最差的格式。

通常官方数据会附带官方代号。每所学校、医院,每个选区和当地政府,都会有独一无二的识别代号。

国家同样也会有代号(比如说,英国的代号是GB)。它们非常有用,因为当你想将不同的数据集整合到一起时,你会惊奇地发现它们的单词顺序与拼写方式居然会如此不同。比如说,Burma、Myanmar都是缅甸。又比如说,从乔治亚州到西维吉尼亚州,美国一共有11个费耶特郡(Fayette County)。代号可以让我们在比较数据时避免牛头不对马嘴。

流程的最后部分是输出结果。它最后是一篇报道,还是图形,亦或可视化?要使用什么工具?我们最为常用的工具都是免费的,它们简单易用,让我们可以很快就有所产出。更为精心设计的图表则由我们的开发团队制作。

我们通常使用Google charts来制作小型的线形图和饼图,用Google Fusion Tables来快速创建地图。

这一切看上去是新奇事物,不过其实不是。

1821年五月5日,周六,曼切斯特《卫报》发行了它的第一期报纸。就跟当时的所有新闻纸一样,新闻被印在封底——头版头条是一副寻找走失的拉布拉多犬的广告。

在故事和诗歌摘录中间,“事实”居然占据了封底三分之一的位置。那是一个署名“NH”的表格。该表格全面地、“前所未有”地向公众呈现了就读当地学校的各项花费。

NH希望他能够公开发布他的数据,要不然其中的内容就要交给没有受过训练的事务员来报道。他认为:“它所包含的信息极具价值;假如不知道教育………的普遍程度,不清楚当下环境和未来的社会进程,我们哪怕最好的观点都会有所纰漏。”也就是说,如果人们连发生了什么都不知道,我们的社会如何变得更好?

为我们正在所尝试做的一切找不到更好的理由了。曾经只是在封底的东西,如今可以成为头版新闻。

西蒙·罗杰斯(Simon Rogers),卫报