《卫报》数据博客的众包式数据

Web

Home Chapter: 获取数据 Next: 《卫报》数据博客利用众包的报道奥运票务

《卫报》数据博客的众包式数据

根据维基百科的定义，"众包(Crowdsourcing)是指一种分布式的解决问题和完成工作的做法，通常包括将任务外包给多个人组成的网络，即'大众(Crowds)'"。以下是对西蒙·罗杰斯的采访记录，他在其中介绍了《卫报》数据博客如何通过众包服务，对议员开支丑闻、毒品滥用以及莎拉·佩林(Sarah Palin)的邮件进行的数据挖掘：

有时候，你会拿到大量的文件、统计数字或者文字报告，但你不可能一个人看完全部资料。还有就是，虽然你可能有资料在手，但是却很难看懂或者格式混乱，在这种情况下你也无计可施。这就是为什么众包可以帮大忙。

《卫报》有很多读者，可以说是帮手众多。如果现在有一个有意思的项目，我们需要人来录入数据，就可以让这些读者帮助我们。这是我们在调查国会议员开销时所采用的方法。我们有45万个文件，但时间非常少，几乎干不了什么事情。那除了向读者开放项目，还能有什么更好的方法么？

Figure 12. 史蒂芬·庞德(Stephen Pound)杂项开销的摘要副本（卫报）

调查议员花销的项目中，我们得到了大量的线报。我们知道了比数据本身更多的背后故事。从信息交流方面讲，这个项目是非常成功的。大家真的很喜欢参与进来。

我们现在正在与《MixMag》杂志在一个吸毒调查项目上展开合作，结果也是异常出色。如果从调查人数上来说，这个项目的覆盖面估计要比英国犯罪调查还要大，这真是一个非常聪明的做法。

这两个项目所关注正是大众切实关心的问题，所以大家都愿意花时间参与。我们做过的大部分众包服务其实都是依赖于一些对资料异常感兴趣的人。在调查议员费用的项目伊始，我们收到了大量信息，但这种势头很快就没有了。但有是有人坚持不懈地翻看每页资料，寻找数据中的异常和故事。其中有个人看了3万页。他们知道不少东西。

我们还利用众包来做莎拉佩林邮件的项目。众包再次帮了我们很大忙，帮助我们整理原始信息并且提炼故事。

在提炼故事上，众包在我们的项目中发挥了出色的作用。大家很喜欢参与，而这也让《卫报》'看起来很棒'。但就收集数据方面来看，我们尚无频繁使用众包服务。

一些我们运作得好的众包项目，多半是传统的调查。当你问别人的经历、生活或者工作，他们会很配合，因为对这些问题大家不太可能编故事。他们会说出他们的感受。当我们向大众参与我们的项目工作时，必须设定一个框架，好让大家给出你所能信任的数据。

说到数据的可靠性，我想以前的天气那个项目的结果就非常好。每个问题他们都会找十个人来回答，这就很好确保了数据的准确性。而在调查国会议员费用项目中，为了避免议员给自己脸上贴金，我们尽量减少议员自己上网和篡改记录的可能。但这种情况不可能一直避免。你所能做的只是注意某些特定的URLs，或者看它们是否来自于伦敦的西南城区。所以，想要完全避免这种情况有点难度。分发出去的数据也并不总是可靠的。即使故事很好，但拿不到原始数字的话我们也不敢放心使用。

如果让我给有抱负的数据记者就众包服务收集数据方面提点建议，我会说选题很重要，选择那些大众切实关注的，并且淡出媒体视野后持续关注的事情去做调研。而且，如果你做的东西更像是个游戏，这会更吸引民众参与。我们第二次做议员费用调查项目的时候，就很像一个游戏，大家会有一个一个任务去完成。设计特别的任务确实会有明显的效果。这其中有很大差别。这就像指着山一样的大量资料，然后对大家说“把它们看完”，我觉得这会让你的工作困难重重而且吃力不讨好。所以我想，把整件事儿做得有意思还是很重要的。

— 摘自数据新闻博客的玛丽安·包查特(Marianne Bouchart) 对卫报西蒙·罗杰斯(Simon Rogers) 的采访

Home Chapter: 获取数据 Next: 《卫报》数据博客利用众包的报道奥运票务