数据新闻手册 中文 2.0
读取...
Custom Search
Web
 
 
 

Mapa76 黑客马拉松

2011年4月,我们启动了“黑客/骇客”(Hacks/Hackers)布宜诺斯艾利斯大会。我们举办了两次初步会面交流,来宣传扩大记者和软件开发者之间合作的想法,每次会面都有120至150人参与。第三次会议是在罗萨里奥(Rosario),距离宜诺斯艾利斯300公里,在这场数字新闻的会议上我们举行了一场8个人30小时的“黑客马拉松”。

在这些会议中,我们一直重申的主题是希望从网络上获取更大量的数据,然后用视觉的方法再现出来。为了协助实现这一点,一个叫作“Mapa76.info”的项目应运而生,它帮助用户提取数据,然后通过地图和时间轴显示出来。但这并非易事。

Figure 15. Mapa76 (黑客/骇客 布宜诺斯·艾利斯)

为什么叫“Mapa76”呢?1976年3月24日,阿根廷发生了一场政变,一直持续到1983年。在那段时间里,约有3万人失踪,数千人死亡,还有500名孩童因为军事独裁不得不在牢狱中降生。30多年后,承认在军事独裁时期犯有反人道罪行的人数达到了262人(2011年9月)。现有仍有14个案件正在审理,7次案件已有明确的开庭日期。有802人仍牵连于各种公开审理案件中。

这些控诉产生了大量的数据,对研究者、记者、人权组织、法官、检察官来说以及其他人来说都是很难处理的。数据的产生是分散式的,调查人员通常不会利用软件工具去协助他们解读这些数据。最终这也意味着:事实往往被忽略,假设往往被限制。“Mapa76”是一个调查工具,为新闻、法律、审判和历史研究不同目的提供开放的信息接入。

为了准备这场黑客马拉松,我们创建了一个平台,开发者和记者在活动当天可以通过这个平台来进行协作。马丁·撒塞尔(Martin Sarsale)开发了从简单的文本文档中提取结构化数据的一些基本算法。我们也通过“文档云”(DocumentCloud.org)项目使用了一些图书馆资料,不过并不多。这个平台会自动从文本中分析和提取姓名、日期和地点——这可以让用户去发现不同的案件的重要事实(如生日、逮捕的地点、所谓的消失地点等等)。

我们的目标是提供一个阿根廷军事独裁审判数据的自动提取平台。我们希望找到一种方法,基于成文的证据、申辨和判决,可以自动(或至少半自动的)展示从1976年到1983年的与案件有关的重要数据。所提取的数据(姓名、地点和日期)被收集和储存起来,可供研究者分析和调整,也可以使用地图、时间轴和网络分析工具去深入探索。

这个项目让记者、调查者、检察官和证人追溯一个人的人生故事,包括他们被囚禁的过程和接下来的失踪或释放。信息缺失的地方,用户可以通过梳理大量的文档来寻找,这也可能与案件存在可能的联系。

为了这项编程马拉松,我们通过“黑客/骇客”(Hacks/Hackers)布宜诺斯艾利斯大会发布了一个公告——这个群组当时大约200个成员(写作此文之时,大约已有540个成员)。我们同时联系了许多人权组织。参与此次会议的大约有40人,包括记者、相关组织、开发者和设计者。

“黑客马拉松”期间,为了进展顺利,我们明确了不同类型的参与者可以独立完成的任务。举例来说,我们要求设计者设计一个将地图和时间轴结合起来的界面;我们要求开发者考察不同的提取结构化数据的方式,并且研究消除姓名歧义的算法;我们要求记者研究某个人身上究竟发生了什么,并且比较故事的不同版本,以及梳理文档来讲述某个案件的故事。

“黑客马拉松”遗留的主要问题也许是:这个项目非常宏大,我们的短期目标又相当高,而协调志愿者之间松散的网络比较困难。几乎参与这个项目的所有人白天工作都很繁忙,其中有许多人会参加其它的活动和项目。黑客/骇客布宜诺斯艾利斯2011年共举行了9次会议。

这个项目现在还在正常进行中。核心小组有四个成员,再加上十几个协作者。我们有一个公共邮件列表GitHub代码仓库,任何人可以通过它们参与到这个项目中来。

马里亚诺·布雷曼(Mariano Blejman),黑客/骇客Hacks/Hackers 布宜诺斯·艾利斯