数据新闻手册 中文 2.0
读取...
Custom Search
Web
 
 
 

阿根廷的公车补贴

从2002年起,阿根廷的公交系统补贴数额就开始呈指数上升,数字每年都会出现破表式刷新。但在2011年,阿根廷新政府在大选胜利之后宣布,从同年12月起开始大刀阔斧地削减公车补贴。与此同时,国家政府决定将地方公车线和地铁线的管理权转交给布宜诺斯·艾利斯市政厅。由于对地方政府的公车补贴转移并不明确,再加上地方政府缺乏足够的资金来保证交通系统的安全,布宜诺斯·艾利斯市政厅断然拒绝了这一决定。

事情发生时,我和阿根廷《国家报》(La Nación)的同事首次见面,并讨论如何开展我们的数据新闻行动。负责金融版区的编辑表示,若从交通部所公布的补贴数据入手,我们将会遇到一个不小的挑战,因为其格式和术语十分晦涩。

阿根廷杂乱无章的公交系统每天影响到5,800,000位乘客的生命安全。延误、罢工、车辆故障甚至是事故早已成为家常便饭。因此,我们决定刨根问底,调查出阿根廷公交系统补贴到底花落谁家,并且通过“交通补贴探查器”(仍在制作中)使每位阿根廷公民都能轻而易举地了解这一补贴数据。

Figure 21. 交通补贴探查器 (La Nación)

首先,我们开始计算每家公交公司每月会从政府得到多少补贴。为此我们仔细查阅了阿根廷交通部网站上公布的有关数据,这些数据包括从2006年开始政府每月对1,300多家公交公司的现金支付金额,数据在400项PDF文件中予以记录。

Figure 22. 各公交公司补贴数额排名 (La Nación)

我们联手一位资深程序员开发了一个数据抓取工具,它能自动进行常规下载,自动将PDF文件转换成Excel电子表格和数据库文件。我们正在使用抓取到的含超过285,000条记录的数据集来进行调查和可视化工作。除此之外,我们也正在努力将这些数据制作成机器可读格式,以供每位阿根廷居民再利用和分享。

下一步,我们开始调查一辆公交车平均每月从政府获得多少数额的维修保养费用。因此,我们登录了另一个政府网站,即全国交通监管委员会(CNRT)。该机构负责监管和规范阿根廷全国的交通系统。我们在网站上找到了公交公司的名单,这些公司拥有车辆共计9,000部。之后,我们制作了一个数据标准化工具,来核对各家公交公司的名称与信息,并将两大数据集记录前后比照。

要想使工作进一步继续下去,我们需要得到每辆车的车牌号。我们在CNRT网站上找到了每家公司每条公交线路每辆公车的牌照名单。阿根廷车辆的车牌号是由字母和数字组成的,从中就能得知每辆车的车龄。举例来说,我的车牌号是IDF234,字母“I”就与2011年3月-4月前后对应。我们反向分析处理了所有名单中公交公司的汽车牌照,得出了每家公司的平均车龄,从而显示出每家公司所获得的补贴金额,并基于每家公司汽车的平均车龄对补贴金额进行了比较。

在工作进程中,政府公布的包含所需数据的PDF文件内容出现离奇的变动,不过好在文件的URL连接和名称并未更改。其中出现变动的一项是一些PDF文件中的纵向“总计”列,这一变动使我们无法核对2002到2011整个调查时期的补贴总额。

我们将这一案子提交到了一家由波士顿黑客所组织的黑客马拉松(hackathon)那里,开发员马特·佩里(Matt Perry)十分慷慨的为我们建立了一个所谓“PDF间谍”的软件。这一应用最终荣膺该事件中“最引人注目”软件之殊荣。神奇之处在于,“PDF间谍”会时刻瞄准并监视载有PDF文件的网页,一旦PDF内容出现变动,间谍软件会即刻进行核对检查。“再也不要愚蠢地相信政府所谓的‘透明度’了,”马特·佩里写到。

Figure 23. 将每家车队车龄与车队从政府得到的补贴金额进行比较 (La Nación)

都有谁参与到这个项目的工作中?

七名记者,若干程序员和一位交互式设计师联手参与了为期13个月的研究调查活动。

此项目中我们所需的人员技能:

  • 记者需了解公交系统补贴的运转流程和风险所在;熟稔公交公司市场。

  • 程序员需深谙网络数据抓取、解析和标准化数据,以及能将数据从PDF格式转换为Excel电子表格等技能。

  • 统计师需进行数据分析和不同计算。

  • 设计师需制作交互式数据可视化。

我们用了哪些工具?

我们运用了VBasic应用,Excel Marcos,Tableau Public,Junar Open Data Platform,Ruby on Rails,谷歌图表API以及MYSQL来制作补贴探查器。

该项目的完成带来了深远影响。网络的浏览点击率达数万次,除此之外,调查过程和结果也公布在了《国家报》的纸质版的头版头条。

第一个数据新闻项目的大功告成助了我们一臂之力,使我们有理由在国内建立起一个数据运转中心,从而进行调查性报道,并向公众提供服务。Data.lanacion.com.ar因此应运而生,并成为了我们以机器可读格式发布涉及到公众利益的各种话题数据的一个重要平台。

安赫利卡·佩拉塔·拉莫斯(Angélica Peralta Ramos), 阿根廷国家报(La Nación)