数据的使用与分享:大纲,细则和现实
这一章节我们将快速浏览与数据和数据库有关的法规,以及如何利用容易获得的公开式许可和合法工具公布数据。切不要让以下任何状况消磨你对数据新闻的热情。法律对数据的限制既不是你的绊脚石,也无法阻碍别人使用你发布的数据。
不言自明的是,数据的获得并不容易。在数据开放的网络时代之前,即使找到了自己需要的数据集,你还是需要向拥有它的人索取一份副本,可能是纸质,也可能需要你亲自拜访。而现在,获取副本的工作只需通过电脑便能完成。虽然概念上很类似,但是你已经拥有了数据的版权,而那些数据的原创或发布者却什么也没做,甚至不知道你已经下载了一份副本。
那么通过程序(俗称“`抓数据”)和服务条款(ToS)下载数据时该怎么做?想想前面讲的:你的浏览器就是一个这样的程序。服务条款是否只允许特定程序获得数据?如果你有大量的时间和金钱,当然可以选择去阅读此类文件或者咨询律师。但在通常情况下,不要表现得素质低下——如果你的程序攻击了别人的网站,你会被该网站屏蔽,咎由自取。如今网络上有大量访问数据和抓数据的行为,如果你计划这么做,研究一下诸如ScraperWiki等网站上的例子会是个不错的开始。
一旦你拥有了感兴趣的数据,便可以查询、钻研、分类、视觉化,利用数据副本进行相关性或任何其他类型的分析。你还可以发布引用了其中任何数据的分析。在言论自由的情况下,``事实是免费的''这个标语言符其实。但对于需要考虑很多合法性问题、甚至是掌控数据层面的人来说,这可能只是一个标语而已。
身为一个优秀的或渴望优秀的数据新闻从业者,如果你想要发布的不只是包含事实和数据的分析,还有在分析过程中援引的其他数据,应该怎么做呢?当然,你可能只是正在监护数据,还并没有进行任何分析——这点很好,因为这个世界需要数据监护。如果你打算使用其他实体收集来的数据,也许会遇到意外的麻烦。(如果你亲自组建了数据库,那就阅读下一段,当作看下下段“数据分享”的动力吧!)
如果熟悉版权对创意作品的限制使用,你会知道,当版权所有者未对某作品授权(除非你的作品属于公共领域,或你在例外允许的情况下使用,或符合“合理使用”的范围),版权所有者可以强迫你停止使用和发布其作品。尽管事实是免费的,即使与其相关的法律比创意作品版权的法律有着更多的变化,事实收集却很相似地被限制 。简而言之,数据可以作为创意作品受版权制约。在很多司法管辖区内,仅凭“`辛勤搜集原则(sweat of the brow)”组建一个数据库,即使用毫无原创性的方式,也可以获得版权。尤其在美国,有更高的“最低原创性”标准(可以参考费斯特出版公司有关电话薄版权纠纷的经典案例)。但在某些地区,也存在着从版权中分离出来用以规范数据的“数据权”(两者实则有很多交集,特别是在版权的获得几乎不需要原创性的时候)。其中最知名的就是欧盟对数据库的“特殊权利保护”(拉丁语sui generis),如果你在欧盟国家发布来自其他实体的数据,一定要确认是否拥有相关许可。
这些限制显然不是培养数据新闻生态系统的最好方式,对社会普遍来说也没有好处(在“特殊保护权利”制定之前,社会科学家曾警告欧盟这一点,之后也被研究证实是正确的)。幸运的是,作为数据库的发布者,你可以通过事先准许将这些限制移除(假使其中不包含你无权进一步授权的部分)。你可以通过公开式许可或贡献给公共领域而发布数据——像许多程序员通过免费和开放资源许可发布代码一样,这样别人就可以直接取用(数据新闻不仅是数据,也包含代码;发布数据的同时也要发布代码,这样你的数据和分析才有再生价值)。公开数据有太多好处——比如,受众可以利用你的数据创造新的视觉化或应用方式并与你建立链接,就像英国卫报在Flickr上建立的数据视觉化群组;此外,你的数据还可以和其他数据结合起来,令你和读者更深入了解一个话题;别人利用你的数据做的事可能引导你发现新故事以及新故事或其他数据项目的构思。这些做法必会给你带来声誉。
当你意识到在公共许可下发布数据是必需的,问题就变成了——哪个许可?能回答这个棘手问题的,一般是你在作品中借鉴过数据和分析的项目或组织,或者你想要将作品贡献给的人或组织——简而言之,沿用它们的许可。如果你想要走得更远,那就从免费和公开的许可组合开始,意味着任何人都拥有被用于任何用途的许可(可能要求署名和相同方式分享)。像Free Software Definition(自由软件定义)和Open Source Definition(自由资源定义)之于软件,Open Knowledge Definition(开放知识定义)被用于包括数据在内的任何其他知识资源,用以定义自由作品的属性和开放式许可允许用户做的事。
你可以前去开放知识定义的网站查阅符合一系列被认定的许可。总结来看,基本上有三个等级的公开式许可:
- 贡献给公共领域
-
也称最大化许可——使用其作品无需任何条件.
- 仅在许可或署名情况下发布
-
对作品进行署名是唯一实际条件.
- 对称版权、互惠或相同方式共享许可
-
要求发布被修改作品时使用与原作品相同的许可。
如果你在公开式许可下使用别人发布的数据,可以把以上几点当作如何满足公共式许可条件的简要指南。你可能遇到的从Creative Commons到Open Data Commons和各级政府机构的大多数许可,都会用大纲的形式让你更容易地了解到这些实际条件。通常情况这些许可会在下载数据(或者“抓数据”,理所应当的,网页里也包含数据集)的网页上显示,或者在数据文件里的显眼位置,形式不同而已。在你公开自己的数据时,也要如此标示。
回到最初的问题,万一你需要的数据无法通过网络获得,或者受制于某种访问控制?你可以考虑,除了为自己争取访问权利之外,也要争取这些数据对全世界公开以得到再利用。你可以指点他们,一旦数据被公开,将会有怎样伟大的事情发生。
与世界分享可能会令你想到,对于某些数据而言,隐私、其他方面的考虑和规范可能将发挥作用。的确,仅仅因为公开的数据降低了很多技术、版权和版权相关的门槛,并不意味着你不需要遵守其他适用的法律。但这些情况古而有之。当你出于常理驱动去做一项研究时候,你会发现新闻从业者拥有庞大资源,以及不时存在的保护措施。
祝你好运!但是相比于控制(并不高的)法律风险,你更需要补充关于数据新闻项目中其他方面的知识与技能。
— 麦克·林克斯维耶(Mike Linksvayer),Creative Commons