开放政府数据无疑对促进社会创新,带动大数据产业的发展具有积极推动作用。但作为公共机构,发布数据集包含哪些内容才能使其得到更好的推广和再利用?法国国家开放数据办公室Etalab对此进行了研究,并公布了《开放数据发布指南》,以便规范政府开放数据的发布。
Etalab办公室在《开放数据发布指南》中指出,发布数据集应尽量包含以下11项内容:标题、描述、数据集涵盖的地理范围及颗粒度、数据集时间范围和频率、开放协议、关键词、可视度、资源、数据发布部门、联系方式和主题,具体解析如下:
一、标题(强制要求)
标题是数据内容的“点睛”之处,要求表达清晰、准确并尽可能简短。标题中不可包含时间和地理信息。
标题范例:“地方税收”、“矿业公司环境影响情况”;标题不妥的例子:“2012年洛林地区税收”、“在地方领土整治评议会更新评定标准框架下的矿业公司环境影响情况”。
二、描述
结合数据的事件、关键词、信息来源、方法论等进行描述。做好数据描述,应首先考虑网民会从什么角度搜索数据。譬如,对于环境影响方面的数据,描述内容可包括单位(碳/吨)、环境外部性、矿业对环境影响的主要负面因素和积极因素等。
三、数据集涵盖的地理范围及颗粒度
在此项下可描述数据集涵盖的地理范围,并指出数据集颗粒度。颗粒度可帮助明确数据集的属于大范围(譬如,地理范围-法国,颗粒度-法国),还是小范围(譬如,地理范围-大区、颗粒度-市镇)。
四、数据集时间范围和频率
与地理范围类似,数据集的时间范围可帮助确定数据集的时间跨度。假如是同一年的数据,应指出当年第一天和最后一天的日期;假如以学校上课时间为基准,时间范围即为确定为“**年9月1日至**年6月31日”。
数据集频率是指时间范围内数据的统计周期,譬如“月”、“年”等。
五、开放协议
一般情况下,数据公布者选择的是“开放许可协议(Open Licence)”,仅在数据集中公布的再利用数据可选用“关闭协议”。
六、关键词
关键词有利于横向搜索,需要注意的是尽可能选择已应用在其他数据集中的关键词,否则孤立的关键词对数据集的搜索帮助微乎其微。
七、可视度
数据集可根据需要设置成“公开”或“私人”。
八、资源
每个数据集至少公布一个资源,假如数据集包含了多个部门、多个年度,亦可公布多个文件。但是,为方便数据再利用,文件内容尽可能密集。譬如,尽可能在同一个文件中包含一个部门和多个年度,而不是分成100个仅包含一个部门和一个年度的文件。
每个资源应设置标题,标题中英标注数据标准、单位、颗粒度等,而不是简单地复制数据集标题。标题范例:法人、部门、年度文件;部门、千欧、碳/吨数据文件;城市、道路类型网站等。
此外,还可对资源进行描述,描述的内容可包括:方法论说明(调查、问卷、财务数据)、数据内容精确(文件包含几个栏目)或其他信息。
同时,若数据发布者本身有门户网站,建议标注数据链接,可减少数据更新工作量。
九、数据发布部门
可标注数据由哪个机构发布。
十、联系方式
可标注数据发布者电子邮件地址。
十一、主题
与关键词类似,主题有助于数据集分类,譬如农业、文化、社会、土地等等。一个数据集可包含一至两个主题。
资料来源:法国开放数据门户网站
编译:工业和信息化部国际经济技术合作中心 张靖
(责任编辑:meng)