2

要在 CKAN 数据预览工具上很好地预览数据,要遵循哪些准则?我正在研究 CKAN,并且一直在上传数据或将其链接到外部网站。有些可以很好地预览,有些则不能。我一直在在线研究机器可读性,但找不到任何与 CKAN 有关的资源,这些资源说明了构造数据的正确方法,以便可以在 CKAN 上很好地预览。我希望收集你们所有人对注意事项的回应,以便将来对 CKAN 出版商和开发人员有用。

例如,数据必须采用带有标签的行和列的表格格式。数据必须存储在电子表格的第一个选项卡上,因为其他选项卡无法预览。电子表格不能包含公式或宏。数据必须以正确的文件格式存储(参考我的另一个主题:哪些文件格式可以在 CKAN 数据预览工具上预览?

谢谢!

4

3 回答 3

3

由于 CKAN 是一个开源的数据管理系统,它对数据的机器可读性没有具体的指导方针。相反,您可能想在此处查看当前的数据开放性和机器可读性标准:http: //5stardata.info

英国的 CKAN 实施还包括一组插件,这些插件有助于根据此处的 5 星开放数据方案评估数据的开放性:https ://github.com/ckan/ckanext-qa

于 2014-06-25T06:54:58.927 回答
1

获得良好预览体验的最佳方式是开始使用DataStore。在查看远程数据时,CKAN 必须使用 DataProxy 来尽力猜测数据类型并将数据转换为可以预览的形式。如果您将数据放入不需要的数据存储中,因为数据已经具有良好的结构并且类型将已设置(例如,您将知道此列是日期而不是数字)。

于 2014-07-05T06:53:32.027 回答
1
  1. 检查数据推送日志 - 当您在 CKAN 数据存储中托管文件时 - 加载数据的工具提供日志 - 这些将揭示数据格式的问题。
  2. 在本地存储数据 - 尽可能将数据存储在本地 - 因为存储在其他地方的数据必须通过代理进程 ( https://github.com/okfn/dataproxy ),该进程速度较慢,并且当然受外部站点维护可用性的影响。
  3. 考虑文件大小和连接性 - 保持文件大小足够小,以便在加载到 CKAN 数据资源管理器时不会超时。如果文件在外部托管并且很大并且对文件的访问速度很慢(连接性差或负载过多),您最终会超时,因为代理必须在呈现预览之前读取整个文件。再次在本地托管数据应该意味着更好地控制计算资源的负载并确保数据浏览器始终如一地工作。
  4. 使用开放文件格式 - 如果您使用 CKAN 发布开放数据 - 那么社区通常认为最好以开放格式(例如 CSV、TXT)而不是专有格式(例如 XLS)发布数据。除了增加所有用户对数据的访问 - 并减少数据未正确构建以供预览的机会 - 这还有其他优势。例如,更难意外发布您无意发布的信息
  5. 验证您的数据- 使用CSVKIT等工具检查您的数据是否完好。
于 2014-06-25T13:50:36.450 回答