问题标签 [opendata]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
241 浏览

csv - awk overwrites $NF.... with some input files

I have a .csv file with some addresses and admin codes. I want to sort it on the final column (UK postcode). I'm trying to reorder the file by moving the final column to the beginning and then using sort, but I'm running into an odd sort of issue. Here's some of the data:

I can get the final column:

But if I print anything else on the line, it overwrites it.

Clearly not useful. I've tried using a test file that I just edited and don't see this behaviour, so it has something to do with this particular file. Any suggestions? Is there a known issue with some newline characters? I'm working on a Mac, and I suspect the file comes from a PC. It's NHS data from the UK.

0 投票
1 回答
717 浏览

rdf - 重复三元组​​ RDF

我有一个问题问你。

我想删除文件 RDF 中的重复三元组​​。例如,我有这两个 RDF 三元组:

三重 1=

  • rdf:描述 rdf:about="http://Group/row1"
    • vocab:regione 坎帕尼亚 /vocab:regione
    • vocab:nome 那不勒斯 /vocab:nome
    • vocab:codice 不适用 /vocab:codice
  • /rdf:描述

其中 vocab:regione、vocab:nome 和 vocab:codice 是谓词。

三重 2=

  • rdf:描述 rdf:about="http://Group/row1"
    • vocab:nome 那不勒斯 /vocab:nome
    • vocab:codice 不适用 /vocab:codice
  • /rdf:描述

其中 vocab:nome 和 vocab:codice 是谓词。

在这种情况下,“Triple2”包含在“Triple1”中。是否应该删除“Triple2”?

提前致谢。

0 投票
1 回答
132 浏览

data-cleaning - openrefine 标志更改的行

我正在使用 openrefine 清理 excel 数据集。我有大约 70 次操作,我一直在剪切和粘贴不同的数据集。我维护一个记录 ID 并导出到一个新的 Excel 表。然后我使用记录 ID 重新加载工作表。

它运行良好,但即使只有少数记录发生更改,我也必须重新加载整个数据库。有没有一种简单的方法来标记更改的记录,所以我只将更改的记录导出/导入到应用程序?

我可以轻松地在 70 个操作中添加一个标志来标记仅更改的记录吗?

0 投票
0 回答
304 浏览

google-maps-api-3 - kml 开放数据文件可以在 Google Earth 中看到,但在 google map api 应用程序中看不到

我已经从法国城市的开放数据网站下载了 kml 文件(这个 kml 文件可以在 Google 地球中正确看到),但我在 Google Map APi 的应用程序中看不到它(我使用对象“google.maps .KmlLayer”,适用于我自己的 kml 文件)

这是下载的文件

http://www.paysagesdefrance/kml/theatre.kml

你明白为什么吗?你有解决我的问题的方法吗?

0 投票
1 回答
478 浏览

exception - 安装 ckanext-archiver 时没有名为 celery 的模块

我使用 CKAN 作为我的开放数据门户,并尝试按照https://github.com/ckan/ckanext-archiver上的说明安装存档器扩展。但是,我遇到了这个错误,在我的 ckan 配置文件中启用存档程序后我无法解决。

我已经从激活的 virtualenv 和所需的库中安装了扩展。

感谢是否有人知道如何解决这个问题。谢谢。

0 投票
1 回答
776 浏览

rdf - 如何使用 JENA 和 SPARQL 从具有地点名称的 Geonames 获取地点(城市、省、国家/地区)信息?

有人可以帮助我对 Geonames 数据库进行 SPARQL 查询以查找一个地方的信息,即人口吗?我只有那个地方的名字。我正在使用耶拿。

0 投票
1 回答
127 浏览

xml - 首选命名空间前缀列表?

XML 和链接数据中是否有任何首选名称空间缩写列表?vann:preferredNamespacePrefix描述

在 XML 文档中使用此词汇表中的术语时使用的首选名称空间前缀,

但我很难找到一份完整的清单。下面有一些统计

但我希望有一个更完整的东西。

注意:我已经下载了http://prefix.cc,但也有像dbpedia这样的情况,其中一个前缀被多个命名空间共享。我想要一个 1:1 的映射,例如在 dbpedia 的情况下,我宁愿将它们分开,就像在 dbpedia 本身上一样,例如Berlindbpedia,wheredbppropdbpedia-owl都是不同的。

answers.semanticweb.com并没有真正的答案。

0 投票
1 回答
370 浏览

opendata - 如何查询 OpenData 端点列表

如何使用 Socrata 查询获取 OpenData 站点提供的端点列表?

0 投票
1 回答
921 浏览

r - 查找 R 中所有可能对的频率

我正在使用 R 处理药物和反应的大型数据集。目前,我将数据结构化为一个非常高的数据框,其中列出了报告 ID 号、药物名称和报告的反应。如您所知,ID 与药物以及药物与反应之间存在一对多的关系。

请记住,这个数据集比我可以在这里复制的要大得多,我想知道如何找到哪些药物对会导致哪些反应以及频率如何

最重要的是,我对如何处理这样的问题很感兴趣。数据结构是否正确?我应该阅读哪些概念或库?

这是一些真实数据的链接:https ://www.dropbox.com/s/kzx4mpyytbo9zil/query_result.csv

在我小小的大脑中,最终结果看起来像这样......

Drug1 和 Drug2 是整个数据集中出现频率最高的药物对。“药物对”定义为具有相同报告 ID 的两种药物的任意组合。上面的示例输出将被解释为“第 1 行有 298 个唯一的报告 ID,其反应是肝功能衰竭。”

0 投票
2 回答
5676 浏览

xml - 将 xml 转换为 json 以将文件处理为 Bigquery

我想将 stackexchange 原始数据处理成 BigQuery,但首先数据使用 7z 压缩格式,所以我解压缩数据以将其移植为 gz 格式,但内部文件是 xml。所以我需要将文件从xml转换为json。有任何想法吗?我使用 p7zip 解压缩并使用 xml2json 尝试移植 xml 文件但不起作用。

我用 xml2json xml2json -t json2xml -o xxx.xml yyy.json

使用 xml-json 的其他测试 **David 推荐

通过以下命令使用来自 stackoverflow.com-Users.7z 的此文件 Users.xml(大小 895M):xml-json Users.xml row > Users.json