问题标签 [opendata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - awk overwrites $NF.... with some input files
I have a .csv file with some addresses and admin codes. I want to sort it on the final column (UK postcode). I'm trying to reorder the file by moving the final column to the beginning and then using sort
, but I'm running into an odd sort of issue.
Here's some of the data:
I can get the final column:
But if I print anything else on the line, it overwrites it.
Clearly not useful. I've tried using a test file that I just edited and don't see this behaviour, so it has something to do with this particular file. Any suggestions? Is there a known issue with some newline characters? I'm working on a Mac, and I suspect the file comes from a PC. It's NHS data from the UK.
rdf - 重复三元组 RDF
我有一个问题问你。
我想删除文件 RDF 中的重复三元组。例如,我有这两个 RDF 三元组:
三重 1=
- rdf:描述 rdf:about="http://Group/row1"
- vocab:regione 坎帕尼亚 /vocab:regione
- vocab:nome 那不勒斯 /vocab:nome
- vocab:codice 不适用 /vocab:codice
- /rdf:描述
其中 vocab:regione、vocab:nome 和 vocab:codice 是谓词。
三重 2=
- rdf:描述 rdf:about="http://Group/row1"
- vocab:nome 那不勒斯 /vocab:nome
- vocab:codice 不适用 /vocab:codice
- /rdf:描述
其中 vocab:nome 和 vocab:codice 是谓词。
在这种情况下,“Triple2”包含在“Triple1”中。是否应该删除“Triple2”?
提前致谢。
data-cleaning - openrefine 标志更改的行
我正在使用 openrefine 清理 excel 数据集。我有大约 70 次操作,我一直在剪切和粘贴不同的数据集。我维护一个记录 ID 并导出到一个新的 Excel 表。然后我使用记录 ID 重新加载工作表。
它运行良好,但即使只有少数记录发生更改,我也必须重新加载整个数据库。有没有一种简单的方法来标记更改的记录,所以我只将更改的记录导出/导入到应用程序?
我可以轻松地在 70 个操作中添加一个标志来标记仅更改的记录吗?
google-maps-api-3 - kml 开放数据文件可以在 Google Earth 中看到,但在 google map api 应用程序中看不到
我已经从法国城市的开放数据网站下载了 kml 文件(这个 kml 文件可以在 Google 地球中正确看到),但我在 Google Map APi 的应用程序中看不到它(我使用对象“google.maps .KmlLayer”,适用于我自己的 kml 文件)
这是下载的文件
http://www.paysagesdefrance/kml/theatre.kml
你明白为什么吗?你有解决我的问题的方法吗?
exception - 安装 ckanext-archiver 时没有名为 celery 的模块
我使用 CKAN 作为我的开放数据门户,并尝试按照https://github.com/ckan/ckanext-archiver上的说明安装存档器扩展。但是,我遇到了这个错误,在我的 ckan 配置文件中启用存档程序后我无法解决。
我已经从激活的 virtualenv 和所需的库中安装了扩展。
感谢是否有人知道如何解决这个问题。谢谢。
rdf - 如何使用 JENA 和 SPARQL 从具有地点名称的 Geonames 获取地点(城市、省、国家/地区)信息?
有人可以帮助我对 Geonames 数据库进行 SPARQL 查询以查找一个地方的信息,即人口吗?我只有那个地方的名字。我正在使用耶拿。
xml - 首选命名空间前缀列表?
XML 和链接数据中是否有任何首选名称空间缩写列表?vann:preferredNamespacePrefix描述
在 XML 文档中使用此词汇表中的术语时使用的首选名称空间前缀,
但我很难找到一份完整的清单。下面有一些统计
但我希望有一个更完整的东西。
注意:我已经下载了http://prefix.cc,但也有像dbpedia这样的情况,其中一个前缀被多个命名空间共享。我想要一个 1:1 的映射,例如在 dbpedia 的情况下,我宁愿将它们分开,就像在 dbpedia 本身上一样,例如Berlindbpedia
,wheredbpprop
和dbpedia-owl
都是不同的。
answers.semanticweb.com并没有真正的答案。
opendata - 如何查询 OpenData 端点列表
如何使用 Socrata 查询获取 OpenData 站点提供的端点列表?
r - 查找 R 中所有可能对的频率
我正在使用 R 处理药物和反应的大型数据集。目前,我将数据结构化为一个非常高的数据框,其中列出了报告 ID 号、药物名称和报告的反应。如您所知,ID 与药物以及药物与反应之间存在一对多的关系。
请记住,这个数据集比我可以在这里复制的要大得多,我想知道如何找到哪些药物对会导致哪些反应以及频率如何。
最重要的是,我对如何处理这样的问题很感兴趣。数据结构是否正确?我应该阅读哪些概念或库?
这是一些真实数据的链接:https ://www.dropbox.com/s/kzx4mpyytbo9zil/query_result.csv
在我小小的大脑中,最终结果看起来像这样......
Drug1 和 Drug2 是整个数据集中出现频率最高的药物对。“药物对”定义为具有相同报告 ID 的两种药物的任意组合。上面的示例输出将被解释为“第 1 行有 298 个唯一的报告 ID,其反应是肝功能衰竭。”
xml - 将 xml 转换为 json 以将文件处理为 Bigquery
我想将 stackexchange 原始数据处理成 BigQuery,但首先数据使用 7z 压缩格式,所以我解压缩数据以将其移植为 gz 格式,但内部文件是 xml。所以我需要将文件从xml转换为json。有任何想法吗?我使用 p7zip 解压缩并使用 xml2json 尝试移植 xml 文件但不起作用。
我用 xml2json xml2json -t json2xml -o xxx.xml yyy.json
使用 xml-json 的其他测试 **David 推荐
通过以下命令使用来自 stackoverflow.com-Users.7z 的此文件 Users.xml(大小 895M):xml-json Users.xml row > Users.json