问题标签 [data-harvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
49 浏览

ckan - CKAN 收割机“nav_named_link”错误

在 CKAN 中,当我尝试创建新的 Harvest Source 时,我收到此错误:

有人知道我该如何解决这个问题吗?

我是 CKAN 的新手。我从源代码安装,还安装了 ckanext-harvest 扩展。

0 投票
0 回答
369 浏览

ckan - CKAN:收获受阻

我不确切知道问题出在哪里,所以我写在这里以获得一些提示或线索。我想知道是否有人对此有意见或想法。使用 ckan 进行收集似乎有效(我能够在开放数据站点上获取数据),但最后它的状态保持“正在进行”,因此它保持阻塞状态,我无法重新收集其他数据。谢谢

这是来自 fetch_consumer.log 的日志

在gather_consumer.log 的日志下方:

0 投票
0 回答
76 浏览

r - 从 R 中的网页收集数据 - 访问多个页面

我正在关注昨天的问题 -通过 R 1 中的下拉列表收集数据

首先,我需要从这个页面获取所有医生的所有 50k 字符串:http ://www.lkcr.cz/seznam-lekaru-426.html#seznam 我知道,如何从单个页面获取它们:

尽管如此,我知道仅下载几行文本的整个页面是非常无效的(但有效!:) 你能给我一个提示如何使这个过程更有效吗?

我还遇到了一些列出 20 多个医生的页面(即“Brno-město”和“chirurgie”的组合。这些数据通过表格末尾的超链接列表列出和访问。我需要访问这些页面中的每一个并在那里使用我在这里提供的代码。但我想我必须在那里传递一些 cookie。

除此之外,“Praha”和“chirurgie”的组合也是有问题的,因为有超过 200 条记录,因此页面应用了一些脚本,然后我需要单击“další”按钮并使用与上一段。

你能帮我吗?

0 投票
1 回答
116 浏览

r - 使用 rvest 收集数据不会从数据小部件中检索任何值

我正在尝试使用rvest(也尝试使用XMLand selectr)来收集数据,但我遇到了以下问题:

在我的浏览器的网络检查器中,html 看起来像

(注意:rate-down并且1226.45会定期更新。)我想收获,1226.45但是当我运行我的代码(如下)时,它说那里没有存储任何信息。这与它是一个小部件这一事实有关吗?任何有关如何进行的建议将不胜感激。

0 投票
0 回答
32 浏览

wix - 获取 heat 工具收集的数据的总大小

我使用了 WiX 提供的 Heat.exe。它需要一个目录结构的副本,称为收获目录。我想要的是获取它收集的数据的总大小。

有解决办法吗,求大神帮忙。提前致谢。

0 投票
0 回答
194 浏览

ckan - DCAT RDF 收集错误

我在 ckan 尝试了 DCAT RDF Harvesting。一般的 ckan 收获效果很好,但 DCAT RDF Harvesting 似乎没有添加很多配置功能。如何解决此错误并从https://www.europeandataportal.eu获取数据?

收到的收获作业 ID:2ec257d4-6e29-4cc5-8e76-1ac4023b1d65 [ckanext.dcat.harvesters.rdf] 在 DCATRDFHarvester 收集阶段 [ckanext.dcat.harvesters.base] 获取文件 https://www.europeandataportal.eu [ckanext.harvest .model] 验证服务返回错误:503 [ckanext.harvest.queue] 没有要获取的收获对象

我在我的 ckan 配置文件中的 rdf.py 和 swden_dcat_harvest 中添加了这个配置。

解析器 = RDFParser(profiles=['euro_dcat_ap', 'sweden_dcat_ap']) 序列化器 = RDFSerializer(profiles=['euro_dcat_ap', 'sweden_dcat_ap'])

0 投票
1 回答
42 浏览

r - 用于从 R 中的多个 URL(具有身份验证)检索数据的嵌套函数

我下面的代码旨在通过 API 端点通过身份验证检索数据(及其元数据),并将所有元数据返回到数据帧中。我想创建一个嵌套函数,以对具有相同身份验证的另一个 API 端点重复相同的过程,并将第二个端点的结果附加到第一个端点中,并将其添加到单个数据帧中(它们都具有相同的数据结构和标头)。我不知道在这个过程中我应该把link_to_endpoint2放在哪里,以及如何进行嵌套,并附加结果等。

0 投票
1 回答
127 浏览

r - R 中的数据收集:获取嵌套列表、取消列出、进行编辑、重新嵌套它们

以下代码从网站收集数据。我检索列表列表,我想取消列出其中一个列表,对其进行编辑,然后将其重新嵌套到数据中,以接收到数据的形式。这是我下面的代码,它无法重新嵌套。

错误:flatten(by_row(res, ..f = function(x) flatten_chr(x), .labels = FALSE)) 中的错误:找不到函数“by_row”

0 投票
0 回答
83 浏览

ckan - 在 CKAN webbrowser 我看不到列表中的数据集,但在活动流中,是否需要额外的模块?

使用 Harvest oai-pmh 将元数据从 dspace 发送到 ckan。我可以在活动流中看到文件(包),但在数据集列表中看不到。活动流中的链接导致数据空间表面中的数据。同样在 db 中,我看到了包的条目。日志文件只抛出有关日期格式的警告。我是否需要任何额外的模块来为 ckan Webbrowser 生成包含数据集的列表?

0 投票
1 回答
135 浏览

wix - 如何在 DefineConstants 中根据您的构建版本放置变量以使用 HeatDirectory 进行 Harvest?

我需要在 wix 工具集上收集一个目录,但是这个目录将用于命名构建版本号。我知道如何定义一个静态常量,但是可以创建一个变量吗?

我在论坛上搜索,但从未找到基于外部变量的收获。

我该怎么做才能使这种$(build)变量起作用?有没有办法将它链接到我variable.wxi得到的文件:<?define ProjectBuild = "421" ?>