问题标签 [data-harvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
11029 浏览

python - 使用python自动按下“提交”按钮

我使用的巴士公司运营着一个糟糕的网站(希伯来语英语),它制作了一个简单的“今天从 A 到 B 的时间表”查询一场噩梦。我怀疑他们试图鼓励使用昂贵的 SMS 查询系统。

我正在尝试从站点获取整个时间表,方法是将每个可能点的查询提交到每个可能的点,总计大约 10k 个查询。查询结果出现在弹出窗口中。我对网络编程很陌生,但熟悉 python 的基本方面。

  1. 解析页面,从下拉菜单中选择一个值,然后使用脚本按“提交”的最优雅的方式是什么?
  2. 如何为程序提供新弹出窗口的内容作为输入?

谢谢!

0 投票
1 回答
392 浏览

facebook-c#-sdk - 学习数据收集

我想建立一个网站来收集数据: *我朋友的 Facebook 状态 *其他网站

不幸的是,我不知道如何收集数据。有人可以推荐一本书\教程吗?如何接近这个领域?

0 投票
4 回答
1608 浏览

googlebot - 如何验证 GoogleBot

我想防止在我的网站中收集数据(当然 googlebot 除外)。我猜依靠 GB 的 UserAgent 还不够强大(每个机器人都可以伪造它)

我怎样才能仍然验证 GoogleBot 以避免假货。

0 投票
1 回答
455 浏览

ckan - 使用 DCAT 扩展的收割机卡住了

我们一直在使用 ckanext-dcat 从远程 json 源中采集,有时一些采集作业没有完成,必须连同该源中的所有数据集一起删除,这不是很方便,但随后一切恢复正常,我不知道是否有办法只删除一个作业。

但现在我在收集消费者日志中得到了这个:

作业完成但没有创建数据集,如果我删除作业并重新收集它会继续运行但永远不会结束,并且其他收集作业也不会更新。

我怎样才能解决这个问题?

0 投票
2 回答
2946 浏览

javascript - 使用 PHP/JavaScript 链接获取有关站点访问者的信息

有人试图对我进行网络钓鱼,他们假装是我的亲密朋友之一,以羞辱我们俩。此人创建了一个虚假的电子邮件帐户,冒充此人,并试图从我这里获取个人信息。我和我的朋友确认这实际上不是他,现在我们正试图找出它是谁。

我想向他们发送一个指向某种 PHP 或 JS 页面的链接,以收集至少一些关于他们的客户端的信息(浏览器、操作系统,也许是 ISP 位置?),然后将它们转发到一个实际的网站(比如 youtube视频什么的)。

对 PHP 有非常基本的了解,我非常感谢任何可以让我收集一些基本信息的脚本。

谢谢!

0 投票
1 回答
1193 浏览

plugins - ckan 收割机:“没有名为 pika 的模块”错误

在运行正常的 ckan 实例上,我按照本指南安装了收割机扩展:https ://github.com/ckan/ckanext-harvest

这些是我遵循的步骤:

这是 pip-requirements.txt 的内容:

我继续配置插件,一切似乎都正常。我让它在http://localhost/harvest运行。然后我创建一个新的源,当我想启动收集命令时,我得到了这个错误:

我很确定 virtualenv 一定有一些非常愚蠢的东西(这里是 python 新手)

0 投票
1 回答
299 浏览

php - 收获 php API 数组到 json

使用 Harvest php API http://mdbitz.com/harvest-api/examples/和我的 Harvest php 数组打印以下数据:

数据:

但是当使用 json 类将其转换为 json 时,它给了我空的 {} 任何想法发生了什么?

0 投票
1 回答
156 浏览

json - 如何为数据集显示 XML 页面而不是 JSON

我正在使用 pycsw 扩展来生成 CSW 文件。我已经从一个 CKAN 实例 [1] 中收集数据到另一个 [2] 中,现在正在寻找运行 pycsw 'paster load' 命令:

我得到错误:

我认为这是因为当我访问此网址时:

它提供了一个 JSON 文件,而不是一个 XML(这是它所期望的)

我已经在其他 ckan 实例上运行了 pycsw load 命令并且没有遇到任何问题。他们还在上述 url 显示一个 XML 文件,所以我想知道如何让 CKAN 提供 XML 文件而不是 JSON?

提前感谢您的帮助!

0 投票
0 回答
188 浏览

metadata - 使用 GeoNetwork 从 THREDDS 中收获

我有一个 THREDDS 实例:https ://wci.earth2observe.eu/thredds/catalog-earth2observe.html ,我正在寻找一种以 ISO-19115 标准格式获取数据的方法。我已经尝试了许多解决方案,目前正在尝试将信息放入我拥有的 GeoNetwork 实例中。

我尝试使用具有以下设置的 THREDDS 收割机:

节点名称: E2O

频率: 0 00 09 ? * 周一至周五

组:样本组

服务网址: https ://vortex1.npm.ac.uk/thredds/catalog-earth2observe.xml

为目录中的所有服务创建 ISO19119 元数据:勾选

为集合数据集创建元数据:勾选

为原子数据集创建元数据:勾选

thredds-datasetDategory:地图和图形

设置为Public并勾选“ All ”

我正在使用GeoNetwork v3.0.2

任何关于我做错了什么的建议,或者我可以投入使用的其他系统,将不胜感激,

非常感谢!

0 投票
2 回答
254 浏览

excel - 从单个单元格中查找多个值

我有一个数据集,其中许多不同的类别和数据被塞进一个单元格中。

例如,我有一个包含个人姓名和百分比的单元格:

我想找到一个函数,可以从该单个单元格中查找和获取单个人的姓名以及该人的相关百分比。