3

必须有一个我忽略的非常简单的解决方案 - 我已将 import.io 设置为从此处的维基百科页面中提取,并且我无法指定按字母顺序排列的部分中的每个条目在提取时位于单独的行上 - 训练时选择一切都在同一行,所以它不可用..有什么想法吗?

4

1 回答 1

2

Wikipedia 只是一个非常难的网站,不是从(所有 html,没有 Javascript 或 AJAX)中提取数据,而是自动从中提取数据。这是因为 Wikipedia 是免费的并且可以编辑,这导致了数百万种不同的页面结构。

虽然有几种方法可以解决它,但应用它们的难易程度取决于每个用例。您可以通过指定 XPath 手动训练它,而不是使用我们的点击式训练。例如,如果数据总是在表中结构化,您可以使用 XPath: //table 它将只扫描整个站点以查找任何表,然后提取它。但是,这很可能也会得到不需要的表,因此您必须指定哪个表。例如,此站点上的表格具有“wikitable”类。所以我们将其指定为: //table[@class="wikitable"]

然后你当然需要确保这同样适用于罢工者的所有其他页面。数据很容易被人类识别,但要让机器理解是一项艰巨的任务,即在您正在寻找的数据之间找到一个共同元素,并告诉机器人具有这个共同元素的东西是它应该提取的。

谢谢,
梅格

于 2015-08-12T09:09:22.560 回答