html - 从各种 HTML 文档中提取相同的数据

Question

假设我有几个来自不相关网站的 HTML 页面，但它们包含相同的整体信息。我想以灵活的方式提取该信息，即我只想为所有页面（理想情况下，一个）编写少量数据提取器。假设字段是（使用博客示例）author, date, title, text。表示这些的 HTML 标记的类对于每个页面可能完全不同，但仍以大致相同的方式显示在页面上。例如，从 CNN获取这篇文章和这篇文章来自高客。两者都包含相同的信息 - 我想要的信息 - 实际显示时页面上的某处。有没有一种很好的方法来提取这些数据？编写单独的提取器是一种选择，但不是一个好选择；我想使用的数据集中大约有一千种样式的文档。

score 0 · Accepted Answer

您可以做到这一点的唯一方法是在所有这些网站中找到一个共同的元素（例如，它们共享相同的 DOM 结构，或者具有相同的 ID，或者在之前的标签中以相同的内容开头，如<h1>）。

否则，您需要为每种情况编写不同的规则或正则表达式。

当然，除非您编写了一个非常智能的算法，即使使用不同的 HTML 也能够识别内容意图/含义——这既不简单也不快速编写。

html - 从各种 HTML 文档中提取相同的数据

1 回答 1

Related

Reference