假设我有几个来自不相关网站的 HTML 页面,但它们包含相同的整体信息。我想以灵活的方式提取该信息,即我只想为所有页面(理想情况下,一个)编写少量数据提取器。假设字段是(使用博客示例)author, date, title, text
。表示这些的 HTML 标记的类对于每个页面可能完全不同,但仍以大致相同的方式显示在页面上。例如,从 CNN获取这篇文章和这篇文章来自高客。两者都包含相同的信息 - 我想要的信息 - 实际显示时页面上的某处。有没有一种很好的方法来提取这些数据?编写单独的提取器是一种选择,但不是一个好选择;我想使用的数据集中大约有一千种样式的文档。
问问题
63 次