parsing - 如何巧妙地从 HTML 页面中提取信息？

Question

我正在构建一些可以或多或少从任意网站提取关键信息的东西。例如，如果我爬取了一个麦当劳页面，并想以编程方式计算出麦当劳的开店和关店时间，那么有什么智能方法可以做到这一点？

在一般情况下，也许我也想知道麦当劳是否有卖鸡翅，或者麦当劳的地址。

我在想的是，我将为 , 和提供一个特定的案例time，wings并且address对于这 3 个案例中的每一个案例都有唯一的代码。

但我不确定如何解决这个问题。我已经抓取了网站并将 HTML 和相关信息解析为 JSON。我目前的方法是查找title标签并检查title标签是否包含诸如addressor之类的关键字location。如果title包含那些key words，那么我将查看当前页面并识别类似于地址的内容块，例如内容城市或国家或内容有St或Street里面。

我想知道是否有更好的方法来查找关键数据，并寻找更好的起点或反弹一些想法等等。或者即使有很好的文章可以阅读这方面的内容也会很棒。

如果不清楚，请告诉我。

谢谢您的帮助。

score 2 · Accepted Answer

为了解析这样的 HTML 页面，您必须了解它们的结构。这个问题没有通用的解决方案。每个网页都需要自己的解决方案。但是，一个好的方法是确保 HTML 代码也是有效的 XML，然后使用 XPath 访问已知位置的元素。甚至可能有一个类似 XPath 的标准 HTML 解决方案（它并不总是有效的 xml）。通过这种方式，您可以为每个页面定义一组 XPath，如果它们存在，它们会为您提供特定元素。

parsing - 如何巧妙地从 HTML 页面中提取信息？

1 回答 1

Related

Reference