html - 根据两个元素之间的距离解析html

Question

我正在尝试做一些 html 解析。我正在处理一些非常动态的数据，而且我的来源差异很大。如果更具体地说，我正在尝试从我事先不知道的页面解析产品信息，包括名称、价格和描述。

在这些页面中，唯一保持不变的基本信息是页面标题、我正在查询的项目名称（它们都相互匹配）和价格。在不同网站中唯一保持相同的真实逻辑是不同信息集之间的接近性。因此，价格标签将接近产品名称并接近其描述。

我正在寻找一个 html 解析器，它将使我能够根据不同 html 标记之间的像素距离缩小解析范围。

你知道这样的图书馆吗？有没有其他方法可以尝试解决这个问题？

编辑：

语言，操作系统和分辨率不匹配。你知道哪些工具可以帮助解决这个问题？如果我找到一个足够好的库，我可能会决定更改我的底层操作系统和语言。

score 1 · Accepted Answer

物品的价格通常以特定的特殊字符开头，该字符表示与在 a 中显示值的数字相同的标签内的货币，例如：

<div class="product_value">£ 10.99</div>
<div class="product_value">¥ 10.99</div>
<div class="product_value">$ 10.99</div>

假设您正在使用搜索 API（如 google 或 bing）来获取包含特定产品名称的页面列表，然后打开该页面一个简单的正则表达式语句将能够检索货币标记（£、$、¥等) 和 div 或 span 的结尾。

但是，如果搜索结果抛出包含多个产品或多个价格标记的页面，则该系统可能无法正常工作。唯一可以确定的方法是为每个站点编写单独的爬虫例程，或者尝试爬取其他人的比较服务。

1 回答 1