1

我正在尝试做一些 html 解析。我正在处理一些非常动态的数据,而且我的来源差异很大。如果更具体地说,我正在尝试从我事先不知道的页面解析产品信息,包括名称、价格和描述。

在这些页面中,唯一保持不变的基本信息是页面标题、我正在查询的项目名称(它们都相互匹配)和价格。在不同网站中唯一保持相同的真实逻辑是不同信息集之间的接近性。因此,价格标签将接近产品名称并接近其描述。

我正在寻找一个 html 解析器,它将使我能够根据不同 html 标记之间的像素距离缩小解析范围。

你知道这样的图书馆吗?有没有其他方法可以尝试解决这个问题?

编辑:

语言,操作系统和分辨率不匹配。你知道哪些工具可以帮助解决这个问题?如果我找到一个足够好的库,我可能会决定更改我的底层操作系统和语言。

4

1 回答 1

1

物品的价格通常以特定的特殊字符开头,该字符表示与在 a 中显示值的数字相同的标签内的货币,例如:

<div class="product_value">£ 10.99</div>
<div class="product_value">¥ 10.99</div>
<div class="product_value">$ 10.99</div>

假设您正在使用搜索 API(如 google 或 bing)来获取包含特定产品名称的页面列表,然后打开该页面一个简单的正则表达式语句将能够检索货币标记(£、$、¥等) 和 div 或 span 的结尾。

但是,如果搜索结果抛出包含多个产品或多个价格标记的页面,则该系统可能无法正常工作。唯一可以确定的方法是为每个站点编写单独的爬虫例程,或者尝试爬取其他人的比较服务。

于 2012-06-11T04:12:25.933 回答