我正在尝试做一些 html 解析。我正在处理一些非常动态的数据,而且我的来源差异很大。如果更具体地说,我正在尝试从我事先不知道的页面解析产品信息,包括名称、价格和描述。
在这些页面中,唯一保持不变的基本信息是页面标题、我正在查询的项目名称(它们都相互匹配)和价格。在不同网站中唯一保持相同的真实逻辑是不同信息集之间的接近性。因此,价格标签将接近产品名称并接近其描述。
我正在寻找一个 html 解析器,它将使我能够根据不同 html 标记之间的像素距离缩小解析范围。
你知道这样的图书馆吗?有没有其他方法可以尝试解决这个问题?
编辑:
语言,操作系统和分辨率不匹配。你知道哪些工具可以帮助解决这个问题?如果我找到一个足够好的库,我可能会决定更改我的底层操作系统和语言。