1

是否有 ruby​​ 或 php 库能够解析 html 页面并通过将其与其他类似页面进行比较来提取唯一数据....应该使用某种文本挖掘来识别哪些文本更有可能是噪音和重复性,而其他文本更加独特和有用...

4

1 回答 1

2

我是一个 PHP 人,对 Ruby 一无所知,但我认为你想要的存档很简单:

  • 使用Simple HTML DOM之类的东西来解析页面。
  • 对于每个页面,比较所有 DOM 元素。
  • 获取具有不同内容的所有元素的路径,这些将是您的信号元素。
于 2010-01-31T11:52:25.343 回答