是否有 ruby 或 php 库能够解析 html 页面并通过将其与其他类似页面进行比较来提取唯一数据....应该使用某种文本挖掘来识别哪些文本更有可能是噪音和重复性,而其他文本更加独特和有用...
问问题
348 次
1 回答
2
我是一个 PHP 人,对 Ruby 一无所知,但我认为你想要的存档很简单:
- 使用Simple HTML DOM之类的东西来解析页面。
- 对于每个页面,比较所有 DOM 元素。
- 获取具有不同内容的所有元素的路径,这些将是您的信号元素。
于 2010-01-31T11:52:25.343 回答