1

我正在尝试从网页中去除噪音。但由于我是新手,所以我不知道从哪里开始。因此,如果有人可以向我提供有关如何操作的任何信息,那将非常有帮助。

噪音链接、版权声明等。

苏丹舒

4

1 回答 1

3

Boilerpipe 似乎是您所要求的:http ://code.google.com/p/boilerpipe/

样板库提供算法来检测和删除围绕网页主要文本内容的多余“杂乱”(样板、模板)。

该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以轻松扩展用于个别问题设置。

于 2012-02-08T19:49:26.283 回答