Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试从网页中去除噪音。但由于我是新手,所以我不知道从哪里开始。因此,如果有人可以向我提供有关如何操作的任何信息,那将非常有帮助。
噪音链接、版权声明等。
苏丹舒
Boilerpipe 似乎是您所要求的:http ://code.google.com/p/boilerpipe/
样板库提供算法来检测和删除围绕网页主要文本内容的多余“杂乱”(样板、模板)。 该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以轻松扩展用于个别问题设置。
样板库提供算法来检测和删除围绕网页主要文本内容的多余“杂乱”(样板、模板)。
该库已经为常见任务(例如:新闻文章提取)提供了特定策略,并且还可以轻松扩展用于个别问题设置。