我正在通过使用我的爬虫挖掘网页内容来进行一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关链接),这会分散用户对实际内容的注意力。
考虑到没有标准来定义新闻故事/博客文章/论坛评论/文章在网页中的实际位置,据我了解,提取有意义的内容是一个难题。
我可以找到一些像这样的开源解决方案:https ://metacpan.org/pod/HTML::ContentExtractor
但我很好奇是否有人处理过这个问题并获得了合理的成功率。这似乎是一个相当普遍的问题,我相信很多专家都在那里。我更喜欢基于 JAVA 的解决方案,但这不是硬性规定。请提供一些意见。我将深深感激。