我在社交媒体监控系统上工作。我们不会自己爬网,我们会从 Spinn3r 等聚合器获取信息。在大多数情况下,“博客”只不过是色情网站的链接页面,但我们希望在内部进行一些训练,而不是等待上游提供商做出更改。
我查看了 Spamassassin,如果我们处理电子邮件,它将非常适合我们的目的。是否有任何图书馆可以只获取一段文本,并根据工作频率、链接数量、隐藏的背景文本等因素对其进行质量评分?
理想情况下,我正在寻找 Java 中的东西,但如果那里什么都没有,我可以使用客户端服务器或嵌入 jruby 或 jython 库。
我想我最终将不得不自己构建它,但它总是值得一试。