到目前为止,我已经评估了几个著名的 Java 解析器,但没有一个可以以某种方式真正免费用于商业用途。像 OpenNLP 一样,它是免费的,但使用了不可用于商业目的的训练数据。Morphadorner 在那里,但它似乎最后一次更新是在 2009 年。Stanford NLP 是完整的 GPL,而 LingPipe 提供付费许可证。
目前作为一家没有资金的初创公司,我真的不可能支付高额的许可费。我必须为我的需求实现一个基于规则的解析器,这是行业标准解决方案无法比拟的。
不过,我不是一个自由狂,我也不需要世界上只有少数人在使用的东西。我坚信,像 NLP 这样的东西越来越受欢迎,再次实施 POS Tagger 就像重新发明一个重新发明的轮子。真的没有行业标准的解决方案吗?
更新:这种心态似乎符合行业标准意味着有偿。那么如何免费提供几个 HTML 解析器库(以及其他东西)。Html 解析器比 NLP 使用得更多,但 NLP 任务仍然有相当大的需求。
更新:问题已关闭。我很快就会很高兴地发布我的使用 Wordnet 和各种漂亮规则的用于关键字提取的小型库。谢谢 AB