我正在寻找一个可以使用自定义控制词汇表进行命名实体识别 (NER) 的 Java 库,而无需首先标记训练数据。我在 SE 上搜索了一些,但大多数问题都相当不具体。
考虑以下用例:
- 一位编辑在 CMS 中输入文章(约 500 字)。
- 文本可能包含对特定域实体的引用(以纯文本形式)。例如:
- 兴趣点的名称,如酒吧、餐馆以及社区等。
- 存在这些实体的受控词汇表(大约 5.000 个实体)。
- 我想象一个实体是词汇表中的一个元组
- 完成文本后,用户应该能够保存文档。
- 这会触发工作流通过与实体名称进行比较来根据词汇表扫描文本片段。不需要 100% 匹配:Jarao-winkler 或其他任何东西(我不熟悉算法的 NER 使用什么)的 97% 可能就足够了,我需要它是可配置的。
- 命中返回到控制器服务器端。这反过来将 JSON 返回到包含实体的客户端,这些实体表示为对编辑器的建议交叉链接。
理想情况下,我正在寻找一个项目,该项目使用 NRE 来建议 CMS 环境中的交叉链接以进行搭载。(例如,我确定存在 wordpress 的插件)不太确定 Java 中是否存在类似的东西。
也欢迎使用受控自定义词汇表的所有其他更通用的指向 NRE 库的指针。