我正在寻找使用Stanford CoreNLP捕获测量值。(如果你能推荐一个不同的提取器,那也很好。)
例如,我想找到15kg、15 kg、15.0 kg、15 kg、15 lbs、15磅等。但是在 CoreNLPs 提取规则中,我没有看到用于测量的规则。
当然,我可以使用纯正则表达式来做到这一点,但是工具包可以运行得更快,并且它们提供了在更高级别进行分块的机会,例如将gb和gb一起处理,并将RAM和内存视为构建块——即使没有完整的句法解析——因为他们构建了更大的单元,如128 GB RAM和8 GB 内存。
我想要一个基于规则的提取器,而不是基于机器学习的),但不要将其视为RegexNer或其他地方的一部分。我该怎么做?
IBM Named Entity Extraction可以做到这一点。正则表达式以一种有效的方式运行,而不是通过每个正则表达式传递文本。并且正则表达式被捆绑以表达有意义的实体,例如将所有测量单位联合成一个概念的实体。