如何获得一个单词的非正式同义词或缩写?我尝试使用词干分析器(如 Porter 过滤器)和词库,但它们似乎无法识别单词的“非正式”同义词。我想我下面的例子并不是真正的同义词,而是缩写。
示例包括:
- 技术 => 技术
- 商业 => 商业
- 应用程序 => 应用程序
据我所知,没有这样的图书馆可用。您在问题中提到的同义词/缩写是任何自然语言进化性质的一部分。也就是说,硬编码这样的列表永远不会给你一个完整的等价列表。
唯一好的长期(甚至中期)解决方案是使用适当的 NLP/ML 范式来“学习”它们。这种等价是高度依赖上下文的。例如:
这里解释了这种上下文依赖性的历史(和略带哲学的)表示。有关更多日常示例,请参阅此 Wikipedia disambiguation page(这是上面列表中的第二个示例)。
基本上,我在这里试图说明的是,没有现成的工具/库来解决这个问题,因为解决同义词(尤其是口语术语、缩写词等)是一个难题。