我目前正在编写一个贯穿文档的脚本,提取所有关键字,然后尝试将这些关键字与在其他文档中找到的关键字进行匹配。有一些细节使这一点复杂化,但它们与我的问题不是很相关。基本上,我希望能够匹配单词,而不管它们出现的时态。
例如:如果给定字符串“swim”、“swam”和“swimming”,我想要一个可以识别这些都是同一个单词的程序,尽管它是否会将单词存储为游泳、游泳或游泳对我来说没那么重要。
我知道这个问题可以通过包含所有这些单词形式的字典来解决,但我不知道有任何字典以这种方式映射到对此有用。我更喜欢与 Python 兼容的解决方案或库,因为这是我目前用于此脚本的,但我可以使用几乎任何语言的解决方案(保存 haskell 或 eiffel 或类似的晦涩/困难的东西)一起工作)