我正在从事一个小爱好 Python 项目,该项目涉及使用以该语言编写的大量文本为各种语言创建字典。对于大多数语言,这相对简单,因为我可以使用单词之间的空格分隔符将段落标记为字典的单词,但例如,中文在单词之间不使用空格字符。如何将一段中文文本标记为单词?
我的搜索发现这是一个有点复杂的问题,所以我想知道是否有现成的解决方案可以通过 api 或任何其他语言在 Python 或其他地方解决这个问题。这一定是一个常见问题,因为任何为亚洲语言制作的搜索引擎都需要克服这个问题才能提供相关结果。
我尝试使用谷歌搜索,但我什至不确定这种类型的标记化被称为什么,所以我的结果没有找到任何东西。也许只是朝着正确的方向轻推会有所帮助。