4

我正在从事一个小爱好 Python 项目,该项目涉及使用以该语言编写的大量文本为各种语言创建字典。对于大多数语言,这相对简单,因为我可以使用单词之间的空格分隔符将段落标记为字典的单词,但例如,中文在单词之间不使用空格字符。如何将一段中文文本标记为单词?

我的搜索发现这是一个有点复杂的问题,所以我想知道是否有现成的解决方案可以通过 api 或任何其他语言在 Python 或其他地方解决这个问题。这一定是一个常见问题,因为任何为亚洲语言制作的搜索引擎都需要克服这个问题才能提供相关结果。

我尝试使用谷歌搜索,但我什至不确定这种类型的标记化被称为什么,所以我的结果没有找到任何东西。也许只是朝着正确的方向轻推会有所帮助。

4

1 回答 1

4

语言标记化是自然语言处理 (NLP) 的一个关键方面。对于大公司和大学来说,这是一个巨大的话题,并且一直是许多博士论文的主题。

我刚刚提交了对您问题的编辑以添加“nlp”标签。我建议您查看“nlp”标签的“关于”页面。您将找到指向自然语言工具包等网站的链接,其中包括基于 Python 的标记器。

您还可以在 Google 上搜索以下术语:“语言标记化”和 NLP。

于 2012-05-23T21:58:13.527 回答