0

我已经使用 gensim.utils.simple_preprocess(str(sentence) 创建了一个我想用于主题建模的单词字典。但是,这也过滤了我真正需要的重要数字(房屋分辨率、账单号等)。我是如何克服这个问题的?可能是用他们的单词形式替换数字。不过,我该怎么做呢?

4

1 回答 1

1

您不必使用simple_preprocess()- 它没有做太多,它不是可配置或复杂的,通常其他 Gensim 算法只需要令牌列表。

因此,选择您自己的标记化 - 在某些情况下,根据您的源数据,这可能就像.split()空白一样简单。

如果您想查看simple_preprocess()作为模型的功能,您可以在以下位置查看其 Python 源代码:

https://github.com/RaRe-Technologies/gensim/blob/351456b4f7d597e5a4522e71acedf785b2128ca1/gensim/utils.py#L288

于 2021-05-10T08:21:43.153 回答