python - 用其他语言处理 CountVectorizer

翻译自：https://stackoverflow.com/questions/36616842 2016-04-14T07:50:07.310

832 次

我使用 Scikit-learn 的 CountVectorizer 来计算已经标记化的泰语单词的出现次数，然后尝试在 Python 3 中对文本进行矢量化

代码：

#-*-coding: utf-8 -*-

w_vector = ["การ", "ซ้อม"]
v = CountVectorizer(vocabulary=w_vector, token_pattern="(?u)\\b\\w*\\b", lowercase=False)

print(v.fit_transform(["การ ซ้อม"]).toarray())

输出：

[[1 0]]

其实应该是[[1 1]]。

在我的观察中（我已经对泰语单词数据集进行了许多测试），我认为泰语元音存在问题，即“ซ้อม”中的“้”（泰语元音），但对于另一种情况，例如“การ”（有没有元音）它不会对使用 CountVectorizer 造成任何问题

您有什么建议可以调整 CountVectorizer 以识别这种情况

python - 用其他语言处理 CountVectorizer

0 回答 0

Related

Reference