我使用 Scikit-learn 的 CountVectorizer 来计算已经标记化的泰语单词的出现次数,然后尝试在 Python 3 中对文本进行矢量化
代码:
#-*-coding: utf-8 -*-
w_vector = ["การ", "ซ้อม"]
v = CountVectorizer(vocabulary=w_vector, token_pattern="(?u)\\b\\w*\\b", lowercase=False)
print(v.fit_transform(["การ ซ้อม"]).toarray())
输出:
[[1 0]]
其实应该是[[1 1]]。
在我的观察中(我已经对泰语单词数据集进行了许多测试),我认为泰语元音存在问题,即“ซ้อม”中的“้”(泰语元音),但对于另一种情况,例如“การ”(有没有元音)它不会对使用 CountVectorizer 造成任何问题
您有什么建议可以调整 CountVectorizer 以识别这种情况