问题标签 [countvectorizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
881 浏览

python - python sklearn 不仅使用计数功能进行朴素贝叶斯学习

首先,我是 python 和 nlp / 机器学习的新手。现在我有以下代码:

现在这实际上工作得很好。我通过使用矩阵和目标CountVectorizer得到一个稀疏矩阵。classifier(0,2,4)

但是,如果我想在向量中使用更多特征而不仅仅是字数,我该怎么办?我似乎无法找到它。先感谢您。

0 投票
2 回答
9314 浏览

python-3.x - 如何使用 Scikit 学习 CountVectorizer?

我有一组单词,我必须检查它们是否存在于文档中。

另一组有文件列表,我必须检查这些词是否存在。

如何使用 scikit-learnCountVectorizer以使术语文档矩阵的特征只是来自单词WordList,每一行代表每个特定文档,给定列表中的单词没有出现在各自列中的次数?

0 投票
0 回答
153 浏览

scikit-learn - 访问 GridSearch 中最佳估计器的矢量化器使用的词汇表

不知道把它放在标题中最好。

这就是我想要做的:我正在使用GridSearchapipeline来训练分类器。我想看看最好vocabulary_.items()CountVectorizer估算器使用的。

现在,我正在这样做,运行后GridSearch

有什么方法可以直接获取词汇项,而不需要fit_transform再次使用CountVectorizer

0 投票
1 回答
233 浏览

scala - 将 Scala countvectorizer 输出转换为 libsvm 格式

嗨,我可以建议从 scala countvectorizer 输出:([label, (nVocab, [i1, i2, ...], [c1, c2, ...])]) 到 libsvm 格式的映射:(label, : : ...) ?

如果您将输入作为字符串,对于初学者,我不确定在哪里拆分以获取字段。

或者,是否有用于此的 scala 实用程序?谢谢,kvd

0 投票
1 回答
482 浏览

python - 如何处理 Scikitlearn 随机森林分类器中的名称列。蟒蛇 3

我有一个包含 13 列的数据框。在 13 三列中是字符串。一个字符串列是简单的男性和女性,我使用它转换为 1 和 0

pd.get_dummies()

第二列包含三种不同类型的字符串,因此可以轻松转换为数组

从 sklearn.feature_extraction.text 导入 CountVectorizer

完全没有问题。问题是我的第三列也是最后一列包含大量名称。如果我尝试使用 Countvectorizer 进行转换,它会将名称转换为不可读的长字符串。

df['name']=Countvectorizer.fit_transform(df.name)

如果我尝试将其转换回数据帧,如stackoverflow页面上的其他示例所示,在这种情况下,我会得到这个

245376 (0, 14297)\t1\n (1, 5843)\t1\n (1, 13365)... 245377 (0, 14297)\t1\n (1, 5843)\t1\n (1, 13365) )...

名称:供应商名称,数据类型:对象

下一个代码导致内存错误

df['name'] =pd.DataFrame(CV.fit_transform(df.name).toarray(),columns=CV.get_feature_names())

我也看过这个问题。问题:除了上面提到的以外,还有什么方法最好以数字形式使用此名称列。或任何其他想法如何改进这一点,以便数据完全适合Randomforest 分类器。因为,Dataframe 退出大,包含 123790。提前感谢您的帮助或建议。

0 投票
0 回答
142 浏览

python-3.x - CountVectorizer 无法处理输入文本

我有一组数据如下所示。元素是语音标签的一部分。

现在当我这样做时:

我收到此错误:

我没有看到我的火车设置了任何元组。据我所知,这是一个列表,不是吗?

任何帮助,将不胜感激 ;)

0 投票
1 回答
68 浏览

python-3.x - 如何使用估计器对文本进行分类?

我用这个训练了估计器:

现在我需要用这个估计器对一些文本进行分类,但不清楚如何正确地对文本进行矢量化。

我需要向量化text,然后estimator.predict()用向量调用。问题是,这个向量必须与用于训练的向量一致estimator(单词foobar必须与用于训练模型的向量具有相同的索引)。从文档中不清楚如何以text这种方式进行矢量化。

这个predict()函数怎么写?

编辑

feature_listexpected_values制作如下:

0 投票
1 回答
345 浏览

python - 获取 CountVectorizer 以包含“1:1”

如果我有一些包含短语“1:1”的文本。我如何才能CountVectorizer将其识别为令牌?

0 投票
2 回答
3971 浏览

python - 将数字添加到 stop_words 到 scikit-learn 的 CountVectorizer

这个问题解释了如何将自己的单词添加到内置的英文停用词中CountVectorizer。我有兴趣看到消除任何数字作为标记对分类器的影响。

ENGLISH_STOP_WORDS存储为冻结集,所以我想我的问题归结为(除非有我不知道的方法)是否可以将任意数字表示添加到冻结列表中?

我对这个问题的感觉是这是不可能的,因为您必须通过的列表的有限性排除了这一点。

我想完成同样事情的一种方法是循环测试语料库和流行词,其中word.isdigit()对我可以联合的集合/列表是正确的ENGLISH_STOP_WORDS见上一个答案),但我宁愿懒惰并传递一些东西参数更简单stop_words

0 投票
1 回答
822 浏览

python - CountVectorizer fit-transform() 不适用于自定义 token_pattern

我需要在包含诸如 'R'、'C' 等编程语言名称的文本上使用 CountVectorizer。但是 CountVectorizer 会丢弃仅包含一个字符的“单词”。

输出:

出[172]:['Python','时间','系列','云','数据','建模']

然后我调整“token_pattern”,使其也将“R”视为一个标记。

输出:Out[187]:['Python','Time','Series','Cloud','R','Data','Modeling']

但 ,

给出输出:

Out[189]: {'cloud': 0, 'data': 1, 'modeling': 2, 'python': 3, 'series': 4, 'time': 5}

为什么会这样?`