问题标签 [countvectorizer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

316 问题

0 投票

2 回答

881 浏览

python - python sklearn 不仅使用计数功能进行朴素贝叶斯学习

首先，我是 python 和 nlp / 机器学习的新手。现在我有以下代码：

现在这实际上工作得很好。我通过使用矩阵和目标CountVectorizer得到一个稀疏矩阵。classifier(0,2,4)

但是，如果我想在向量中使用更多特征而不仅仅是字数，我该怎么办？我似乎无法找到它。先感谢您。

2016-11-28T18:55:27.493

0 投票

2 回答

9314 浏览

python-3.x - 如何使用 Scikit 学习 CountVectorizer？

我有一组单词，我必须检查它们是否存在于文档中。

另一组有文件列表，我必须检查这些词是否存在。

如何使用 scikit-learnCountVectorizer以使术语文档矩阵的特征只是来自单词WordList，每一行代表每个特定文档，给定列表中的单词没有出现在各自列中的次数？

python-3.x scikit-learn countvectorizer

2016-12-12T05:34:50.023

0 投票

0 回答

153 浏览

scikit-learn - 访问 GridSearch 中最佳估计器的矢量化器使用的词汇表

不知道把它放在标题中最好。

这就是我想要做的：我正在使用GridSearchapipeline来训练分类器。我想看看最好vocabulary_.items()的CountVectorizer估算器使用的。

现在，我正在这样做，运行后GridSearch：

有什么方法可以直接获取词汇项，而不需要fit_transform再次使用CountVectorizer？

scikit-learn grid-search countvectorizer

2017-01-04T20:14:05.607

0 投票

1 回答

233 浏览

scala - 将 Scala countvectorizer 输出转换为 libsvm 格式

嗨，我可以建议从 scala countvectorizer 输出：([label, (nVocab, [i1, i2, ...], [c1, c2, ...])]) 到 libsvm 格式的映射：(label, : : ...) ?

如果您将输入作为字符串，对于初学者，我不确定在哪里拆分以获取字段。

或者，是否有用于此的 scala 实用程序？谢谢，kvd

scala format libsvm countvectorizer

2017-01-23T21:59:47.983

0 投票

1 回答

482 浏览

python - 如何处理 Scikitlearn 随机森林分类器中的名称列。蟒蛇 3

我有一个包含 13 列的数据框。在 13 三列中是字符串。一个字符串列是简单的男性和女性，我使用它转换为 1 和 0

pd.get_dummies()

第二列包含三种不同类型的字符串，因此可以轻松转换为数组

从 sklearn.feature_extraction.text 导入 CountVectorizer

完全没有问题。问题是我的第三列也是最后一列包含大量名称。如果我尝试使用 Countvectorizer 进行转换，它会将名称转换为不可读的长字符串。

df['name']=Countvectorizer.fit_transform(df.name)

如果我尝试将其转换回数据帧，如stackoverflow页面上的其他示例所示，在这种情况下，我会得到这个

245376 (0, 14297)\t1\n (1, 5843)\t1\n (1, 13365)... 245377 (0, 14297)\t1\n (1, 5843)\t1\n (1, 13365) )...

名称：供应商名称，数据类型：对象

下一个代码导致内存错误

df['name'] =pd.DataFrame(CV.fit_transform(df.name).toarray(),columns=CV.get_feature_names())

我也看过这个问题。问题：除了上面提到的以外，还有什么方法最好以数字形式使用此名称列。或任何其他想法如何改进这一点，以便数据完全适合Randomforest 分类器。因为，Dataframe 退出大，包含 123790行。提前感谢您的帮助或建议。

python scikit-learn random-forest countvectorizer

2017-02-01T01:01:14.927

0 投票

0 回答

142 浏览

python-3.x - CountVectorizer 无法处理输入文本

我有一组数据如下所示。元素是语音标签的一部分。

现在当我这样做时：

我收到此错误：

我没有看到我的火车设置了任何元组。据我所知，这是一个列表，不是吗？

任何帮助，将不胜感激 ;）

python-3.x scikit-learn pos-tagger countvectorizer

2017-02-08T15:40:10.323

0 投票

1 回答

68 浏览

python-3.x - 如何使用估计器对文本进行分类？

我用这个训练了估计器：

现在我需要用这个估计器对一些文本进行分类，但不清楚如何正确地对文本进行矢量化。

我需要向量化text，然后estimator.predict()用向量调用。问题是，这个向量必须与用于训练的向量一致estimator（单词foobar必须与用于训练模型的向量具有相同的索引）。从文档中不清楚如何以text这种方式进行矢量化。

这个predict()函数怎么写？

编辑

feature_list并expected_values制作如下：

python-3.x scikit-learn text-classification countvectorizer

2017-03-08T23:49:08.663

0 投票

1 回答

345 浏览

python - 获取 CountVectorizer 以包含“1:1”

如果我有一些包含短语“1:1”的文本。我如何才能CountVectorizer将其识别为令牌？

python scikit-learn countvectorizer

2017-03-18T17:32:10.843

0 投票

2 回答

3971 浏览

python - 将数字添加到 stop_words 到 scikit-learn 的 CountVectorizer

这个问题解释了如何将自己的单词添加到内置的英文停用词中CountVectorizer。我有兴趣看到消除任何数字作为标记对分类器的影响。

ENGLISH_STOP_WORDS存储为冻结集，所以我想我的问题归结为（除非有我不知道的方法）是否可以将任意数字表示添加到冻结列表中？

我对这个问题的感觉是这是不可能的，因为您必须通过的列表的有限性排除了这一点。

我想完成同样事情的一种方法是循环测试语料库和流行词，其中word.isdigit()对我可以联合的集合/列表是正确的ENGLISH_STOP_WORDS（见上一个答案），但我宁愿懒惰并传递一些东西参数更简单stop_words。

python scikit-learn countvectorizer

2017-04-04T19:55:57.080

0 投票

1 回答

822 浏览

python - CountVectorizer fit-transform() 不适用于自定义 token_pattern

我需要在包含诸如 'R'、'C' 等编程语言名称的文本上使用 CountVectorizer。但是 CountVectorizer 会丢弃仅包含一个字符的“单词”。

输出：

出[172]：['Python'，'时间'，'系列'，'云'，'数据'，'建模']

然后我调整“token_pattern”，使其也将“R”视为一个标记。

输出：Out[187]：['Python'，'Time'，'Series'，'Cloud'，'R'，'Data'，'Modeling']

但，

给出输出：

Out[189]: {'cloud': 0, 'data': 1, 'modeling': 2, 'python': 3, 'series': 4, 'time': 5}

为什么会这样？`

python scikit-learn countvectorizer

2017-04-15T05:56:28.397

1 2 3 4 5 6 7 8 9 10

问题标签 [countvectorizer]

Reference