问题标签 [countvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python sklearn 不仅使用计数功能进行朴素贝叶斯学习
首先,我是 python 和 nlp / 机器学习的新手。现在我有以下代码:
现在这实际上工作得很好。我通过使用矩阵和目标CountVectorizer
得到一个稀疏矩阵。classifier
(0,2,4)
但是,如果我想在向量中使用更多特征而不仅仅是字数,我该怎么办?我似乎无法找到它。先感谢您。
python-3.x - 如何使用 Scikit 学习 CountVectorizer?
我有一组单词,我必须检查它们是否存在于文档中。
另一组有文件列表,我必须检查这些词是否存在。
如何使用 scikit-learnCountVectorizer
以使术语文档矩阵的特征只是来自单词WordList
,每一行代表每个特定文档,给定列表中的单词没有出现在各自列中的次数?
scikit-learn - 访问 GridSearch 中最佳估计器的矢量化器使用的词汇表
不知道把它放在标题中最好。
这就是我想要做的:我正在使用GridSearch
apipeline
来训练分类器。我想看看最好vocabulary_.items()
的CountVectorizer
估算器使用的。
现在,我正在这样做,运行后GridSearch
:
有什么方法可以直接获取词汇项,而不需要fit_transform
再次使用CountVectorizer
?
scala - 将 Scala countvectorizer 输出转换为 libsvm 格式
嗨,我可以建议从 scala countvectorizer 输出:([label, (nVocab, [i1, i2, ...], [c1, c2, ...])]) 到 libsvm 格式的映射:(label, : : ...) ?
如果您将输入作为字符串,对于初学者,我不确定在哪里拆分以获取字段。
或者,是否有用于此的 scala 实用程序?谢谢,kvd
python - 如何处理 Scikitlearn 随机森林分类器中的名称列。蟒蛇 3
我有一个包含 13 列的数据框。在 13 三列中是字符串。一个字符串列是简单的男性和女性,我使用它转换为 1 和 0
pd.get_dummies()
第二列包含三种不同类型的字符串,因此可以轻松转换为数组
从 sklearn.feature_extraction.text 导入 CountVectorizer
完全没有问题。问题是我的第三列也是最后一列包含大量名称。如果我尝试使用 Countvectorizer 进行转换,它会将名称转换为不可读的长字符串。
df['name']=Countvectorizer.fit_transform(df.name)
如果我尝试将其转换回数据帧,如stackoverflow页面上的其他示例所示,在这种情况下,我会得到这个
245376 (0, 14297)\t1\n (1, 5843)\t1\n (1, 13365)... 245377 (0, 14297)\t1\n (1, 5843)\t1\n (1, 13365) )...
名称:供应商名称,数据类型:对象
下一个代码导致内存错误
df['name'] =pd.DataFrame(CV.fit_transform(df.name).toarray(),columns=CV.get_feature_names())
我也看过这个问题。问题:除了上面提到的以外,还有什么方法最好以数字形式使用此名称列。或任何其他想法如何改进这一点,以便数据完全适合Randomforest 分类器。因为,Dataframe 退出大,包含 123790行。提前感谢您的帮助或建议。
python-3.x - CountVectorizer 无法处理输入文本
我有一组数据如下所示。元素是语音标签的一部分。
现在当我这样做时:
我收到此错误:
我没有看到我的火车设置了任何元组。据我所知,这是一个列表,不是吗?
任何帮助,将不胜感激 ;)
python-3.x - 如何使用估计器对文本进行分类?
我用这个训练了估计器:
现在我需要用这个估计器对一些文本进行分类,但不清楚如何正确地对文本进行矢量化。
我需要向量化text
,然后estimator.predict()
用向量调用。问题是,这个向量必须与用于训练的向量一致estimator
(单词foobar
必须与用于训练模型的向量具有相同的索引)。从文档中不清楚如何以text
这种方式进行矢量化。
这个predict()
函数怎么写?
编辑
feature_list
并expected_values
制作如下:
python - 获取 CountVectorizer 以包含“1:1”
如果我有一些包含短语“1:1”的文本。我如何才能CountVectorizer
将其识别为令牌?
python - CountVectorizer fit-transform() 不适用于自定义 token_pattern
我需要在包含诸如 'R'、'C' 等编程语言名称的文本上使用 CountVectorizer。但是 CountVectorizer 会丢弃仅包含一个字符的“单词”。
输出:
出[172]:['Python','时间','系列','云','数据','建模']
然后我调整“token_pattern”,使其也将“R”视为一个标记。
输出:Out[187]:['Python','Time','Series','Cloud','R','Data','Modeling']
但 ,
给出输出:
Out[189]: {'cloud': 0, 'data': 1, 'modeling': 2, 'python': 3, 'series': 4, 'time': 5}
为什么会这样?`