问题标签 [countvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - sklearn 模型数据转换错误:CountVectorizer - 未安装词汇
我已经训练了一个主题分类模型。然后,当我要将新数据转换为向量进行预测时,它就出错了。它显示“NotFittedError:CountVectorizer - 未安装词汇”。但是当我通过将训练数据拆分为训练模型中的测试数据来进行预测时,它起作用了。这是代码:
这是一个错误
python - Python中的CountVectorizer
我正在解决一个问题,我必须预测来自公司的发送电子邮件是否被打开,如果它被打开,我必须预测收件人是否点击了给定的链接。
我有一个具有以下特征的数据集:
- 电子邮件内的总链接
- 电子邮件中的内部链接总数
- 电子邮件中的图像数量
- 电子邮件中的部分数量
- 电子邮件正文
- 电子邮件主题
对于电子邮件正文和主题,我可以使用CountVectorizer,但如何将我的其他功能包含到由所述 CountVectorizer 创建的稀疏矩阵中。
python - 使用 countVectorizer 在 python 中计算我自己的词汇表的单词出现
这是我的词汇示例:
关键是我词汇表中的每个单词都是二元组或三元组。我的词汇表包括我的文档集中所有可能的二元组和三元组,我只是在这里给你一个示例。根据应用程序,这就是我的词汇应该是这样的。我正在尝试使用 countVectorizer 如下:
我期待得到这样的东西:
其中第一列是文档 ID,第二列是词汇表中的单词 ID,第三列是该单词在该文档中的出现次数。但是 tf 是空的。我知道在一天结束时,我可以编写一个代码来遍历词汇表中的所有单词并计算出现次数并制作矩阵,但是我可以将 countVectorizer 用于我拥有的这个输入并节省时间吗?我在这里做错了吗?如果 countVectorizer 不是正确的方法,任何建议将不胜感激。
python - 使用 CountVectorizer 为 LDA 主题模型准备数据集
我想使用CountVectorizer
fromScikit
创建LDA
模型使用的矩阵。但我的数据集是一系列编码术语,例如以下形式:
我怎么能告诉CountVectorizer
考虑每对数据,即1-2252
作为一个词
python - 向量化列表 uisng countvectorizer() & tfidfvectorizer()
所以我有以下标记化的列表列表:
当我尝试使用 CountVectorizer() 或 TfIdfVectorizer() 对其进行矢量化时
我收到以下错误:
如果我在vectorizer.fit_transform()函数中放置一个简单的列表,它可以正常工作。
如何消除此错误?
scala - Scala Spark - 在 Spark DataFrame 中将向量列拆分为单独的列
我有一个 Spark DataFrame,其中有一列包含 Vector 值。向量值都是 n 维的,也就是具有相同的长度。我还有一个列名列表Array("f1", "f2", "f3", ..., "fn")
,每个对应于向量中的一个元素。
实现这一目标的最佳方法是什么?我想到了一种方法是创建一个新的DataFrame,createDataFrame(Row(Features), featureNameList)
然后加入旧的DataFrame,但它需要spark context才能使用createDataFrame。我只想转换现有的数据框。我也知道.withColumn("fi", value)
,但是如果n
很大怎么办?
我是 Scala 和 Spark 的新手,找不到任何好的例子。我认为这可能是一项常见的任务。我的特殊情况是我使用CountVectorizer
并希望单独恢复每一列以获得更好的可读性,而不是仅获得向量结果。
python - Pyspark- 来自计数矢量化器的矢量元素的大小函数?
背景:我将 URL 数据聚合到一个字符串数组中。这种形式的。[xyz.com,abc.com,efg.com]
1)我根据 URL 计数连续过滤
2)我过滤掉下一步不经常出现的url
问题是某些行足以在步骤 1 中通过我的 size 函数,但在我们删除不太频繁的 url 之后却没有。因此,即使我只希望计数高于 3 的行用于建模,我也会得到向量列读取的行: (68,[],[]) (68,[4,56],[1.0,1.0]) 。
所以我的问题是我可以在像 countVectorizer 的输出这样的向量对象上运行大小函数吗?或者它们是否有类似的功能可以消除低计数?
也许有一种方法可以从我原来的 'agg_url' 列中创建一个新的字符串数组列,并且删除频率较低的列?然后我可以对其执行 CountVectorizer 。
任何帮助表示赞赏。
python - 使用 CountVectorizer 时如何限制令牌长度?
我不希望长度小于 3 或大于 7 的术语。在 R 中有一种直接的方法,但在 Python 中我不确定。我试过这个,但还是不行
也尝试过其他正则表达式 -
scikit-learn - CountVectorizer 上的词形还原不会删除停用词
我正在尝试将 Lematization 从 Skit-learn 添加到 CountVectorizer,如下所示
这是输出:
更新
这是出现并已被词形化的停用词:
u'lar', u'ler', u'der'
它对所有单词进行词法分析,并且不会删除停用词。那么,有什么想法吗?