问题标签 [tfidfvectorizer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

365 问题

0 投票

1 回答

418 浏览

python-3.x - 减小泡菜大小 TfidfVectorizer

我需要标准一些参数来基于文本构建向量。这就是为什么我试图从一组文本文档中挑选一个 TfidVectorizer 。基于这些参数，我需要对新的文本文档进行矢量化，它们的特征和权重标准应该与以前的文档相同。

(617, 22997)

vectorizer3.pickle 大小为 76.2MB。有没有办法将其减少到 10MB？

2018-09-24T23:00:20.950

0 投票

0 回答

41 浏览

python - LabelPropagation with TfidfVectorizer 精度低

我之前问过这个问题，它被关闭了。因此我需要再问一次。我是计算机工程系的硕士生，正在努力解决标签传播问题，而我的问题是关于标签传播的。

我有以下代码，分数很低。我不明白问题出在哪里。我尝试将 LabelPropagation 与 TfIdfVectorizer 一起使用。但是该代码存在问题。

问题是精度低。结果约为 %28，而且非常低。我们只有四个类别。我一直希望结果具有很高的准确性。我对吗？

有谁能够帮我？

python scikit-learn tfidfvectorizer

2018-09-25T18:01:36.863

0 投票

1 回答

57 浏览

python - 如何创建用于检查句子相似性的矩阵模板？

我是文本挖掘和 python 的新手，我正在尝试做一个简单的任务。我想从句子中创建 TF 矩阵：['This is the first sentence','This is the second sentence','This is the third sentence']

并在循环中（或以某种方式）将新句子与该矩阵进行比较。

在stackoverflow上，我找到了很好的例子，但在我的例子中，它每次都会计算样本句子和新句子的TF矩阵。它在大型数据集上运行会有点慢。

我想知道如何以其他更准确的方式做到这一点，谢谢。

python scikit-learn text-mining tf-idf tfidfvectorizer

2018-09-29T09:34:21.137

0 投票

0 回答

180 浏览

python - 如何在 python 中更改 tf-idf fit 方法的参数？

我正在使用熊猫管道研究 tf-idf。我正在使用SMARTlnc.ltc表示法的称重方案。

对于文档向量，我想设置use_idf=False完成。但是如何设置use_idf=True查询向量？
我尝试直接更改use_idf参数，但它不起作用。

python pipeline tf-idf tfidfvectorizer

2018-10-19T20:34:58.350

0 投票

1 回答

2142 浏览

python - Python：使用带有 TF-IDF 的列表

我有以下代码，当前将“令牌”中的所有单词与“df”中的每个文档进行比较。有什么方法可以将预定义的单词列表与文档而不是“令牌”进行比较。

任何帮助表示赞赏。谢谢！

python pandas text tf-idf tfidfvectorizer

user10534492

2018-10-20T22:26:49.100

0 投票

1 回答

3496 浏览

python - ValueError：模型的特征数量必须与输入匹配（sklearn）

我正在尝试对一些电影评论数据运行分类器。数据已经被分成reviews_train.txt和reviews_test.txt。然后我加载数据并将每个数据分成审查和标签（正（0）或负（1）），然后对这些数据进行矢量化。这是我的代码：

但是我不断收到此错误：

我对 Python 很陌生，所以如果这是一个简单的修复，我提前道歉。

python machine-learning scikit-learn sklearn-pandas tfidfvectorizer

2018-10-23T22:17:15.840

0 投票

1 回答

148 浏览

python - TF-IDF 的纯 pandas 实现

我想知道为什么我的 TF-IDF 的 Pandas 实现与 sklearn 实现的结果略有不同。

这是我的实现：

但是，如果我使用 sklearn：

或者如果我们减去它们：

编辑：

我发现 sklearn idf 与我的 idf 并不完全相同，但我认为我们可以将其归因于浮点精度：

即使我使用 sklearn idf，我仍然会得到不同的结果。

此外，如果我不规范化并使用 sklearn idf 值，则只有dd第二个文档的 TF-IDF 不同：

这意味着两件事：
1.问题是我的TF。然而，这很容易检查，似乎并非如此。或者，
2. sklearn 不只是做TF * IDF，而是做更多的事情，我必须研究一下。

python pandas scikit-learn tf-idf tfidfvectorizer

2018-10-24T07:57:53.423

0 投票

1 回答

4365 浏览

python - TfidfVectorizer.fit_transfrom 和 tfidf.transform 有什么区别？

在 Tfidf.fit_transform 中，我们只使用参数 X 而没有使用 y 来拟合数据集。这是正确的吗？我们只为训练集的参数生成 tfidf 矩阵。我们没有使用 ytrain 来拟合模型。那么我们如何对测试数据集进行预测

python scikit-learn nlp tfidfvectorizer

2018-10-28T02:19:08.660

0 投票

2 回答

1218 浏览

python - scikit-learn TfidfVectorizer 忽略某些单词

我正在尝试使用 TfidfVectorizer 从维基百科页面上获取关于葡萄牙历史的句子。但是我注意到该TfidfVec.fit_transform方法忽略了某些单词。这是我试过的句子：

数据框的输出：

本质上，它忽略了“Aroeira”和“Almonda”这两个词。

但我不希望它忽略这些话，我该怎么办？我在他们谈论这个的文档上找不到任何地方。

另一个问题是为什么要重复“the”这个词？该算法是否应该只考虑一个“the”并计算其 tf-idf？

python scikit-learn nlp tf-idf tfidfvectorizer

2018-10-30T14:47:49.840

0 投票

1 回答

66 浏览

python - Co occurance matrix for tfidf vectorizer for top 2000 words

i computed tfidf vectorizer for text data and got vectors as (100000,2000) max_feature = 2000.

while i am computing the co occurance matrix by below code.

I am getting the following error.

IndexError: only integers, slices (:), ellipsis (...), numpy.newaxis (None) and integer or boolean arrays are valid indices

python machine-learning nlp similarity tfidfvectorizer

2018-11-01T16:45:44.257

1 2 3 4 5 6 7 8 9 10

问题标签 [tfidfvectorizer]

Reference