问题标签 [tfidfvectorizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
418 浏览

python-3.x - 减小泡菜大小 TfidfVectorizer

我需要标准一些参数来基于文本构建向量。这就是为什么我试图从一组文本文档中挑选一个 TfidVectorizer 。基于这些参数,我需要对新的文本文档进行矢量化,它们的特征和权重标准应该与以前的文档相同。

(617, 22997)

vectorizer3.pickle 大小为 76.2MB。有没有办法将其减少到 10MB?

0 投票
0 回答
41 浏览

python - LabelPropagation with TfidfVectorizer 精度低

我之前问过这个问题,它被关闭了。因此我需要再问一次。我是计算机工程系的硕士生,正在努力解决标签传播问题,而我的问题是关于标签传播的。

我有以下代码,分数很低。我不明白问题出在哪里。我尝试将 LabelPropagation 与 TfIdfVectorizer 一起使用。但是该代码存在问题。

问题是精度低。结果约为 %28,而且非常低。我们只有四个类别。我一直希望结果具有很高的准确性。我对吗?

有谁能够帮我?

0 投票
1 回答
57 浏览

python - 如何创建用于检查句子相似性的矩阵模板?

我是文本挖掘和 python 的新手,我正在尝试做一个简单的任务。我想从句子中创建 TF 矩阵:['This is the first sentence','This is the second sentence','This is the third sentence']

并在循环中(或以某种方式)将新句子与该矩阵进行比较。

在stackoverflow上,我找到了很好的例子,但在我的例子中,它每次都会计算样本句子和新句子的TF矩阵。它在大型数据集上运行会有点慢。

我想知道如何以其他更准确的方式做到这一点,谢谢。

0 投票
0 回答
180 浏览

python - 如何在 python 中更改 tf-idf fit 方法的参数?

我正在使用熊猫管道研究 tf-idf。我正在使用SMARTlnc.ltc表示法的称重方案。

对于文档向量,我想设置use_idf=False完成。但是如何设置use_idf=True查询向量?
我尝试直接更改use_idf参数,但它不起作用。

0 投票
1 回答
2142 浏览

python - Python:使用带有 TF-IDF 的列表

我有以下代码,当前将“令牌”中的所有单词与“df”中的每个文档进行比较。有什么方法可以将预定义的单词列表与文档而不是“令牌”进行比较。

任何帮助表示赞赏。谢谢!

0 投票
1 回答
3496 浏览

python - ValueError:模型的特征数量必须与输入匹配(sklearn)

我正在尝试对一些电影评论数据运行分类器。数据已经被分成reviews_train.txtreviews_test.txt。然后我加载数据并将每个数据分成审查和标签(正(0)或负(1)),然后对这些数据进行矢量化。这是我的代码:

但是我不断收到此错误:

我对 Python 很陌生,所以如果这是一个简单的修复,我提前道歉。

0 投票
1 回答
148 浏览

python - TF-IDF 的纯 pandas 实现

我想知道为什么我的 TF-IDF 的 Pandas 实现与 sklearn 实现的结果略有不同。

这是我的实现:

但是,如果我使用 sklearn:

或者如果我们减去它们:


编辑:

我发现 sklearn idf 与我的 idf 并不完全相同,但我认为我们可以将其归因于浮点精度:

即使我使用 sklearn idf,我仍然会得到不同的结果。

此外,如果我不规范化并使用 sklearn idf 值,则只有dd第二个文档的 TF-IDF 不同:

这意味着两件事:
1.问题是我的TF。然而,这很容易检查,似乎并非如此。或者,
2. sklearn 不只是做TF * IDF,而是做更多的事情,我必须研究一下。

0 投票
1 回答
4365 浏览

python - TfidfVectorizer.fit_transfrom 和 tfidf.transform 有什么区别?

在 Tfidf.fit_transform 中,我们只使用参数 X 而没有使用 y 来拟合数据集。这是正确的吗?我们只为训练集的参数生成 tfidf 矩阵。我们没有使用 ytrain 来拟合模型。那么我们如何对测试数据集进行预测

0 投票
2 回答
1218 浏览

python - scikit-learn TfidfVectorizer 忽略某些单词

我正在尝试使用 TfidfVectorizer 从维基百科页面上获取关于葡萄牙历史的句子。但是我注意到该TfidfVec.fit_transform方法忽略了某些单词。这是我试过的句子:

数据框的输出:

在此处输入图像描述

本质上,它忽略了“Aroeira”和“Almonda”这两个词。

但我不希望它忽略这些话,我该怎么办?我在他们谈论这个的文档上找不到任何地方。

另一个问题是为什么要重复“the”这个词?该算法是否应该只考虑一个“the”并计算其 tf-idf?

0 投票
1 回答
66 浏览

python - Co occurance matrix for tfidf vectorizer for top 2000 words

i computed tfidf vectorizer for text data and got vectors as (100000,2000) max_feature = 2000.

while i am computing the co occurance matrix by below code.

I am getting the following error.

IndexError: only integers, slices (:), ellipsis (...), numpy.newaxis (None) and integer or boolean arrays are valid indices