问题标签 [tfidfvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 减小泡菜大小 TfidfVectorizer
我需要标准一些参数来基于文本构建向量。这就是为什么我试图从一组文本文档中挑选一个 TfidVectorizer 。基于这些参数,我需要对新的文本文档进行矢量化,它们的特征和权重标准应该与以前的文档相同。
(617, 22997)
vectorizer3.pickle 大小为 76.2MB。有没有办法将其减少到 10MB?
python - LabelPropagation with TfidfVectorizer 精度低
我之前问过这个问题,它被关闭了。因此我需要再问一次。我是计算机工程系的硕士生,正在努力解决标签传播问题,而我的问题是关于标签传播的。
我有以下代码,分数很低。我不明白问题出在哪里。我尝试将 LabelPropagation 与 TfIdfVectorizer 一起使用。但是该代码存在问题。
问题是精度低。结果约为 %28,而且非常低。我们只有四个类别。我一直希望结果具有很高的准确性。我对吗?
有谁能够帮我?
python - 如何创建用于检查句子相似性的矩阵模板?
我是文本挖掘和 python 的新手,我正在尝试做一个简单的任务。我想从句子中创建 TF 矩阵:['This is the first sentence','This is the second sentence','This is the third sentence']
并在循环中(或以某种方式)将新句子与该矩阵进行比较。
在stackoverflow上,我找到了很好的例子,但在我的例子中,它每次都会计算样本句子和新句子的TF矩阵。它在大型数据集上运行会有点慢。
我想知道如何以其他更准确的方式做到这一点,谢谢。
python - 如何在 python 中更改 tf-idf fit 方法的参数?
我正在使用熊猫管道研究 tf-idf。我正在使用SMARTlnc.ltc
表示法的称重方案。
对于文档向量,我想设置use_idf=False
完成。但是如何设置use_idf=True
查询向量?
我尝试直接更改use_idf
参数,但它不起作用。
python - Python:使用带有 TF-IDF 的列表
我有以下代码,当前将“令牌”中的所有单词与“df”中的每个文档进行比较。有什么方法可以将预定义的单词列表与文档而不是“令牌”进行比较。
任何帮助表示赞赏。谢谢!
python - ValueError:模型的特征数量必须与输入匹配(sklearn)
我正在尝试对一些电影评论数据运行分类器。数据已经被分成reviews_train.txt
和reviews_test.txt
。然后我加载数据并将每个数据分成审查和标签(正(0)或负(1)),然后对这些数据进行矢量化。这是我的代码:
但是我不断收到此错误:
我对 Python 很陌生,所以如果这是一个简单的修复,我提前道歉。
python - TF-IDF 的纯 pandas 实现
我想知道为什么我的 TF-IDF 的 Pandas 实现与 sklearn 实现的结果略有不同。
这是我的实现:
但是,如果我使用 sklearn:
或者如果我们减去它们:
编辑:
我发现 sklearn idf 与我的 idf 并不完全相同,但我认为我们可以将其归因于浮点精度:
即使我使用 sklearn idf,我仍然会得到不同的结果。
此外,如果我不规范化并使用 sklearn idf 值,则只有dd
第二个文档的 TF-IDF 不同:
这意味着两件事:
1.问题是我的TF。然而,这很容易检查,似乎并非如此。或者,
2. sklearn 不只是做TF * IDF
,而是做更多的事情,我必须研究一下。
python - TfidfVectorizer.fit_transfrom 和 tfidf.transform 有什么区别?
在 Tfidf.fit_transform 中,我们只使用参数 X 而没有使用 y 来拟合数据集。这是正确的吗?我们只为训练集的参数生成 tfidf 矩阵。我们没有使用 ytrain 来拟合模型。那么我们如何对测试数据集进行预测
python - Co occurance matrix for tfidf vectorizer for top 2000 words
i computed tfidf vectorizer for text data and got vectors as (100000,2000) max_feature = 2000.
while i am computing the co occurance matrix by below code.
I am getting the following error.
IndexError: only integers, slices (:
), ellipsis (...
), numpy.newaxis (None
) and integer or boolean arrays are valid indices