问题标签 [tfidfvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - TF-IDF 如何只获取单词列表
我知道我们可以在 tf-idf 中使用停用词列表,但是有没有办法只获取单词列表而忽略其他单词?
例如,在这里我声明了一个停用词列表:
vectorizer = TfidfVectorizer(stop_words="english")
如果我只想在句子中考虑cat和dog,我想要这样的东西:
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
我的目标是只考虑特定词进行文本聚类?
有解决办法吗?
python - Tf-idf 矢量化器在带有 char_wb 的特征词中有空格?
我用
并想知道为什么我的功能中有空格,例如“chaft”
我怎样才能避免这种情况?我需要自己进行 tekenize 和预处理吗?
python - 带有 char_wb 的 tf-idf 忽略自定义前处理器?
我有
从文档中可以清楚地看出,自定义 toenizer 仅适用于 analyzer=word。
我明白了
python - Tfidfvectorizer - 从变换中获取具有权重的特征
假设我用于单个文档
如果我理解正确,则变换只使用从拟合中学习到的权重。因此,对于新文档,查询包含文档中每个特征的权重。它看起来像 [[0,,0,0.13,0.4,0]]
当我使用 n-gram 时,我也想为这个新文档获取这些功能。所以我知道新文档中每个特性的权重。
编辑:
在我的情况下,我得到一个并查询以下数组:
但这很奇怪,因为从学习的语料库(单个)中,所有特征的权重都是 0.10721125。那么新文档的一个特征怎么会有0.57735027的权重呢?
python-3.x - 两个看起来应该做同样事情但输出不同结果的python循环?
昨天我试图完成 Udacity 的第 11 课,关于文本的矢量化。我检查了代码,一切似乎都很好——我接收了一些电子邮件,打开它们,删除一些签名词并将每封电子邮件的词干词返回到一个列表中。
这是循环1:
这是循环2:
代码的下一部分按预期工作:
但是当我用循环 1 计算单词总数时,我得到了错误的结果。当我使用循环 2 执行此操作时,我得到了正确的结果。
我看这段代码太久了,我看不出区别——我在循环 1 中做错了什么?
作为记录,我一直得到的错误答案是 38825。正确答案应该是 38757。
非常感谢您的帮助,善良的陌生人!
python - TfidfVectorizer的词汇表和get_features()之间的区别?
我有
我想将每个值关联到单个相应的功能中。现在单机是什么结构?如何将单个值的位置映射到特征?
如何解释词汇和 get_features() 的索引?他们有关系吗?根据文档,两者都具有索引功能。这很混乱?
python - 存储 TfIdf 模型,然后加载它以测试新数据集
我正在尝试存储训练数据集然后加载存储的模型以适应新数据集后获得的 TfIdf 矢量化器/模型(不知道它是否是正确的词)。使用pickle存储和加载模型
我已经存储了在训练阶段获得的 TfIdf 词汇。然后,我将存储的词汇加载到矢量化器以适应测试数据
我收到一个错误
“sklearn.exceptions.NotFittedError:没有拟合 idf 向量”
据我所知,它正在尝试使用 idf_ 和词汇表分别保存整个“X”。但我只想存储模型/向量器(不知道),以便下次加载模型/向量器时,我只需要为测试数据调用 vectorizer.fit(),无需使用训练数据调用 fit_transform()。有没有办法做到这一点?
python - 我该如何修复“TypeError:预期的字符串或类似字节的对象”
大家好,我有一个文本文档列表(text_data),我想对其进行矢量化,但它会引发错误TypeError: expected string or bytes-like object
。当我打电话时它preprocess(text_data)
不起作用tfidfconverter
。我找不到问题,有人可以帮我吗?
追溯:
python - 类型错误:fit_transform() 缺少 1 个必需的位置参数:'raw_documents'
我正在尝试使用 Sklearn 进行特征提取文本,但是出现错误
类型错误:fit_transform() 缺少 1 个必需的位置参数:'raw_documents'
看来我必须完成一些缺少原始文档的参数,但我找不到导致错误的原因,这是我的代码:
在 Jupyter 笔记本控制台中运行时,出现以下错误: