问题标签 [countvectorizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 在 CountVectorizer 上使用正则表达式删除数字和符号
目前,我有一个 CountVectorizer 函数
Sklearn默认使用token_pattern,我在get_features_names上有一些结果如下:
我想删除数字和_符号。我知道要做到这一点,我必须默认修改正则表达式函数:r'(?u)\b\w\w+\b'
所以,有什么建议吗?
谢谢。
更新:
好词: abrazo, aburrir, extrañar, además
坏词: anamilan ,000,02,10,100,1080
我想添加ñ,á,é,í,ó,ú,我试过了,[á-ú_ñ]+
但它不起作用。
python - sklearn / CountVectorizer : 适合然后变换不同的输入语料库
我正在使用 sklearn python lib 中的 CountVectorizer从文件中对语料库进行矢量化,并带有input='filename'
初始化 CountVectorizer 的选项
然后我需要使用模型来转换一个新的语料库但是在 numpy.array(['str1','str2'])
这通常可以在 CountVectorizer 初始化时完成,input='content'
但我不知道如何指定一种新的输入类型。
有什么想法或解决方法吗?
谢谢 !
scikit-learn - 如何为添加到 CountVectorizer 转换数据的非文本特征设置名称?
我有一个代码可以向矢量化数据集添加一个新的非文本特征(文档的长度):
我想将此新功能称为“length_of_doc”。怎么做?谢谢你。
regex - 执行用户定义函数失败($anonfun$createTransformFunc$1: (string) => array
我已经生成了一个 DataFrame,如下所示
结果:
有了这个结果,我正在尝试使用 CountVectorizer,如下所示:
但是它会生成:
我不确定是什么导致了这个错误。我怀疑数据框中的“(”,但可能我也可能是错的。无论如何,我该如何删除它和这个工作?
scikit-learn - sklearn TtfidfVectorizer 停用词_
有没有办法获取 sklearn 的 TtfidfVectorizer 的 stopwords_ 属性(不是停用词)的 tf 和 idf?
它们已经被计算过了,所以模型应该有这些值,但是有没有人使用过它们?如果不是,我想我必须破解内部代码并自己获取它们,对吗?
[更新]
对于可能最终解决这个问题的任何人,作为更新,我最终做的是破解sklearn/feature_extraction/text.py
并将单词和值导出为类 CountVectorizer 的元组,而不仅仅是单词。
python - bigrams python的CountVectorize词汇规范
我正在尝试获取大量(~160.000)文档的术语计数的稀疏矩阵。
我清理了文本并希望遍历所有文档(即一次计数向量化一个并附加生成的 1xN 数组。以下代码适用于逐字的情况,但不适用于二元组:
Python 返回
大概是因为我将数据输入二元向量化计数器的方式无效。
“raw_report”是一个字符串。单字词典是:
dictionary2 类似,但基于通过合并所有文档的所有二元组(并保持唯一值,在前面完成)构造的二元组,使得生成的结构是
文档二元组具有相同的结构,这就是为什么我很困惑为什么 python 不接受输入。有没有办法解决这个问题,或者我的整个方法不是很pythonic并且开始适得其反?
提前感谢您的帮助!
备注:我知道我可以在更精细的 CountVectorize 命令中完成整个过程(即一步完成清理、标记化和计数),但我更希望自己也能做到这一点(以便查看和存储中间输出) . 此外,鉴于我使用的大量文本,我担心我会遇到内存问题。
countvectorizer - CountVectorizer() : AttributeError: 'numpy.float64' 对象没有属性 'lower'
我正在尝试拟合具有 event_type 和 notes(自由文本)列的数据集。在调用 MultinomialNB 模型之前,我处理了文本并将其转换为数组以对其进行矢量化并在提供的代码下方计算 tfidf:
将事件类型从字符串转换为整数以便于处理
文本表示
我还将 notes 和 category_id 转换为特征和标签,如下所示:
然后我使用特征和标签将数据集拆分为训练和测试集:
输出
由于类不平衡,我使用 SMOTE 来解决少数问题并创建合成副本
应用随机过采样来克服不平衡类
过采样后的输出
到目前为止一切正常,直到我尝试使用 CountVectorizer() 计算术语频率,如下所示:
输出错误:
我尝试使用 ravel() 函数来展平数组,但错误仍然存在,任何想法,在此先感谢
r - 如何形成基于词汇表的 tfidf sparklyr 数据框
必须构建一个 Tf-idf 矩阵/数据框,其中术语/单词作为列名,而不是使用 sparklyr 的索引。我选择了 ft_count_vectorizer,因为它可以存储词汇。但是在找到 tf-idf 后我被卡住了,我无法将这些术语映射到它的 tf-idf 值。对此领域的任何帮助将不胜感激。这是我尝试过的。
tf-idf 是一个 spark_tbl 类,它还包括 clean_words(vocabulary) 和 tfidf 特性。这两个特性都以列表的形式出现。我需要提供 tfidf 功能作为输入,并以 clean_words 作为列标题。最好的方法是什么。我被困在这里。任何帮助或帮助将不胜感激。
python - 将txt文件读取为一串以记录逻辑的转换功能
文件夹中有一堆 .txt 文件。这里有两个函数用于读取这些文件并将它们作为一个字符串保存到变量中:
现在我的想法是使用 sklearnCountVectorizer()
从文本中获取 n-gram。但CountVectorizer()
不接收作为输入的字符串。所以我的问题是-我怎样才能使读取文件的函数不将它们存储到一个字符串中,而是使用该逻辑存储它们:['text1.txt', 'text2.txt', ..., 'textn.文本']
提前致谢!
scikit-learn - sklearn.feature_extraction.text.CountVectorizer 手动计算
如何从 scikit-learn 手动计算 CountVectorizer?或任何可以帮助我的来源。