问题标签 [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nltk - 零碎训练 NaiveBayesClassifier (NLTK)
我有很多文本数据,我想进行分类。我按块递增地获取这些数据(例如 500 个示例)。我想用这些块在 NLTK 中训练 NaiveBayesClassifier,但要进行零碎的训练。
我可以用一个夹头执行训练 NaiveBayesClassifier,然后用于训练下一个块等吗?
我在文档中找不到这个问题的答案。
classification - 使用 Weka 进行文本分类
我是 Weka 的初学者,我正在尝试将其用于文本分类。我已经看到如何使用 StringToWordVector 过滤器进行分类。我的问题是,有没有办法为我正在分类的文本添加更多功能?例如,如果我想在文本中添加 POS 标签和命名实体标签,我将如何在分类器中使用这些功能?
machine-learning - 文本分类中的词干提取 - 降低准确性?
我正在使用 Mahout 实现一个文本分类系统。我已阅读停用词删除和词干提取有助于提高文本分类的准确性。在我的情况下,删除停用词可以提供更好的准确性,但词干提取并没有多大帮助。我发现应用词干分析器后准确度降低了 3-5%。我尝试使用 porter stemmer 和 k-stem,但在这两种情况下都得到了几乎相同的结果。
我正在使用朴素贝叶斯算法进行分类。
任何帮助都非常感谢提前。
sentiment-analysis - Theano 分类任务总是给出 50% 的验证错误和测试错误?
我正在使用 Theano 的 DBN(深度信念网络)和 SDA(堆叠去噪自动编码器)示例进行文本分类实验。我已经生成了一个特征/标签数据集,就像生成 Theano 的 MINST 数据集一样,并更改了这些示例的特征长度和输出值以采用我的数据集(2 个输出而不是 10 个输出,并且我的数据集采用了特征数量) . 每次我运行实验(DBN 和 SDA)时,我都会得到准确的 50% 验证错误和测试错误。你有什么想法我做错了吗?因为我刚刚从电影评论数据集中生成了一个数据集作为 MINST 数据集格式并将其腌制。
我的代码与您可以在http://www.deeplearning.net/tutorial/DBN.html中找到的 代码相同,我的 SDA 代码与您可以在 http://www.deeplearning.net/tutorial/SdA中找到的代码相同.html
唯一的区别是我制作了自己的数据集,而不是 MINST 数字识别数据集。我的数据集是来自电影评论数据集的词袋特征,它当然具有不同数量的特征和输出类,所以我只是对输入和输出类的函数参数数量进行了微小的修改。代码运行得很漂亮,但结果总是 50%。这是一个示例输出:
文件 DBN_MovieReview.py 的预训练代码运行了 430.33m
文件 DBN_MovieReview.py 的微调代码运行了 5.48m
我使用两个不同的功能集同时运行 SDA 和 DBN。所以我在所有这 4 个实验中都得到了 50% 的准确率。
python - Sklearn的增量训练SGD分类器与句子
如何增量训练 Sklearn 线性模型中可用的 SGDClassifier 句子。它通常是用文档训练的。但我想用句子来训练它。我想逐步训练它以用于情感分析的推文。任何在 python 中的示例解释都会有很大帮助。
任务:推文的情绪分析怀疑:对标记的推文进行增量训练
提前致谢。
classification - 如何使用任何 t 检验比较数据集上的分类器?
我想通过使用任何 t 检验来比较数据集上的分类器。我的问题在这里我应该使用什么来进行比较。前任。分类器 1 我将为准确率、精度、召回率等建立列;分类器 2 也是如此。然后应用任何 t 检验。这是合乎逻辑的吗?如果不是我怎么能做这个比较?哪个工具可以进行这种比较?
提前致谢
machine-learning - 使用 WEKA API 在训练集和测试集上执行 LSA
我需要使用 Weka 及其 AttributeSelection 算法 LatentSemanticAnalysis 来做文本分类。我将数据集拆分为要应用 LSA 的训练集和测试集。我已经阅读了一些关于 LSA 的帖子,但是我还没有找到如何使用它来分离数据集并保持它们的兼容性。这是我到目前为止但内存不足...:
Edit1 针对@Jose 的回复,我添加了新版本的源代码。这会导致 OutOfMemoryError:
Edit2 我得到的错误:
r - 你能推荐一个R中的包,可以用来计算多类分类任务的精度、召回率和F1分数吗
是否有任何你会推荐的包可用于计算 R 中多类分类任务的精度、F1、召回率。我尝试使用 ROCR,但它指出:
data-mining - 垃圾邮件过滤中的降维
我正在做一个实验,我需要比较几种垃圾邮件过滤分类算法的分类性能,即。朴素贝叶斯、SVM、J48、k-NN、RandomForests 等。我正在使用 WEKA 数据挖掘工具。在阅读文献时,我了解了各种降维方法,可以大致分为两种类型 -
- 特征缩减:主成分分析、潜在语义分析等。
- 特征选择:卡方、InfoGain、GainRatio等。
我还在他的博客中阅读了 Jose Maria 的 WEKA 教程:http: //jmgomezhidalgo.blogspot.com.es/2013/02/text-mining-in-weka-revisited-selecting.html
在这篇博客中,他写道,“一个典型的文本分类问题,其中降维可能是一个大错误是垃圾邮件过滤”。所以,现在我很困惑在垃圾邮件过滤的情况下降维是否有用?
此外,我还阅读了有关文档频率和 TF-IDF 作为特征减少技术之一的文献。但我不确定它在分类过程中是如何工作和发挥作用的。
我知道如何使用 weka、链式过滤器和分类器等。我面临的问题是因为我对特征选择/减少(包括 TF-IDF)没有足够的了解我无法决定如何以及选择什么特征我应该将技术和分类算法结合起来,以使我的研究有意义。我也不知道应该与卡方、信息增益等一起使用的最佳阈值。
在 StringToWordVector 类中,我有一个 IDFTransform 选项,那么将其设置为 TRUE 并使用特征选择技术(比如 InfoGain)是否有意义?
请指导我,如果可能的话,请提供资源链接,我可以在其中详细了解降维并可以有意义地计划我的实验!
machine-learning - 如何从 Weka 文本分类中输出结果文档
因此,我们在一组 15k 条推文上运行多项朴素贝叶斯分类算法。我们首先根据 Weka 的 StringToWordVector 函数将每条推文分解为单词特征向量。然后我们将结果保存到一个新的 arff 文件中,作为我们的训练集。我们用另一组 5k 条推文重复这个过程,并使用从我们的训练集派生的相同模型重新评估测试集。
我们想要做的是输出weka在测试集中分类的每个句子及其分类......我们可以看到算法的性能和准确度的一般信息(Precision,recall,f-score)但是我们根据我们的分类器,看不到由 weka 分类的单个句子……有没有办法做到这一点?
另一个问题是,最终我们的教授会给我们多 2 万条推文,并期望我们对这个新文档进行分类。但是,我们不确定如何执行此操作:
谢谢你的帮助!