问题标签 [naivebayes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
671 浏览

machine-learning - 朴素贝叶斯分类器 - 准确性

我在 Weka 中对具有 15 个属性的 7000 个实例的数据集使用朴素贝叶斯分类器。使用 ZeroR 时,我的基线准确率为 87.5%。作为数据预处理的一部分,我用零均值和单位方差对数据集进行了归一化,应用过滤器来随机化数据集。我使用了训练(70%)和测试(30%)集,以及对整个数据集的 10 倍交叉验证,使用了监督离散化和属性选择,我得到的分类器的最佳准确率为 93.43%。这是对基线准确性的小改进吗?

0 投票
1 回答
85 浏览

machine-learning - 使用朴素贝叶斯分类器进行opinin挖掘

我正在将推文分类为正面或负面意见。我听说朴素贝叶斯分类器通常用于分类,我想为我的项目编写自己的朴素贝叶斯分类器。因为,我是数据挖掘的新手,而且朴素贝叶斯分类器无法理解什么以及如何使用朴素贝叶斯。谁能帮我解决??

0 投票
3 回答
10471 浏览

python - 如何训练大型数据集进行分类

我有一个包含 1600000 条推文的训练数据集。我该如何训练这种类型的海量数据。

我尝试过使用nltk.NaiveBayesClassifier. 如果我跑步,需要5天以上的时间来训练。

我应该怎么办?

我需要使用 SVM 和朴素贝叶斯对我的数据集进行分类。

我想使用的数据集:链接

样本(训练数据集):

样本(测试数据集):

如何有效地训练这个庞大的数据集?

0 投票
1 回答
7887 浏览

java - 在 Java 中使用 WEKA 打印出预测

我正在尝试使用朴素贝叶斯分类器在 Java 中使用 Weka 进行预测,代码如下:

JAVA

火车

预测

GUI预测输出中

如何使用 Java 获得此输出?我需要使用哪种方法来获得这个?

0 投票
1 回答
811 浏览

apache-spark - apache spark mllib naive bayes LabeledPoint 用法

我想使用 spark mllib naive bayes 来处理(训练和测试)这样的数据

男,疑酒,平日,12am-4am,75,30-39

这样我就可以测试标签男/女/未知。我想创建一个 LabeledPoint,以便可以针对 mllib 朴素贝叶斯算法运行此数据。spark站点上的示例

https://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

仅显示全为数字的数据。是否可以使用这样的字符串数据运行?我了解我的测试标签需要转换为双精度值,即男性/女性/未知 => 1.0 / 2.0 / 3.0

如果是这样,如何使用这种类型的语法将上面的 CSV 数据转换为 LabelPoint?

0 投票
1 回答
1695 浏览

machine-learning - 对数值属性使用朴素贝叶斯

我们可以使用朴素贝叶斯对数值数据进行分类吗?我们有一个系统可以提取作者风格,如句子长度、词长,并用它来预测匿名文档的作者身份。那么我们可以使用朴素贝叶斯根据这些数字数据对作者进行分类吗?否则你能建议一个更好的选择。

0 投票
1 回答
844 浏览

classification - 从分类精度计算曲线下面积

我有一个任务:

使用朴素贝叶斯,我们在一些具有 2 个类的数据上构建了一个模型(模型返回 2 个概率——一个用于正类,一个用于负类)。我们计算了 ROC 曲线下面积 AUC = 0.8 和分类准确度 CA = 0.6,阈值设置为 0.5(如果某些示例的正类概率高于 0.5,我们预测该示例的正类,否则为负类)。然后我们发现,如果我们将阈值设置为 0.3,分类准确率变为 CA = 0.7。第二个阈值的 AUC 是多少?如果结果取决于初始数据,请提出所有可能性。

我该如何计算呢?

0 投票
1 回答
1372 浏览

machine-learning - 使用交叉验证提高准确性,不使用交叉验证降低准确性

我有一个关于交叉验证的问题:我正在使用朴素贝叶斯分类器按作者对博客文章进行分类。当我在没有 k 折交叉验证的情况下验证我的数据集时,我得到 0.6 的准确度分数,但是当我进行 k 折交叉验证时,每个折页都会呈现更高的准确度(大于 0.8)。

例如:

(手动拆分):验证集大小:1452,训练集大小:13063,准确度:0.6033057851239669

进而

(使用 k 折叠):折叠 0 -> 训练集大小:13063,验证集大小:1452 准确度:0.8039702233250621(所有折叠都超过 0.8)

ETC...

为什么会这样?

0 投票
1 回答
77 浏览

binary - 朴素贝叶斯:观察变量的异构 CPD

我正在使用一个朴素贝叶斯模型,使用离散和连续变量的组合进行二元分类。我的问题是,我可以对连续和离散观察变量使用不同的条件概率分布 (CPD) 函数吗?例如,我对连续变量使用高斯 CPD,对离散变量使用一些确定性 CPD?

谢谢

0 投票
1 回答
3089 浏览

machine-learning - 如何训练以 pos-tag 序列为特征的朴素贝叶斯分类器?

我有两类句子。每个都有相当不同的 pos-tag 序列。如何以 POS-Tag 序列作为特征来训练朴素贝叶斯分类器?斯坦福 CoreNLP/NLTK(Java 或 Python)是否提供任何方法来构建具有 pos-tag 作为特征的分类器?我知道在 python 中NaiveBayesClassifier允许构建一个 NB 分类器,但它contains-a-word用作特征,但它可以扩展为使用 pos-tag-sequence 作为特征吗?