问题标签 [naivebayes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
oop - 面向对象的贝叶斯垃圾邮件过滤?
我想知道是否有针对垃圾邮件和文本分类的贝叶斯过滤的良好且干净的面向对象编程 (OOP) 实现?这仅用于学习目的。
naivebayes - 朴素贝叶斯垃圾邮件过滤效果
朴素贝叶斯过滤过滤垃圾邮件的效果如何?
我听说垃圾邮件发送者很容易通过填充额外的非垃圾邮件相关词来绕过它们。贝叶斯过滤器可以使用哪些编程技术来防止这种情况发生?
statistics - 理解贝叶斯定理
我正在研究一个朴素贝叶斯分类器的实现。编程集体智能通过将贝叶斯定理描述为:
以及与文档分类相关的具体示例:
Pr(A | B)
我希望有人可以向我解释这里使用的符号,是什么Pr(A)
意思?它看起来像某种功能,但管道(“ |
”)是什么意思,等等?
python - python中的任何朴素贝叶斯分类器?
我已经尝试过用于朴素贝叶斯分类的橙色框架。
- 这些方法非常不直观,文档也非常杂乱无章。这里有人推荐另一个框架吗?
- 我
NaiveBayesian
现在主要使用。
我正在考虑使用 nltk,
NaiveClassification
但他们认为他们不能处理连续变量。
我有哪些选择?
algorithm - 朴素贝叶斯垃圾邮件过滤问题
我计划使用朴素贝叶斯分类模型来实现垃圾邮件过滤器。
在网上我看到很多关于朴素贝叶斯分类的信息,但问题是它有很多数学内容,而不是清楚地说明它是如何完成的。问题是我更像是一个程序员而不是数学家(是的,我在学校学过概率和贝叶斯定理,但很长一段时间都没有接触过,而且我现在没有学习它的奢侈(几乎3 周的时间来制作一个工作原型))。
因此,如果有人可以解释或指出我为程序员而不是数学家解释的位置,那将是一个很大的帮助。
PS:顺便说一句,如果你想知道的话,我必须用 C 来实现它。:(
问候,微内核
machine-learning - 使用“词袋”方法进行主题检测的朴素贝叶斯
我正在尝试实施一种朴素的贝叶斯方法来查找给定文档或单词流的主题。是否有我可以查找的朴素贝叶斯方法?
另外,我正在努力改进我的字典。最初,我有一堆词映射到一个主题(硬编码)。取决于已经映射的单词以外的单词的出现。并且根据这些单词的出现,我想将它们添加到映射中,从而改进和学习映射到主题的新单词。并且还改变了单词的概率。
我该怎么做呢?我的方法是正确的吗?
哪种编程语言最适合实现?
python - 将文档分类
我在 Postgres 数据库中存储了大约 30 万个文档,这些文档带有主题类别(总共大约 150 个类别)的标签。我还有另外 150k 个文档还没有类别。我试图找到以编程方式对它们进行分类的最佳方法。
我一直在探索NLTK及其朴素贝叶斯分类器。似乎是一个很好的起点(如果您可以为此任务提出更好的分类算法,我会全力以赴)。
我的问题是我没有足够的 RAM 来一次在所有 150 个类别/300k 文档上训练 NaiveBayesClassifier(5 个类别的训练使用 8GB)。此外,当我在更多类别上训练时,分类器的准确率似乎会下降(2 个类别的准确率为 90%,5 个类别为 81%,10 个类别为 61%)。
我是否应该一次只训练 5 个类别的分类器,然后通过分类器运行所有 150k 文档以查看是否有匹配项?似乎这会起作用,除了会有很多误报,其中与任何类别都不真正匹配的文档会被分类器硬塞进去,只是因为它是可用的最佳匹配......有吗?一种为分类器提供“以上都不是”选项的方法,以防文档不适合任何类别?
machine-learning - 提高朴素贝叶斯分类器准确性的方法?
我正在使用朴素贝叶斯分类器将数千个文档分类为 30 个不同的类别。我已经实现了一个朴素贝叶斯分类器,并且通过一些特征选择(主要是过滤无用的词),我得到了大约 30% 的测试准确率和 45% 的训练准确率。这比随机要好得多,但我希望它更好。
我已经尝试用 NB 实现 AdaBoost,但它似乎并没有给出明显更好的结果(文献似乎对此有分歧,一些论文说 AdaBoost 和 NB 并没有给出更好的结果,其他的则有)。您是否知道任何其他可能提供更好准确性的 NB 扩展?
python - 在 Python 中用于内容分类的 Orange vs NLTK
我们需要一个内容分类模块。贝叶斯分类器似乎是我正在寻找的。我们应该选择 Orange 还是 NLTK ?
ruby - Ruby 中的朴素贝叶斯
我们正在尝试在 Ruby 中进行朴素贝叶斯分类。
目前我们正在使用http://ai4r.rubyforge.org/
我们无法让它对浮点值起作用,并且对字符串值的准确度降低了大约 20%。使用浮点数/整数,我们得到一个 [] 无从 nil 到整数的隐式转换。我们用 to_s 转换浮点数。
有没有办法让浮点值工作?如果不是,对于红宝石的 ai4r 或朴素贝叶斯的替代算法有什么替代宝石?