问题标签 [bayesian]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
263 浏览

php - 有效地集成 1-10 投票系统,没有常见的陷阱

我计划将合理的排名/投票系统集成到现有应用程序中。

我熟悉传统的 5 星评级系统是如何工作的,并且知道与它们相关的常见陷阱/问题,因此想知道是否还有其他方法(我听说过威尔逊、贝叶斯等,但不确定如何实施这具有以下结构):

  • 我计划允许用户通过内容页面对 1 到 10 之间的内容进行投票。
  • 该内容的得分和总票数将显示在内容页面上。
  • 我还将显示/列出前 10 名内容,因此我需要该方法是公平/现实的,而不是进行 10 票投票,总票数为 1 票直接进入第 1 名。

我正在使用PHPand MySQL,我有一个用于内容的表格(content_id我想我可以JOIN使用它)。

我想知道您是否可以提出一种实现上述目标的方式/方法,如果您可以附上一些示例 PHP 代码和示例 MySQL 模式,以便我可以更好地理解它,我将不胜感激,因为我已经 google'd 并且可能有找到了潜在的解决方案,例如威尔逊和贝叶斯……但他们提供了一篇冗长的文章,其中包含令人困惑的数学方程式——并且没有提及达到上述目的的方法(即分数……并在 PHP/MySQL 中实施该方法)或至少由于没有任何示例 PHP/MySQL 代码,我误解了这一点。

也许这比我想的更容易——我不知道,因为我以前从来没有需要实现这种“更复杂”的排名/投票功能——所以我很感激你的回复。

0 投票
2 回答
3870 浏览

machine-learning - 如何在朴素贝叶斯分类器中使用优势比特征选择

我想将文档(由单词组成)分为 3 类(正面、负面、未知/中性)。文档单词的一个子集成为特征。

到目前为止,我已经编写了一个朴素贝叶斯分类器,用作特征选择器信息增益和卡方统计。现在,我想看看如果我使用 Odds ratio 作为特征选择器会发生什么。

我的问题是我不知道实施赔率比很热。我是不是该:

1) 计算每个单词 w、每个类别的 Odds Ratio: 例如对于 w:

2)我应该如何决定是否选择这个词作为特征?

提前致谢...

0 投票
1 回答
754 浏览

bayesian - Mahout 中朴素贝叶斯分类器对网站分类的适用性

我目前正在从事一个需要对网站进行分类的数据库(例如 cnn.com = 新闻)的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈,但我们收到的大多数报价都非常昂贵,而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。

同时,我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作,所以我正在做大量的研究。

通过阅读有关该主题的各种论文,似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而,许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息,如超链接、标题标签、多词短语、URL、词频等。

我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器,我可以看到它对网站分类的适用性,但我担心它在我的用例中的准确性。

有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗?任何关于从哪里开始的指针将不胜感激。

或者,如果我完全叫错了树,请告诉我!

0 投票
2 回答
312 浏览

algorithm - 贝叶斯分类器的实现细节

我已经实现了一个简单的贝叶斯分类器,但是在处理大量数据时遇到了一些溢出问题。

为了使数字保持小但仍然准确,我尝试的一种策略是不断减少分子和分母,并为方程的每个部分使用最大公约数。但是,这仅在它们具有公约数时才有效...

请注意,问题是双向的,当我在大多数计算中将分母和分子分开时,我会遇到整数溢出问题,当我使用双算术即时进行大多数计算时,我遇到了各种问题/限制非常小的双精度值(由 IEEE 754 定义)。

我相信你们中的一些人之前已经实现过这个算法,你们是如何处理这些问题的?我不想引入任意精度类型,因为它们成本太高,而且我确信存在不需要它们的解决方案。

谢谢。

0 投票
1 回答
3984 浏览

statistics - 使用朴素贝叶斯分类器进行在线学习

我正在尝试预测传入网络数据包的到达间隔时间。我测量网络数据包的到达间隔时间并以二进制特征的形式表示该数据:xi = 0,1,1,1,0,...如果到达间隔时间小于 a ,则xi =0收支平衡时间,否则为 1。必须将数据映射到两个可能的类C={0,1},其中C=0表示较短的到达间隔时间,1 表示较长的到达间隔时间。因为我想在在线特征中实现分类器,所以只要我观察到特征向量xi=0,1,1,0...,我计算MAP类。由于我没有条件概率和先验概率的先验估计,因此我将它们初始化如下:

对于每个特征向量(x1=m1,x2=m2,...,xn=mn),当我输出一个类C时,我将条件概率和先验概率更新如下:

问题是,我总是得到一个有偏见的预测。由于long的到达间隔次数比short少,所以short的后总是高于long。有什么办法可以改善这一点吗?还是我做错了什么?任何帮助将不胜感激。

0 投票
3 回答
5661 浏览

machine-learning - 文本分类成类别

我正在研究一个文本分类问题,我正在尝试将一组单词分类,是的,有很多库可用于分类,所以如果您建议使用它们,请不要回答。

让我解释一下我想要实现的内容。(举个例子)

单词列表:

  1. 爪哇
  2. 编程
  3. 升c

类别列表。

  1. 爪哇
  2. 升c

在这里,我们将训练该集合,如下所示:

  1. java 映射到类别 1。 java
  2. 编程映射到类别 1.java
  3. 编程映射到类别 2.c-sharp
  4. 语言映射到类别 1.java
  5. 语言映射到类别 2.c-sharp
  6. c-sharp 映射到类别 2.c-sharp

现在我们从给定的短语中得到了一个短语“ The best java programming book ”,下面的单词与我们的“单词列表”匹配:

  1. 爪哇
  2. 编程

“编程”有两个映射类别“java”和“c-sharp”,所以它是一个常用词。

“java”仅映射到类别“java”。

所以我们的短语匹配类别是“java”

这就是我想到的,这个解决方案好不好,可以实施吗,你有什么建议,我遗漏的任何东西,缺陷等。

0 投票
1 回答
472 浏览

statistics - 贝叶斯网络开源

谁能推荐一个好的开源或免费的贝叶斯网络软件程序?

我一直在使用baysealab上课,但是我的帐户将过期,我想继续构建和使用bns。

0 投票
3 回答
8535 浏览

java - 用 Java 编写的开源朴素贝叶斯分类器

我正在寻找一个用 Java 编写的开源朴素贝叶斯分类器库。将不胜感激任何帮助找到一个。

朴素贝叶斯分类器与贝叶斯网络相同吗?

0 投票
1 回答
804 浏览

mahout - apache mahout 中的 nGram

我正在通过 apache mahout 运行朴素贝叶斯分类器算法。我们可以选择在训练和运行算法实例时设置 gram 大小。

将我的 n-Gram 大小从 1 更改为 2,会极大地改变结果分类。为什么会这样?n-Grams 大小如何使结果发生巨大变化?

0 投票
1 回答
604 浏览

java - 在我的 Web 应用程序中使用 mahout 的分类器

我已经使用 apache mahout 开发了一个贝叶斯分类器。现在我想将它与我的基于 Java 的 Web 应用程序集成,即给定一个训练模型,该 Web 应用程序应该能够预测和分类给定的文本。它是一个基于 JSP 的 Web 应用程序。

我应该怎么做?是否有任何博客/网站提供一步一步的教程。