问题标签 [bayesian]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1512 浏览

math - 是否有用于从计数数据中学习 Dirichlet 先验的 R 包

我正在寻找一个R可用于从计数数据中训练 Dirichlet 的软件包。求一个在用的同事,R自己不用,所以不太清楚怎么找包。搜索起来有点困难,因为“R”是一个非特定的搜索字符串。CRAN上似乎没有任何东西,但是还有其他地方可以看吗?

0 投票
2 回答
2082 浏览

artificial-intelligence - 衡量分类算法的性能

我手头有一个分类问题,我想用机器学习算法来解决(贝叶斯或马尔科夫可能,这个问题独立于要使用的分类器)。给定一些训练实例,我正在寻找一种方法来衡量已实施分类器的性能,同时考虑数据过度拟合问题。

也就是说:给定 N[1..100] 个训练样本,如果我对每个样本运行训练算法,并使用这些相同的样本来测量适应度,它可能会陷入数据过度拟合问题——分类器会知道训练实例的确切答案,没有太多的预测能力,使得适应度结果毫无用处。

一个明显的解决方案是将手工标记的样本分成训练样本和测试样本;我想了解选择具有统计意义的样本进行训练的方法。

非常感谢白皮书、书籍指南和 PDF!

0 投票
5 回答
12627 浏览

math - 排列组合面试

这是一个很好的方法,因为它非常违反直觉:

想象一个装满球的瓮,其中三分之二是一种颜色,三分之一是另一种颜色。一个人从瓮中抽出 5 个球,发现其中 4 个是红色的,1 个是白色的。另一个人抽了20个球,发现12个是红色的,8个是白色的。两个人中的哪一个应该更确信骨灰盒中有三分之二的红球和三分之一的白球,而不是相反?每个人应该给出什么赔率?

我知道正确的答案,但也许我不太了解赔率计算。谁能解释一下?

0 投票
3 回答
280 浏览

math - 从采样的用户名中推断网站用户群规模的方法

假设您想估计一个不公开此信息的站点的用户群规模。

人们更有可能以不同的概率获得不同的用户名。例如,如果系统上不存在用户名“nick”,则它的用户群可能非常小。如果使用用户名“starbaby”,它可能是一个更大的站点。这似乎是一个简单的贝叶斯问题。

存在不同站点可能具有不同的允许用户名空间的问题。我想最大的问题是空格等常见字符的合法性。另一个可能影响之前发布的问题是,网站是否会在你想要的名字被取走时建议名字,或者让你自己想一个更有创意的名字。

您如何建立一个跨不同规模系统的用户名出现频率的训练集?有没有办法使用贝叶斯进行数值估计而不是分类到固定宽度的桶中?

0 投票
3 回答
5437 浏览

java - 什么是最好的开源 Java 贝叶斯垃圾邮件过滤器库?

在 Stackoverflow 的其他答案中,有人建议 Weka 很好,但还有其他答案(Classifier4jjBNCNaiban)。

有人对这些有实际经验吗?

0 投票
2 回答
696 浏览

.net - .NET 是否有贝叶斯过滤器库

.NET 是否有贝叶斯过滤器库?

我想设置一组文件夹,并根据之前移动到文件夹的内容自动将电子邮件移动到这些文件夹中。

如果您熟悉 FogBugz 自动排序,那正是我想做的。

0 投票
2 回答
331 浏览

algorithm - 分析、分类和索引元数据

我有一个大型(约 250 万条记录)图像元数据数据库。每条记录代表一个图像,并具有唯一的 ID、描述字段、以逗号分隔的关键字列表(例如每张图像 20-30 个关键字)和一些其他字段。没有真正的数据库模式,如果不遍历每个图像并计算它们,我无法知道数据库中存在哪些关键字。此外,元数据来自几个不同的供应商,每个供应商对如何填写不同的字段都有自己的想法。

我想用这个元数据做一些事情,但由于我对这种算法完全陌生,我什至不知道从哪里开始寻找。

  1. 其中一些图像对它们有一定的使用限制(以文字形式给出),但每个供应商的措辞不同,无法保证一致性。我想进行一个简单的测试,我可以将其应用于图像,以指示该图像是否不受限制。它不必是完美的,只要“足够好”。我怀疑我可以为此使用某种贝叶斯过滤器,对吧?我可以用我知道是受限制或不受限制的图像语料库训练过滤器,然后过滤器就能够对其余图像进行预测?还是有更好的方法?
  2. 我还希望能够根据“关键字相似度”对这些图像进行索引,这样如果我有一张图像,我就可以快速判断它与哪些其他图像共享最多的关键字。理想情况下,该算法还将考虑到某些关键字比其他关键字更重要,并对它们进行不同的权衡。我什至不知道从哪里开始看这里,如果有任何指示,我会很高兴:)

我主要在 Java 中工作,但语言选择在这里无关紧要。我更感兴趣的是了解哪些方法最适合我开始阅读。提前致谢 :)

0 投票
6 回答
9355 浏览

python - 用于 Python 的贝叶斯垃圾邮件过滤库

我正在寻找一个执行贝叶斯垃圾邮件过滤的 Python 库。我查看了 SpamBayes 和 OpenBayes,但两者似乎都没有维护(我可能错了)。

谁能推荐一个实现贝叶斯垃圾邮件过滤的优秀 Python(或 Clojure、Common Lisp,甚至 Ruby)库?

提前致谢。

澄清:我实际上是在寻找贝叶斯垃圾邮件分类器,而不一定是垃圾邮件过滤器。我只想使用一些数据来训练它,然后告诉我某些给定的数据是否是垃圾邮件。很抱歉有任何混淆。

0 投票
3 回答
5163 浏览

python - 哪些 Python 贝叶斯文本分类模块类似于 dbacl?

快速的谷歌搜索显示有大量的贝叶斯分类器被实现为 Python 模块。如果我想要类似于dbacl的封装的高级功能,哪些模块适合我?

训练

分类

0 投票
4 回答
1983 浏览

c# - 在贝叶斯垃圾邮件过滤器中计算令牌成为垃圾邮件的概率

我最近写了一个贝叶斯垃圾邮件过滤器,我使用Paul Graham 的文章 Plan for Spam我在 codeproject 上找到的 C# 中的实现作为创建我自己的过滤器的参考。

我刚刚注意到 CodeProject 上的实现使用唯一令牌的总数来计算令牌成为垃圾邮件的概率(例如,如果 ham 语料库总共包含 10000 个令牌但 1500 个 unqiue 令牌,则 1500 用于计算概率为 ngood ),但在我的实现中,我使用了 Paul Graham 的文章中提到的帖子数量,这让我想知道其中哪一个在计算概率时应该更好:

  1. 帖子计数(如 Paul Graham 的文章中所述)
  2. 唯一令牌总数(在 codeproject 的实现中使用)
  3. 令牌总数
  4. 包含的令牌总数(即 b + g >= 5 的那些令牌)
  5. 包含的唯一令牌总数