问题标签 [bayesian]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
6296 浏览

sql - sql中的朴素贝叶斯计算

我想使用朴素贝叶斯将文档分类为数量相对较多的类。我希望根据该文章是否与已正确验证该实体的文章相似,来确认文章中提及的实体名称是否真的是该实体。

比如说,我们在一篇文章中找到了“通用汽车”这一文本。我们有一组数据,其中包含文章和其中提到的正确实体。因此,如果我们发现新文章中提到的“通用汽车”,它是否应该属于先前数据中包含已知正品的那类文章提及“通用汽车”与未提及该实体的文章类别?

(我不是为每个实体创建一个类,并试图将每篇新文章分类到每个可能的类中。我已经有一种启发式方法来查找实体名称的合理提及,我只想验证有限数量的合理性该方法已经检测到的每篇文章的实体名称提及。)

鉴于潜在的课程和文章的数量非常大,而且朴素贝叶斯相对简单,我想在 sql 中完成整个事情,但是我在评分查询方面遇到了麻烦......

这是我到目前为止所拥有的:

标记数据中的每篇文章都被拆分为不同的单词,并且对于每个实体的每篇文章,每个单词都被添加到each_entity_word和/或其word_count递增和doc_count递增 in entity_word_sum,两者都相对于 an entity_id。对于该文章中提到的每个已知实体都重复此操作。

对于每篇文章,无论每个单词中包含的实体如何,total_entity_word total_entity_word_sum都类似地递增。

  • P(word|any document) 应该等于该 单词 的word_countintotal_entity_worddoc_counttotal_entity_sum
  • P(word|document 提到实体x ) 应该等于word_countin each_entity_word对于entity_id x超过doc_countin each_entity_sum对于entity_id x
  • P(word|document没有提到实体x ) 应该等于 ( word_countintotal_entity_word减去它的word_countineach_entity_word代表那个实体的那个词) 超过 (the doc_countintotal_entity_sum减去doc_count那个实体 in each_entity_sum)
  • P(文档提及实体x)应该等于doc_counteach_entity_sum实体 id 超过doc_countintotal_entity_word
  • P(文档未提及实体x)应等于 1 减(doc_countineach_entity_sum代表x的实体 id over doc_countin total_entity_word)。

对于进来的新文章,将其拆分为单词,然后选择 where word in ('I', 'want', 'to', 'use'...) 反对each_entity_wordor total_entity_word。在我使用的数据库平台(mysql)中,IN 子句得到了相对较好的优化。

sql 中也没有 product() 聚合函数,所以当然你可以只做 sum(log(x)) 或 exp(sum(log(x))) 来获得 product(x) 的等价物。

因此,如果我收到一篇新文章,将其拆分为不同的单词并将这些单词放入一个大的 IN() 子句和一个潜在的实体 id 进行测试,我怎样才能获得文章落入该实体的朴素贝叶斯概率id在sql中的类?

编辑:

尝试#1:

0 投票
1 回答
461 浏览

ssas - 学习如何在 SSAS 中实现朴素贝叶斯分类器的最佳资源是什么?

问完这个问题后,我决定尝试使用 SQL Server Analysis Services 实现一些朴素贝叶斯分类器。

谁能给我指出一本关于如何在 SSAS 中实现朴素贝叶斯分类器的好书、网站或任何其他资源?同样,我会对学习决策树感兴趣。

0 投票
2 回答
4271 浏览

ruby - 在 Ruby 中实现贝叶斯分类器?

我想实现一个简单的贝叶斯分类系统来对短信进行基本的情感分析。欢迎提供在 Ruby 中实现的实用建议。除了贝叶斯之外,其他方法的建议也将受到欢迎。

0 投票
3 回答
3584 浏览

nlp - 简单的情绪分析

似乎进行基本情感分析的最简单、最天真的方法是使用贝叶斯分类器(由我在 SO 上找到的内容证实)。有任何反驳或其他建议吗?

0 投票
1 回答
169 浏览

artificial-intelligence - 如何过滤/排序/排序对象模型节点?

我有某种对象模型,我需要为某种属性过滤和排序它的节点。存在哪些类型的自动化系统来生成和选择与我想要的对象模型相关的属性?(我故意抽象和不具体)

我正在考虑一个类似于垃圾邮件过滤器或监督分类系统的系统,在给定示例数据集的情况下,它可以识别找到感兴趣节点的规则。但是,我正在寻找一个更通用的系统,因为它不需要任何有关对象模型的设计时信息。它应该作为电子邮件中的垃圾邮件过滤器、代码库中的错误查找器、新闻组中的兴趣过滤器或社交网站上的机器人帐户查找器中的平等工作。只要它可以通过反射探索对象模型并被赋予一组“有趣”的节点,它应该能够找到能够找到更多类似它们的节点的规则。

0 投票
10 回答
22790 浏览

sorting - 按 5 星评级排序的更好方法是什么?

我正在尝试使用 5 星系统按客户评分对一堆产品进行分类。我正在为其设置的网站没有很多评分,并且会继续添加新产品,因此通常会有一些评分较低的产品。

我尝试使用平均星级,但当评级数量很少时,该算法会失败。

例如,具有 3x 5 星评级的产品会比具有 100x 5 星评级和 2x 2 星评级的产品显示得更好。

第二个产品不应该显示得更高,因为它在统计上更值得信赖,因为评级数量更多吗?

0 投票
2 回答
968 浏览

r - MCMClogit 混乱

任何人都可以向我解释为什么

总是导致 MCMC 接受率为 0?任何解释将不胜感激!

0 投票
5 回答
703 浏览

algorithm - 算法根据其他用户的喜好来寻找用户喜欢的东西

我正在考虑编写一个应用程序来根据家庭成员的喜好对 HTPC 中的电影进行分类。

我不知道统计或人工智能,但这里的东西看起来很有趣。我不知道从哪里开始做。

这是我想要完成的事情:

  1. 根据每个用户的喜好组成一组样本,分别对每个样本属性进行评分。例如,也许一个用户非常喜欢西方电影,所以西方类型对该用户来说会带来更多的权重(对于其他属性,如演员、导演等)。

  2. 用户可以根据其他用户的喜好获得建议。例如,如果用户 A 和 B 都喜欢 Spielberg(用户之间的联系),并且用户 B 喜欢 Batman Begins,但用户 A 讨厌 Katie Holmes,则相应地为用户 A 权衡电影(同样,每个属性单独,例如,也许用户 A 不太喜欢动作片,所以稍微降低评分,因为凯蒂·霍姆斯不是主要明星,所以不要像其他属性一样考虑这一点)。

基本上,将用户 A 的集合与用户 B 的集合进行比较,然后得出用户 A 的评分。

我对如何实现这个有一个粗略的想法,但我敢肯定一些聪明的人已经想到了一个更好的解决方案,所以......有什么建议吗?

实际上,经过快速研究,贝叶斯过滤器似乎可以工作。如果是这样,这会是更好的方法吗?会不会像“规范化”电影数据、为每个用户训练分类器、然后对每部电影进行分类一样简单?

如果您的建议包括一些令人费解的概念(我在这些主题方面没有经验,特别是在 AI 方面),如果您还包括一些基础知识列表供我在深入研究肉类之前进行研究,我将不胜感激。

谢谢!

0 投票
2 回答
204 浏览

duplicates - 贝叶斯过滤器标记重复项

我收集某些主题的新闻,然后对它们运行贝叶斯分类器以将它们标记为有趣或不有趣。我看到有些新闻是不同的文章本质上是相同的新闻。例如 - 本金斯利和妻子参观泰姬陵 - 金斯利在泰姬陵的草坪上与妻子浪漫

我如何教系统将所有这些标记为重复项?

谢谢桑杰

0 投票
1 回答
1659 浏览

c# - 贝叶斯网络中 Kim 和 Pearl 的消息传递算法

你能给我一个很好的链接/资源,在那里我可以找到一个很好的贝叶斯网络实现,我对条件概率表的生成以及如何传递消息/更新节点特别感兴趣。

谢谢!