问题标签 [collective-intelligence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - .net/java 中有哪些优秀的集体智能开源库?
或者任何广泛利用集体智慧的开源项目?
math - 从采样的用户名中推断网站用户群规模的方法
假设您想估计一个不公开此信息的站点的用户群规模。
人们更有可能以不同的概率获得不同的用户名。例如,如果系统上不存在用户名“nick”,则它的用户群可能非常小。如果使用用户名“starbaby”,它可能是一个更大的站点。这似乎是一个简单的贝叶斯问题。
存在不同站点可能具有不同的允许用户名空间的问题。我想最大的问题是空格等常见字符的合法性。另一个可能影响之前发布的问题是,网站是否会在你想要的名字被取走时建议名字,或者让你自己想一个更有创意的名字。
您如何建立一个跨不同规模系统的用户名出现频率的训练集?有没有办法使用贝叶斯进行数值估计而不是分类到固定宽度的桶中?
similarity - 新闻条目(主题)相似度算法
我想确定两个新闻项目内容的相似性,类似于谷歌新闻,但在某种意义上不同,我希望能够确定基本主题是什么,然后确定哪些主题是相关的。
因此,如果一篇文章是关于萨达姆侯赛因的,那么该算法可能会推荐一些关于唐纳德拉姆斯菲尔德在伊拉克的商业交易的内容。
如果你能抛出 k-最近邻之类的关键词,并稍微解释一下它们为什么起作用(如果可以的话),我会做剩下的研究并调整算法。只是寻找一个开始的地方,因为我知道那里有人以前一定尝试过类似的东西。
c# - 寻找集体智慧 .Net / C# 资源
首先,我意识到这是一个与这个问题非常相似的问题:哪些是 .net/java 中集体智能的优秀开源库?
...但是那个问题的所有答案都是以 Java 为中心的,所以我再次询问,这次更多的是寻找 .Net(理想的 C#)想法。
一点背景;我最近阅读了Toby Segran 的关于 CI 的优秀书籍,我刚刚拿到了Satnam Alag 的书(我相信它也很优秀,但我才刚刚打开它)。这些都是以 Python 和 Java 为中心的,我在阅读代码示例时没有任何问题,但由于我是一名 C# 开发人员,因此在我的母语中使用其中的一些想法会很有趣。我已经搜索了网络和 SO,但没有想出太多。在某种程度上,这是个好消息,也许我可以将一些东西移植到 .Net(欢迎提出建议),但在我这样做之前,我也真的很想看看任何现有的项目。
那么,有没有在 .Net 中从事 OS 项目的 CI 粉丝,我是否错过了一些显而易见且有趣的书籍/网站/博客?
我意识到 CI 是一个相当广泛的领域,所以为了缩小范围,我主要对集群/预测/推荐领域感兴趣,但对其他想法持开放态度。
编辑:刚刚发现这本书即将由 Manning 出版,这可能会让 CI 粉丝感兴趣:智能网络算法。
编辑澄清以回应 Moose 的评论;我真正在寻找的是使用 CI 技术和 .Net 的库、框架或大型项目(理想的操作系统)。代码示例很棒,但正如 Moose 在他的评论中所说,获取 Java 示例并移植它们很容易。例如,有一个用 Java 编写的名为WEKA的有趣项目,我没有理由不能使用它并进行试验,我只是想知道 .Net 中是否发生了类似的事情。我刚刚浏览了有关Lucene的信息,我看到有一个 C# 端口,所以这是一个开始……还有更多吗?
编辑这不是 C#,而是 .Net;Robert Pickering 已开始在此处收集 F# CI 资源。看起来很有趣,但我仍在寻找 C# 信息。
python - Python 和集体智慧
我目前正在阅读 Toby Segaran 的一本名为“Programming Collective Intelligence”的好书(我强烈推荐)
代码示例都是用 Python 编写的,而且由于我今年已经学习了一种新语言(从 VB.net 毕业到 C#),所以我并不热衷于跳上另一条学习曲线。
这给我留下了将 python 示例翻译成 C# 的问题。
问题是:代码保留在 python 中有多重要?python中有没有我不能用普通的托管静态类型语言做的事情?
collective-intelligence - 集体智慧如何超越专家的观点?
我有兴趣做一些集体智能编程,但想知道它是如何工作的?
据说能够给出准确的预测:例如,O'Reilly Programming Collective Intelligence 的书说,一组交易者的行为实际上可以比专家更好地预测未来的价格(例如玉米)。
现在我们在统计学课上也知道,如果一个房间有40个学生参加考试,那么会有3到5个学生得到“A”的成绩。可能有 8 个得到“B”,17 个得到“C”,依此类推。也就是说,基本上,一个钟形曲线。
那么从这两个角度来看,“B”和“C”答案的集合如何能比得到“A”的答案给出更好的预测呢?
请注意,例如,玉米价格是考虑天气、使用玉米的食品公司的需求等因素的准确价格,而不是“自我实现的预言”(更多人购买玉米期货,价格上涨,更多人购买期货再次)。它实际上是准确预测供求关系,以给出未来的准确价格。
这怎么可能?
更新:我们可以说集体智慧在股市的兴奋和恐慌中不起作用吗?
artificial-intelligence - 数据挖掘、统计、集体智能和人工智能算法书籍和编程资源
为了不断提高自己,我决定学习数据挖掘、统计、集体智能和人工智能算法,以及诸如此类的东西。
我可以使用哪些免费电子书和网络资源(教程、代码)等?
database - 如何创建自己的推荐引擎?
这些天我对推荐引擎很感兴趣,我想在这方面提高自己。我目前正在阅读“ Programming Collective Intelligence ”,我认为这是 O'Reilly 写的关于这个主题的最佳书籍。但我不知道如何实现引擎;我所说的“不知道”是“不知道如何开始”。我有一个像 Last.fm 这样的项目。
- 我从哪里开始创建推荐引擎(应该在数据库端或后端实现)?
- 需要什么级别的数据库知识?
- 是否有任何可用于帮助或任何资源的开源?
- 我必须做的第一步应该是什么?
sql-server - 推荐系统实验
我正在阅读 Programming Collective Intelligence 一书,并尝试将我学到的知识应用于 Northwind 数据库。虽然我对我对所提出的算法的理解还没有信心,但我开始对一般概念有所了解。
使用 Northwind 数据库,我试图使用以下伪逻辑显示“购买此商品的客户也购买了 XYZ”的列表:
- 查找也购买了我的商品的其他客户
- 查找这些客户购买的所有其他商品
- 根据购买次数对商品进行排名
- 从上一步返回前 N 个项目
我正在使用以下查询:
我认为我的下一步是分解查询,以便我可以根据最近的购买(而不是所有历史购买)进行过滤,并将客户匹配限制为 N 个客户,而不是购买我产品的所有客户。任何人都可以提供任何指示吗?我是否朝着正确的方向前进?我应该完全采取不同的方向吗?
在这一点上,我的目标是性能而不是准确性,因为我知道我还没有将算法应用到最大收益的经验。我只是想应用这个概念。一旦我对它的理解感到满意,我打算针对具有更真实客户数据的更大数据库测试此查询。
java - 在 Lucene 中编写 Tokenizer 的正确方法
我正在尝试为集体情报目的分析 Drupal 数据库的内容。
到目前为止,我已经能够设计出一个简单的示例,该示例对各种内容(主要是论坛帖子)进行标记,并在删除停用词后计算标记。
Lucene 提供的StandardTokenizer
应该能够标记主机名和电子邮件,但内容也可以嵌入 html,例如:
这以这种方式被严重标记:
我想要的是将链接保持在一起并去除无用的html标签(如<pre>
或<strong>
)。
我应该写一个过滤器还是一个不同的分词器?Tokenizer 应该替换标准的,或者我可以将它们混合在一起吗?最困难的方法是将其StandardTokenizerImpl
复制到一个新文件中,然后添加自定义行为,但我现在不想深入 Lucene 实现(逐步学习)。
也许已经实现了类似的东西,但我一直找不到它。
编辑:
看着StandardTokenizerImpl
让我觉得,如果我必须通过修改实际实现来扩展它,与使用lex或flex并自己做相比,它不是那么方便..