问题标签 [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
model - 数据处理中的模型过于复杂
对于那些处理数据的人来说,有一句谚语:“如果你对数据进行了充分的折磨,它几乎会承认任何事情”。这在数学上得到了 Boferroni 定理的支持,该定理指出“随着人们执行越来越多的统计测试,获得错误的重要发现(I 类错误)的可能性也会增加”。例如,众所周知,在《数据挖掘原理》中给出的情况是:“Leinweber(个人通信)提供了这种预测的一个特别幽默的例子,他几乎完美地预测了著名的标准普尔的年度值。 500 金融指数作为前几年的年度值的函数,用于孟加拉国和美国的黄油生产、奶酪生产和绵羊数量。
你有没有遇到过使用过于复杂的模型,结果错误的实际情况?您能否介绍这种情况以及您使用的方法?
artificial-intelligence - 数据挖掘、统计、集体智能和人工智能算法书籍和编程资源
为了不断提高自己,我决定学习数据挖掘、统计、集体智能和人工智能算法,以及诸如此类的东西。
我可以使用哪些免费电子书和网络资源(教程、代码)等?
data-mining - 从数据中获取信息——数据挖掘实用技术
我正在使用 php 和 mysql 开发一个在线书店。现在我想实现一些数据挖掘技术,比如推荐相关书籍等等。
我想知道获得一些有用的实用技术来实现这些东西的最佳资源是什么。
提前谢谢。
data-mining - 协同过滤:为每个用户确定产品隐含分数的方法?
在实现了一个算法来推荐产品并取得了一些成功之后,我现在正在研究计算该算法的初始输入数据的方法。
我的目标是计算用户有某种历史的每种产品的分数。
我目前正在收集的数据:
- 用户订单历史
- 匿名用户和注册用户的产品浏览历史记录
所有这些数据都带有时间戳。
我在寻找什么
我正在寻找一些建议,理想情况下,应该更多地讨论这个问题,而不是针对单一的“正确”答案。
- 我可以为用户收集的任何可以直接暗示对产品感兴趣的其他数据
- 将这些数据转化为每个产品的分数的算法/方程式
我不是在寻找什么
只是为了避免这个问题因错误的答案而脱轨,一旦我为每个用户获得了这些数据,这就是我正在做的事情:
- 使用 k-means 聚类算法生成多个用户聚类(目前为 21 个),使用 pearsons 系数作为距离得分
- 对于每个用户(按需),通过在他们的集群中寻找他们最相似和最不相似的用户并重复任意深度来计算他们的相似用户图。
- 根据用户图表中其他用户的偏好计算每个产品的分数
- 对分数进行排序以返回推荐列表
基本上,我不是在寻找关于一旦获得输入数据后该做什么的想法(稍后我可能需要进一步的帮助,但这不是这个问题的重点),只是想知道如何在第一名
java - weka可视化选项卡中的jitter是什么意思
在weka我加载了一个 arff 文件。我可以使用可视化选项卡查看属性之间的关系。
但是我无法理解抖动滑块的含义。它的目的是什么?
algorithm - 寻找集群的中心
我有以下问题 - 抽象出来以提出关键问题。
我有 10 个点,每个点都有一些距离。我想要
- 能够找到簇的中心,即与其他点的成对距离最小的点,
令 p(j) ~ p(k) 表示点 j 和 k p(i) 之间
的成对距离 -
集群的点 iff p(i) st min[sum(p(j)~p(k))] for all 0 < j,k <= n 其中我们在集群中有 n 个点 - 一旦集群中的数据点数量超过某个阈值 t,确定如何将集群拆分为两个集群。
这不是欧几里得空间。但是距离可以总结如下 - p(i) 是点 i:
我将如何计算哪个是该集群的中心点?
open-source - 你使用什么数据挖掘工具?
除了两个著名的开源工具 RapidMiner 和 Weka,还有其他好的工具(开源或商业)可以推荐用于数据挖掘吗?
提前致谢!
mysql - 大型数据集的最佳数据库引擎
我进行数据挖掘,我的工作涉及将 +1GB 数据库转储文件加载和卸载到 MySQL。我想知道在大型数据库上是否有任何其他免费数据库引擎比 MySQL 更好?PostgreSQL 在性能方面更好吗?
我只使用基本的 SQL 命令,所以速度是我选择数据库的唯一因素
data-mining - 数据挖掘/商业智能/分析/机器学习:有数学挑战的人可以进入这个领域吗?
我最近对数据挖掘和机器学习领域产生了兴趣。浏览庞大的数据集并尝试关联隐藏的模式和趋势的想法令人着迷。到目前为止,我已经完成了以下工作
- 使用 Weka 加载简单的数据集并生成决策树
- 不断地阅读书籍、维基、博客等
- 开始玩 SQL Server DM 和 Python API
- 对网络上免费提供的数据集选项有一个想法(freedb、UN 等)
阻碍我的是,当我试图超越分类/关联并进入先验/先验算法时,我被卡住了,因为理解数学方程和逻辑不是(谦虚地说)我的强项之一。
所以我的问题是,在数据挖掘领域(以产品所有者或构建者的角色)有没有天生不是数学家的人?如果是这样,由于 Weka 和 Rapid-miner 等免费工具都需要一些数学/统计背景,您将如何理解该领域?
PS:如果我在查询中犯了一些错误,例如在数据挖掘和分析是分开的时候混合使用,请原谅我,因为我还在弄湿我的脚。我希望我的核心问题很清楚。
data-mining - 美味的书签 - 经常添加书签的网址
我还没有找到任何可以帮助我分析美味书签的预制脚本。我想知道是否有我经常收藏的网站。我知道我可以导出我的书签并且可以从那里开始。有人做过吗?你是怎么做的?
附带说明 - 有没有做类似事情的 RSS 阅读器?