问题标签 [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
196 浏览

data-mining - 车辆搜索的最佳数据挖掘方法是什么?

我正在尝试构建一个搜索引擎,该引擎可以浏览在线车辆分类,例如 Oodle、eBay 汽车和 craigslist。我还有一个包含标准车辆名称和规格的大型数据库。我想做的是对于我通过分类网站找到的每条记录,能够准确地确定它是什么车型、款式(来自我的数据库)。例如,我的数据库中福特卡车的标准名称是:2003 Ford F150。

然而,在分类网站上,人们可能将其称为:“2003 Ford F 150”或“2003 Ford f-150”或“03 Ford truck 150”。是否有有效的数据挖掘/文本分类算法能够将这些文本标准化为上述标准名称?

0 投票
2 回答
571 浏览

asp.net - 制图和数据处理

虽然这里有一些关于 .net 图表控件的线程,但我正在开始新线程,因为我可能正在寻找一些高级数据操作(也许这会属于数据挖掘,但我不确定)以及图表。

我被要求研究原型和关键绩效指标 (KPI) 系统。基本上,我们在数据库中有大量销售数据,我们想在这些数据中绘制/绘制各种关系。例如,我们在 2008 年 1 月提高了价格,将每个月的销售额与上一年的销售额进行比较并显示在图表中。

该数据库尚不存在 - 我们将从各种其他数据库中提取数据,因此将从头开始创建新数据库。目前我有一些 excel 格式的示例数据和一种在 excel 中创建的原型。

我想可能有两种方法可以解决这个问题:

  1. 手动创建我需要的所有查询并将数据提供给 .net 图表控件。

或者

  1. 是否有一些现成的数据操作/挖掘工具可以在提取数据中的关系方面做很多繁重的工作。不知道这种事情是否存在?(虽然我知道我试图为我的论文构建这样的东西 - 这是令人难以置信的废话!)

一个相关的注意事项是,Dundas 图表和 Microsoft asp.net 图表工具做同样的事情。在堆栈溢出的线程中,有人声称实际上有同样的事情,MS 买了 dundas 吗?有没有理由购买登打士而不是使用免费的 MS 图表控件?

对此的任何建议将不胜感激。提前致谢!

0 投票
5 回答
2721 浏览

algorithm - 具有离散和连续属性的聚类算法?

有谁知道在离散和连续属性上执行聚类的好算法?我正在解决识别一组相似客户的问题,并且每个客户都具有离散和连续属性(考虑客户类型、该客户产生的收入金额、地理位置等。)

像 K-means 或 EM 这样的传统算法适用于连续属性,如果我们混合了连续属性和离散属性怎么办?

0 投票
2 回答
1031 浏览

sql - SQL Server 非标准基于日期的直方图

我有带有时间戳的用户登录数据,我想做的是按年份获取登录的直方图,但年份从任意日期开始。例如,我想要以下类型的信息:

第一列中的标签并不重要,但日期范围很重要。我知道我可以通过以下方式将其分解:

但这并没有给我想要的数据范围。如何才能做到这一点?

0 投票
20 回答
18873 浏览

open-source - 数据挖掘开源工具

我将从事一个数据挖掘项目。在开始之前,我想探索不同的数据挖掘工具(最好是开源的),这些工具允许基于 Web 的报告。在我的场景中,数据将提供给我,所以我不应该为它爬行。

简而言之,我正在寻找一种工具——数据分析,基于 Web 的报告,提供某种仪表板和挖掘功能。

我曾在 Microsoft Analysis Services 和 BOXI 工作过,最近我一直在研究 Pentaho,这似乎是一个不错的选择。

请分享您对任何您知道的此类工具的经验。

干杯

0 投票
3 回答
973 浏览

comparison - 评估数据挖掘工具的行业基准

我正在为一个项目寻找数据挖掘工具,与此一致,我在 SO 中发布了另一篇文章。我目前正在研究不同的工具,并且想知道是否存在任何行业基准来评估不同的数据挖掘工具,以便我可以参考它来更好地评估工具。

请让我知道是否存在任何此类基准,或者归结为选择适合您需求的工具...

干杯

0 投票
2 回答
988 浏览

olap - BI 与数据挖掘有何关联?

我对如何将 BI 与数据挖掘联系起来有点困惑。BI可以被称为数据挖掘的某种表现形式吗?

Microsoft Analysis Services 等 BI 工具与 Weka 等数据挖掘工具有何不同?

我猜BI涉及更多的数据报告和分析,其中数据经过某种聚合并以多维数据集的形式表示,但数据挖掘还涉及执行聚类的不同算法,不是吗?

任何指针?

干杯

0 投票
4 回答
10375 浏览

algorithm - 最好的聚类算法?(简单解释)

想象以下问题:

  • 您有一个包含大约 20,000 条文本的数据库,表中名为“articles”
  • 您想使用聚类算法连接相关文章,以便一起显示相关文章
  • 该算法应该进行平面聚类(不是分层的)
  • 相关文章应插入“相关”表中
  • 聚类算法应根据文本判断两篇或多篇文章是否相关
  • 我想用 PHP 编写代码,但使用伪代码或其他编程语言的示例也可以

我用函数 check() 编写了初稿,如果两个输入文章相关,则给出“true”,否则给出“false”。其余的代码(从数据库中选择文章,选择要比较的文章,插入相关的文章)也是完整的。也许您也可以改进其余部分。但对我来说重要的要点是函数 check()。因此,如果您可以发布一些改进或完全不同的方法,那就太好了。

方法 1

方法 2 [仅检查()]

我还想说,我知道有很多聚类算法,但是在每个站点上只有数学描述,这对我来说有点难以理解。所以(伪)代码中的编码示例会很棒。

我希望你能帮助我。提前致谢!

0 投票
2 回答
132 浏览

search - 如何可视化大型文档集?

我有 100 Gb 的文件。我想对其进行描述,并对流行的主题有一个大致的了解。

文档是纯文本。

我曾考虑使用 Google 桌面之类的工具进行搜索,但它太大而无法真正猜测要搜索的内容,而且执行足够多的搜索以覆盖整个集合太费时。

是否有任何免费可用的工具可以对大型文档数据集进行聚类?

有没有这样的工具可以可视化这样的集群?

0 投票
4 回答
206 浏览

logging - 数据挖掘日志以定位错误

我正在开发一个数据分发应用程序,它从源接收数据并将该数据分发到多个目标应用程序。在 8 天内每秒成功分发多条消息后,它错过了一条消息,并且没有正确地将其传递给客户端。

当我查看日志时,我试图在那里找到在错过发生时特别的东西——无论是在数据、它的速率或其他一些条件中,但找不到任何东西。

是否有任何数据挖掘技术可以用来识别特定事件与其他事件的不同之处?