问题标签 [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
987 浏览

jquery - 我将如何使用 Processing、jQuery、Pure Data 或 Max/MSP 绘制“实时”股市数据?

这是一个对任何建议、提示或指针都非常开放的问题。我希望开始使用自制的自动化投资模型,我对它的开始有了概念。我熟悉一些我怀疑可以帮助我的框架/语言。也欢迎对指定语言以外的其他语言提出建议。

我或许能够从 Google 或 Yahoo Finance API 查询 XML 数据?不太熟悉 XML。我在哪里可以找到有关 XML 的相关教程或信息来实现此目的?

另外,有没有办法在特定的特定条件下通过大量“当前”股票数据(许多股票的当前价值)进行搜索?

谢谢!

0 投票
1 回答
1207 浏览

data-mining - 输入属性和可预测属性的区别

任何人都可以澄清数据挖掘中决策树算法的输入属性和可预测属性之间的区别。

谢谢。

0 投票
2 回答
218 浏览

mysql - 分组以提取半结构化数据中的共同值

我在包含位置名称的数据库中有一个“有点”丑陋的字段。例如,麦迪逊广场花园也被命名为“麦迪逊广场花园”等。

我正在尝试提取数据,以便获得所有位置的准确列表。为了实现这一点,我所做的是创建一个 sql 查询,在其中加入每个位置的事件,然后按位置名称分组,并且只使用具有 10 个以上条目的位置组(过滤掉一些非可靠的条目),但我仍然会得到一些非常不同的拼写和条目,从而导致重复的属性/位置。

我的 SQL 查询看起来像这样

运行此查询会提供 3 个不同的条目“麦迪逊广场花园”、“麦迪逊广场花园”、“麦迪逊广场花园”。当然,这只是针对麦迪逊广场花园的入口。大多数条目有多个略有不同的拼写。

我通过纬度/经度限制我的搜索,因此我不会在不同城市中获得具有相同名称的位置。

有没有办法使用正则表达式或 GROUP 子句中的东西来使这些分组一致?即使只是在分组之前删除尾随的“s”和“the”也可能是一个很大的好处。

我打算获取每个结果,然后对纬度/长期范围内的所有位置进行正则表达式匹配?

幸运的是,我有足够多的与地点相关联的事件,因此我能够在一定程度上识别出主要地点。

从半结构化数据中提取位置的任何其他建议?数据是从各种来源废弃的,所以我无法控制输入。

0 投票
3 回答
1827 浏览

machine-learning - 关于使用机器学习工具 Weka 的问题

我正在使用 Weka 的资源管理器功能进行分类。

所以我有我的 .arff 文件,具有 NUMERIC 值的 2 个特征,我的类是二进制 0 或 1(例如 {0,1})。

样本:

我加载这个 .arff 文件,使用 10 倍交叉验证(无测试文件),然后选择 NaiveBayes,然后我对数据进行分类,它给了我:5 个错误标记,100 个正确标记。到现在为止还挺好。

现在,我显着更改了我的 .arff 文件(为我的特征属性提供完全随机的值)。重复上述操作,我在分类时得到完全相同的统计数据。

我尝试对我的 .arff 文件进行更多更改,使用不同的分类算法。尽管如此,无论我给我的 .arff 文件赋予什么值,完全相同的统计数据(在相同的算法中)。

我在这里做错了吗?

0 投票
2 回答
248 浏览

artificial-intelligence - 信息挖掘、分类、修改

以下场景的任何示例、提示和指导?

我从几个不同的新闻网站检索了更新。然后我分析这些信息以预测世界当前的趋势。

我在搜索上述想法时只能找到有关数据挖掘的信息,但它是针对数据库系统的。虽然数据挖掘与我正在尝试做的类似,但数据库信息中的数据挖掘比我从网站上检索到的更具体。那么有人可以在这方面指导我吗?我非常感谢您对此提供的任何帮助。

谢谢。

0 投票
5 回答
2382 浏览

java - 机器学习挑战:用 java/groovy 诊断程序(数据挖掘、机器学习)

我打算用Java开发程序来提供诊断。数据集分为两部分,一是训练,二是测试。我的程序应该学会从训练数据中进行分类(顺便说一句,其中包含新列中每个问题的 30 个问题的答案,新行中的每条记录最后一列将是诊断 0 或 1,在数据诊断列的测试部分将为空 -数据集包含大约 1000 条记录),然后在测试部分数据中进行预测:/

我从来没有做过类似的事情,所以我会感谢任何关于解决类似问题的建议或信息。

我在考虑Java 机器学习库或Java 数据挖掘包,但我不确定它是否是正确的方向......?我仍然不确定如何应对这个挑战......

请指教。

祝一切顺利!

0 投票
2 回答
555 浏览

.net - .NET 的数据挖掘库

有人知道.net 的任何数据库吗?

0 投票
3 回答
2600 浏览

hex - 查找 HEX 模式和出现次数

我想查找模式并按我拥有的 HEX 文件上的出现次数对它们进行排序。

我不是在寻找一些特定的模式,只是为了对那里发生的事件进行一些统计并对其进行排序。

这是十六进制文件的摘录,作为一个例子,我想得到:

XX 次 BDBDBD

XX 次 B93D

有没有办法挖掘文件以生成该输出?

0 投票
1 回答
14370 浏览

data-structures - 如何在大量文本中找到常用短语

我目前正在做一个项目,我需要在大量文本中挑选出最常见的短语。例如,假设我们有如下三个句子:

  • 狗从女人身上跳了过去。
  • 狗跳进了车里。
  • 狗跳上楼梯。

从上面的示例中,我想提取“ the dog jumped ”,因为它是文本中最常见的短语。起初我想,“哦,让我们使用有向图[带有重复节点]”:

有向图 http://img.skitch.com/20091218-81ii2femnfgfipd9jtdg32m74f.png

编辑:抱歉,我在制作这个图表时犯了一个错误,“over”、“into”和“up”应该都链接回“the”。

我打算保持一个单词在每个节点对象中出现的次数(“the”将是 6;“dog”和“jumped”,3;等等),但尽管有许多其他问题,但主要问题还是出现了我们添加了更多示例(请忽略错误的语法:-)):

  • 狗跳上跳下。
  • 狗跳起来就像以前没有狗跳过一样。
  • 狗高兴地跳了起来。

我们现在遇到了一个问题,因为“ dog ”会启动一个新的根节点(与“the”处于同一级别),并且我们不会将“ dog jumped ”识别为现在最常见的短语。所以现在我在想也许我可以使用无向图来映射所有单词之间的关系并最终挑选出常用短语,但我不确定这将如何工作,因为你失去了重要的顺序关系的话。

那么,对于如何识别大量文本中的常用短语以及我将使用什么数据结构,是否有人有任何一般的想法。

谢谢,本

0 投票
2 回答
794 浏览

data-mining - 即席查询工具模式

我正在寻找以图形方式实现临时查询功能的常见模式。我查看了 Access 和 TOAD 中的 SQL 查询构建器,但如果有人知道针对特定领域数据仓库(例如临床数据库)构建此类工具的产品,我很感兴趣。

谢谢,