问题标签 [data-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
305 浏览

algorithm - 如何从非实验数据中获得科学结果(数据挖掘?)

  • 我想从具有许多变量的过程中获得最大性能,其中许多变量是无法控制的。
  • 我不能运行数千个实验,所以如果我能运行数百个实验和
    • 改变许多可控参数
    • 收集有关表明性能的许多参数的数据
    • 对于那些我无法控制的参数,尽可能“正确”
    • 为那些我可以控制的事情梳理出“最佳”值,然后重新开始

感觉这将被称为数据挖掘,您正在处理大量数据,这些数据似乎并没有立即相关,但经过一些努力后确实显示出相关性。

所以...我从哪里开始研究这类事情的算法、概念和理论?甚至出于搜索目的的相关术语也会很有用。

背景:我喜欢做超级马拉松骑行,并记录每次骑行。我想保留更多数据,并且在数百次骑行之后能够提取有关我的表现的信息。

然而,一切都各不相同——路线、环境(温度、压力、嗡嗡声、太阳负荷、风、降水等)、燃料、姿态、重量、水负荷等等等。我可以控制一些事情,但是在同一条路线上跑 20 次来测试一种新的燃料状态只会令人沮丧,并且需要数年时间才能完成我想做的所有实验。但是,我可以记录所有这些以及更多内容(自行车 FTW 上的遥测)。

0 投票
2 回答
1686 浏览

asp.net - 如何在 ASP.Net 中使用 SQL Server 2008 的数据挖掘功能

如何在 ASP.Net 中使用 SQL Server 2008 的数据挖掘功能

0 投票
4 回答
523 浏览

database - 用于在度量空间中进行索引和搜索的很好解释的算法

我需要在 Postgres(*)(PL 或 PL/Python)中实现某种度量空间搜索。所以,我正在寻找好的资源(或论文),对这些想法背后的机制有一个非常清晰和清晰的解释,这样我就可以自己实现它。

我更喜欢清晰而不是效率。

(*)此处更好地描述了对此的需求。

0 投票
10 回答
5752 浏览

open-source - 数据挖掘开源软件替代品

我正在评估数据挖掘包。
到目前为止,我已经找到了这两个:

  • 快速矿工
  • 维卡
  • 您对这两个产品有什么经验可以分享,或者有什么其他产品可以推荐给我吗?
    谢谢

    0 投票
    7 回答
    428 浏览

    algorithm - 在集合中寻找模式

    我可以使用哪些算法来确定一组字符串中的常见字符?

    为了使示例简单,我只关心连续 2 个以上的字符,以及它是否出现在 2 个或更多示例中。例如:

    1. 0000abcde0000
    2. 0000abcd00000
    3. 000abc0000000
    4. 00abc000de000

    我想知道:

    00 用于 1,2,3,4
    000 用于 1,2,3,4
    0000 用于 1,2,3
    00000 用于 2,3
    ab 用于 1,2,3,4
    abc用于 1,2,3,4
    abcd 用于 1,2
    bc 用于 1,2,3,4
    bcd 用于 1,2
    cd 用于 1,2
    de 用于 1,4

    0 投票
    5 回答
    6243 浏览

    python - 在 Python 中比较多个字典

    我是 Python 新手,遇到了一个我无法通过谷歌搜索的问题。我已经使用 wxPython 和 ObjectiveListView 构建了一个 GUI。在它的中心,GUI 有一个列表控件,以 X 行(数据由用户加载)和五列显示数据。

    当用户从列表控件中选择多个条目时(按 CTRL 或单击时按 shift),ObjectiveListView 模块给我一个字典列表,字典包含列表控件行中的数据。这正是我想要的,好!

    返回的列表如下所示:

    所有字典都有相同的键,但值会发生变化。'id' 值是唯一的。问题从这里开始。我想获取用户选择的所有项目的通用值。在上面的列表中,它们将是 'sum':'-21,90' 和 'target':'Apple Store'。

    我不知道如何正确比较列表中的字典。一个大问题是我事先不知道列表包含多少个字典,因为它是由用户决定的。

    我有一个模糊的想法,列表推导将是要走的路,但我只知道如何将两个列表与列表推导进行比较,而不是 n 个列表。任何帮助,将不胜感激。

    0 投票
    1 回答
    1115 浏览

    web-services - 是否有任何网络服务可以获取世界各地城市的天气数据[在一段时间内,比如一年]?

    有任何网络服务可以获取一段时间内城市的每月最低/最高温度吗?

    0 投票
    2 回答
    212 浏览

    data-structures - 如何找到“等效”文本?

    我想找到(不生成)2 个文本字符串,这样,在删除所有非字母和 ucasing 之后,一个字符串可以通过简单的替换转换为另一个。

    这样做的动机来自我知道的一个项目,该项目是测试通过概率分布攻击密码的方法。我想找到一个大而连贯的纯文本,一旦用简单的替换密码加密,就可以解密为其他同样连贯的内容。

    这最终分为两部分,在语料库中找到最长的此类字符串,并获得该语料库。


    在我看来,第一部分似乎对某种攻击很友好,在替换后将 B-tree 键控掉字符串,这使得第一次出现的序列是连续的。

    基于知道基于树的每个深度的字符串的最大值和长度的一点优化,其余的只是编码。


    另一部分会涉及更多;如何生成大量文本进行搜索?某种互联网蜘蛛似乎是理想的方法,因为它可以访问最多的文本,但如何将其剥离为文本?

    问题是; 关于如何更好地做到这一点的任何想法?


    编辑:正在使用的密码是一个非常基本的 26 个字母替换密码。

    ps 这对我来说更像是一个思想实验,而不是一个可能的真实项目。

    0 投票
    3 回答
    8230 浏览

    ssis - 有人可以解释一下数据挖掘、SSIS、BI、ETL 和其他相关技术吗?

    昨天我和一位同事讨论了他使用 SSIS(或类似的东西)用 SSIS 包做一些非常酷的事情的情况,他通过了一个名字,比如“雷金纳德·威廉姆斯博士”。并且基于一些加权方案,系统足够聪明,可以弄清楚如何对其进行标记并将其存储在数据库中作为“Salutation-First Name-Last Name-Suffix”。他抛出了一些流行词,比如 BI、SSIS、ETL 和数据挖掘。我真的很想了解更多信息,但我什至不知道从哪里开始询问。

    我是一名 .Net 开发人员,精通 C#、Vb.Net、WPF 等...,但我不知道这些技术是什么,如何将它们添加到我的技能中,以及它是否是我真的应该专注于。任何方向都会有所帮助。

    0 投票
    7 回答
    1712 浏览

    java - 使用什么数据挖掘应用程序?

    我使用的最后一个是weka 。我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具(weka 在这里做得不错)并且该工具应该具有良好的 API 支持。