问题标签 [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 如何从非实验数据中获得科学结果(数据挖掘?)
- 我想从具有许多变量的过程中获得最大性能,其中许多变量是无法控制的。
- 我不能运行数千个实验,所以如果我能运行数百个实验和
- 改变许多可控参数
- 收集有关表明性能的许多参数的数据
- 对于那些我无法控制的参数,尽可能“正确”
- 为那些我可以控制的事情梳理出“最佳”值,然后重新开始
感觉这将被称为数据挖掘,您正在处理大量数据,这些数据似乎并没有立即相关,但经过一些努力后确实显示出相关性。
所以...我从哪里开始研究这类事情的算法、概念和理论?甚至出于搜索目的的相关术语也会很有用。
背景:我喜欢做超级马拉松骑行,并记录每次骑行。我想保留更多数据,并且在数百次骑行之后能够提取有关我的表现的信息。
然而,一切都各不相同——路线、环境(温度、压力、嗡嗡声、太阳负荷、风、降水等)、燃料、姿态、重量、水负荷等等等。我可以控制一些事情,但是在同一条路线上跑 20 次来测试一种新的燃料状态只会令人沮丧,并且需要数年时间才能完成我想做的所有实验。但是,我可以记录所有这些以及更多内容(自行车 FTW 上的遥测)。
asp.net - 如何在 ASP.Net 中使用 SQL Server 2008 的数据挖掘功能
如何在 ASP.Net 中使用 SQL Server 2008 的数据挖掘功能
database - 用于在度量空间中进行索引和搜索的很好解释的算法
我需要在 Postgres(*)(PL 或 PL/Python)中实现某种度量空间搜索。所以,我正在寻找好的资源(或论文),对这些想法背后的机制有一个非常清晰和清晰的解释,这样我就可以自己实现它。
我更喜欢清晰而不是效率。
(*)此处更好地描述了对此的需求。
algorithm - 在集合中寻找模式
我可以使用哪些算法来确定一组字符串中的常见字符?
为了使示例简单,我只关心连续 2 个以上的字符,以及它是否出现在 2 个或更多示例中。例如:
- 0000abcde0000
- 0000abcd00000
- 000abc0000000
- 00abc000de000
我想知道:
00 用于 1,2,3,4
000 用于 1,2,3,4
0000 用于 1,2,3
00000 用于 2,3
ab 用于 1,2,3,4
abc用于 1,2,3,4
abcd 用于 1,2
bc 用于 1,2,3,4
bcd 用于 1,2
cd 用于 1,2
de 用于 1,4
python - 在 Python 中比较多个字典
我是 Python 新手,遇到了一个我无法通过谷歌搜索的问题。我已经使用 wxPython 和 ObjectiveListView 构建了一个 GUI。在它的中心,GUI 有一个列表控件,以 X 行(数据由用户加载)和五列显示数据。
当用户从列表控件中选择多个条目时(按 CTRL 或单击时按 shift),ObjectiveListView 模块给我一个字典列表,字典包含列表控件行中的数据。这正是我想要的,好!
返回的列表如下所示:
所有字典都有相同的键,但值会发生变化。'id' 值是唯一的。问题从这里开始。我想获取用户选择的所有项目的通用值。在上面的列表中,它们将是 'sum':'-21,90' 和 'target':'Apple Store'。
我不知道如何正确比较列表中的字典。一个大问题是我事先不知道列表包含多少个字典,因为它是由用户决定的。
我有一个模糊的想法,列表推导将是要走的路,但我只知道如何将两个列表与列表推导进行比较,而不是 n 个列表。任何帮助,将不胜感激。
web-services - 是否有任何网络服务可以获取世界各地城市的天气数据[在一段时间内,比如一年]?
有任何网络服务可以获取一段时间内城市的每月最低/最高温度吗?
data-structures - 如何找到“等效”文本?
我想找到(不生成)2 个文本字符串,这样,在删除所有非字母和 ucasing 之后,一个字符串可以通过简单的替换转换为另一个。
这样做的动机来自我知道的一个项目,该项目是测试通过概率分布攻击密码的方法。我想找到一个大而连贯的纯文本,一旦用简单的替换密码加密,就可以解密为其他同样连贯的内容。
这最终分为两部分,在语料库中找到最长的此类字符串,并获得该语料库。
在我看来,第一部分似乎对某种攻击很友好,在替换后将 B-tree 键控掉字符串,这使得第一次出现的序列是连续的。
基于知道基于树的每个深度的字符串的最大值和长度的一点优化,其余的只是编码。
另一部分会涉及更多;如何生成大量文本进行搜索?某种互联网蜘蛛似乎是理想的方法,因为它可以访问最多的文本,但如何将其剥离为文本?
问题是; 关于如何更好地做到这一点的任何想法?
编辑:正在使用的密码是一个非常基本的 26 个字母替换密码。
ps 这对我来说更像是一个思想实验,而不是一个可能的真实项目。
ssis - 有人可以解释一下数据挖掘、SSIS、BI、ETL 和其他相关技术吗?
昨天我和一位同事讨论了他使用 SSIS(或类似的东西)用 SSIS 包做一些非常酷的事情的情况,他通过了一个名字,比如“雷金纳德·威廉姆斯博士”。并且基于一些加权方案,系统足够聪明,可以弄清楚如何对其进行标记并将其存储在数据库中作为“Salutation-First Name-Last Name-Suffix”。他抛出了一些流行词,比如 BI、SSIS、ETL 和数据挖掘。我真的很想了解更多信息,但我什至不知道从哪里开始询问。
我是一名 .Net 开发人员,精通 C#、Vb.Net、WPF 等...,但我不知道这些技术是什么,如何将它们添加到我的技能中,以及它是否是我真的应该专注于。任何方向都会有所帮助。
java - 使用什么数据挖掘应用程序?
我使用的最后一个是weka 。我最后一次听说 java 正在为它提出一个 API (JDM)。任何人都可以分享他们使用这些工具的经验。我最感兴趣的是使用分类/聚类工具(weka 在这里做得不错)并且该工具应该具有良好的 API 支持。