问题标签 [data-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 分析噪声数据
我最近发射了一枚带有气压高度计的火箭,该高度计精确到大约 10 英尺(通过飞行期间获取的数据计算)。记录的数据以每个样本 0.05 秒的时间增量进行,并且在整个飞行过程中缩小时,高度与时间的关系图看起来非常相似。
问题是当我尝试从数据中计算其他值(例如速度或加速度)时,测量的准确性使计算值变得毫无价值。我可以使用哪些技术来平滑数据,以便计算(或近似)速度和加速度的合理值?重要的是要及时保留重大事件,最值得注意的是第一次进入的 0 和飞行期间的最高点 (2707)。
高度数据如下,并以地面以上英尺为单位测量。第一次为 0.00,每个样本在前一个样本之后 0.05 秒。飞行开始时的尖峰是由于起飞过程中发生的技术问题,去除尖峰是最佳的。
我最初尝试使用线性插值,对附近的数据点进行平均,但需要多次迭代才能使数据平滑到足以进行积分,并且曲线的平坦化消除了重要的远地点和地面事件。
非常感谢所有帮助。请注意,这不是完整的数据集,我正在寻找有关更好方法分析数据的建议,而不是让某人回复转换后的数据集。最好在未来的火箭上使用一种算法,该算法可以在不知道完整飞行数据的情况下预测当前的高度/速度/加速度,尽管这不是必需的。
machine-learning - 降维是什么意思?
降维究竟是什么意思?
我搜索了它的含义,我只是发现它意味着将原始数据转换为更有用的形式。那么拥有有用形式的数据有什么好处,我的意思是我如何在实际生活(应用程序)中使用它?
algorithm - 对 Apriori 的最低置信度和最低支持度
Apriori 算法的最小置信度和最小支持值的合适值是多少?你怎么能调整它们?它们是固定值,还是在算法运行期间发生变化?如果你以前用过这个算法,你用了什么值?
data-mining - 数据挖掘相关论坛
您使用哪些论坛来解决数据挖掘问题?SO 主要用于编程,而不是用于 DM 问题。
java - 用于图像模式识别的java框架?
我正在寻找一个 Java 框架来帮助进行一些特定于图像的数据挖掘。我们有一组历史图像,我想对其进行分类和分类。我希望找到类似 weka http://www.cs.waikato.ac.nz/ml/weka/或 Marsyas http://marsyas.sness.net的东西,但更具体的是筛选图像数据以找到模式. 有什么建议么?
algorithm - 网络挖掘分类算法
我的高级项目正在确定网页的主要类别。我爬取了 dmoz。现在我正在尝试构建 arff。之后我将使用一些特征提取方法和分类算法。您知道哪种特征提取方法在任何用于 Web 挖掘的分类算法中表现良好吗?
sql - 智能数据库 - 能够识别异常值
我正在寻找一种工具或系统来查看数据库并识别不寻常的值。我不需要任何东西来进行实时检查,只需要一个在夜间或预定点进行处理的系统。我正在寻找两个级别的系统:
数据库范围:例如:比较所有员工的薪水,并找出与平均值相比太低或太高的薪水。
每个员工:例如:检查员工的工资历史记录并确定员工的异常付款。
以上两个只是例子,以ATM取款、购物订单历史、发票历史等为例。
r - 最具代表性的集群实例
在对我的数据集(名为data.matrix的数据框)执行集群分析后,我在末尾(第 27 列)添加了一个名为cluster的新列,其中包含每个实例所属的集群名称。
我现在想要的是来自每个集群的代表性实例。我试图找到与集群质心欧几里得距离最小的实例(并对我的每个集群重复该过程)
这就是我所做的。你能想到其他——也许更优雅——的方式吗?(假设没有空值的数字列)。
data-mining - 零售知识推理
所以我正在研究如何从报告中推断知识(不是特定格式),但是在预处理之后,我应该有某种格式化的数据。
一个相当基本的推论是:“零售商有 X 库存。” 和“X 是可售的”。->“零售商销售X”我关注的知识是面向零售领域的,如果可能的话,我应该在每次迭代中提高其效率。
这是科幻小说吗(我的一些朋友认为是)?我在网上找到的相关内容是发现异常的“专家系统”、模糊推理系统和一些关于“简单知识”的咆哮。
你能帮我提一些要点,让我把注意力集中在一些研究方向上吗?
蓝色欧米茄
text - 文本挖掘库还是语言库?
我有一堆从我拥有的论坛中收集的数据,并且想做一些文本挖掘或使用一些语言库来提取有用的信息。
任何文本挖掘,任何语言的数据挖掘库都可以。
谢谢你。