问题标签 [data-analysis]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3631 问题

0 投票

1 回答

985 浏览

python - 具有参数限制的根 minuit2 轮廓

我正在尝试使用作为ROOT数据分析框架的一部分的 Minuit2 最小化器为具有物理限制的参数生成等高线图。不幸的是，当我尝试生成等高线图时，Minuit2 似乎有意将参数漂移到超出其限制的区域：

有没有其他人处理过这个或类似的问题？有什么解决方法吗？

我已经在ROOT 论坛上问过这个问题，但我认为可能还有一些堆栈溢出用户已经处理过这个或类似的问题。

2012-07-26T17:17:19.957

0 投票

1 回答

140 浏览

java - 用于对 ASM 代码执行特定“数据分析”的 Java 工具

我需要使用 Java 类或可在 Eclipse 上使用的任何东西对 ASM 代码进行特定的“数据分析”。具体来说，我需要用这个顺序确定一个变量的三个步骤：1）使用；2）初始化；3) 删除。

谢谢。

java bytecode data-analysis java-bytecode-asm

2012-08-21T15:48:00.563

0 投票

1 回答

715 浏览

python - 使用 date_range 重新索引时间戳数据

我有一个pandas.Series时间戳数据 - 基本上是一系列事件：

我想创建一个pandas.TimeSeries超过特定的pandas.date_range（例如 15 分钟间隔；pandas.date_range(start, end, freq='15T')），它保存每个时期的事件计数。如何实现？

谢谢，彼得

python time-series pandas data-analysis

2012-09-06T10:12:12.537

0 投票

1 回答

6180 浏览

r - R计算数据框中的百分比值

我今天的问题是指我在 R 中处理的一个数据框。数据框的标题如下所示：String(unique), Integer N[0-23]

这 24 个整数值表示与一天中的每个小时相关联的字符串的频率。从逻辑上讲，每行中的 int 值总和等于字符串在数据中出现的频率。

问题是，我不需要字符串在某个小时的实际频率，而是该频率代表的百分比相对于所有行中整数值的总和。

我的讲师暗示 table() 可能是正确的 R 工具，但老实说，我不明白这应该如何帮助我。

如果一切都失败了，我会用 Java 计算它——尽管我真的很感谢你在 R 中提供的帮助。

感谢您到目前为止的阅读，并提前感谢您的帮助，

瑞奇福克斯

@@@@@@我是你的编辑，读给我@@@@@@

在詹姆斯的帮助下，我得到了以下道具

问题是，每行的百分比总和为 100，但他们应该为整个表这样做。有没有办法做到这一点？

r data-analysis frequency-distribution

2012-09-25T08:10:48.033

0 投票

1 回答

103 浏览

r - 难以决定将我的时间花在 R 中的大数据分析上

我知道 R，我知道 SQL，我使用 Windows，我有 0 美元的预算，我有 1 TB 的数据，我有 12 个处理器，我有 96GB 的 RAM，如果速度收益会得到回报，我会积极学习新软件从长远来看。

我需要运行描述性统计和回归。

我有太多的选择。我应该把所有的精力都用在哪里？谢谢。

r data-analysis

2012-10-19T13:40:56.337

0 投票

1 回答

2597 浏览

python - 带有 MultiIndex 的 Pandas DataFrame：检查索引之一中重复元素的有效方法

我正在处理这样的数据：

正如这篇文章中所建议的，我正在使用 MultiIndex 来处理它。但是，我想知道如何使用这样的结构进行一些额外的检查。让我们更好地解释一下：每个“样本”列都有固定数量的重复“检测器”元素，从 1（无重复）到多个重复元素。我想确保对于每个样本元素，检测器的数量始终相同（即，如果 P_1 有 3 个“106”检测器，则 P_2 也应该有 3 个“106”检测器）。

目前我这样做相当粗略：

对我来说这似乎很 hacky，可能有更好的方法在 pandas 中做到这一点。这怎么可能实现？

python pandas data-analysis

2012-10-22T14:17:47.350

0 投票

1 回答

927 浏览

solr - 印地语语音过滤器工厂

我正在使用 Apache solr，我正在尝试使用语音过滤器工厂，我已经尝试了 solr.PhoneticFilterFactory 可用的所有编码器，但它们都不支持印度语言。是否有任何其他可用的过滤器/方法，以便我可以获得印度语言的语音表示，例如印地语、泰米尔语、孟加拉语等

如果不是，那么我们如何修改现有过滤器以支持这些语言。

solr lucene search-engine data-analysis

2012-10-23T04:06:15.733

0 投票

1 回答

1022 浏览

python - pandas：在没有副本的分层索引上切片

我想在分层索引的特定级别修改某些行的 DataFrame 条目。这是一个典型的例子：

我想将行设置为second==20（例如）。我尝试使用DataFrame.xs方法，但它返回一个副本而不是一个视图：

最后的分配没有影响data（它selected当然改变了值）。

python pandas data-analysis

2012-10-25T12:26:14.217

0 投票

1 回答

2139 浏览

python - 计算pandas DataFrame中列对的减法

我使用大尺寸（48K 行，多达数十列）的 DataFrame。在他们操作的某个时刻，我需要对列值进行成对减法，我想知道是否有比我正在做的更有效的方法（见下文）。

我当前的代码：

由于数据可能很大（我也在置换测试期间使用这段代码），我很想知道它是否可以优化一下。

编辑：根据要求，这是一个典型数据集的样本

一个典型的结果是，如果 "A" 组是group1和 "B" group2，对于每个 ID 行，对于每一列都有对应于上面生成的配对的对（例如，A1_B1、A2_B1、A3_B1...），包含每个行 ID 的减法。

python pandas data-analysis

2012-10-30T16:03:17.087

0 投票

1 回答

2371 浏览

statistics - Rapidminer 中哪些参数最适合决策树

我有一组具有 14 个常规属性的数据。我正在尝试从该训练数据中创建Rapidminer中的最佳决策树，以便我可以在评分数据上使用该树。

但是我不确定决策树使用哪些参数（例如：标准、最小增益、置信度等）？我也不确定我可以/应该将哪些其他运算符（如果有的话）应用于我的模型？

谁能给我一些关于什么最有效的一般提示？

我所拥有的数据是尝试确定是否有人开设了新的银行账户，他们的信用状况是否良好。我有信用状况、账户类型、历史、就业、性别、工作等信息。

谢谢你。

statistics decision-tree data-analysis rapidminer

2012-10-30T22:39:28.327

1 2 3 4 5 6 7 8 9 10

问题标签 [data-analysis]

Reference