问题标签 [data-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
985 浏览

python - 具有参数限制的根 minuit2 轮廓

我正在尝试使用作为ROOT数据分析框架的一部分的 Minuit2 最小化器为具有物理限制的参数生成等高线图。不幸的是,当我尝试生成等高线图时,Minuit2 似乎有意将参数漂移到超出其限制的区域:

有没有其他人处理过这个或类似的问题?有什么解决方法吗?

我已经在ROOT 论坛上问过这个问题,但我认为可能还有一些堆栈溢出用户已经处理过这个或类似的问题。

0 投票
1 回答
140 浏览

java - 用于对 ASM 代码执行特定“数据分析”的 Java 工具

我需要使用 Java 类或可在 Eclipse 上使用的任何东西对 ASM 代码进行特定的“数据分析”。具体来说,我需要用这个顺序确定一个变量的三个步骤:1)使用;2)初始化;3) 删除。

谢谢。

0 投票
1 回答
715 浏览

python - 使用 date_range 重新索引时间戳数据

我有一个pandas.Series时间戳数据 - 基本上是一系列事件:

我想创建一个pandas.TimeSeries超过特定的pandas.date_range(例如 15 分钟间隔;pandas.date_range(start, end, freq='15T')),它保存每个时期的事件计数。如何实现?

谢谢,彼得

0 投票
1 回答
6180 浏览

r - R计算数据框中的百分比值

我今天的问题是指我在 R 中处理的一个数据框。数据框的标题如下所示:String(unique), Integer N[0-23]

这 24 个整数值表示与一天中的每个小时相关联的字符串的频率。从逻辑上讲,每行中的 int 值总和等于字符串在数据中出现的频率。

问题是,我不需要字符串在某个小时的实际频率,而是该频率代表的百分比相对于所有行中整数值的总和。

我的讲师暗示 table() 可能是正确的 R 工具,但老实说,我不明白这应该如何帮助我。

如果一切都失败了,我会用 Java 计算它——尽管我真的很感谢你在 R 中提供的帮助。

感谢您到目前为止的阅读,并提前感谢您的帮助,

瑞奇福克斯

@@@@@@我是你的编辑,读给我@@@@@@

在詹姆斯的帮助下,我得到了以下道具

问题是,每行的百分比总和为 100,但他们应该为整个表这样做。有没有办法做到这一点?

0 投票
1 回答
103 浏览

r - 难以决定将我的时间花在 R 中的大数据分析上

我知道 R,我知道 SQL,我使用 Windows,我有 0 美元的预算,我有 1 TB 的数据,我有 12 个处理器,我有 96GB 的 RAM,如果速度收益会得到回报,我会积极学习新软件从长远来看。

我需要运行描述性统计和回归。

我有太多的选择。我应该把所有的精力都用在哪里?谢谢。

0 投票
1 回答
2597 浏览

python - 带有 MultiIndex 的 Pandas DataFrame:检查索引之一中重复元素的有效方法

我正在处理这样的数据:

正如这篇文章中所建议的,我正在使用 MultiIndex 来处理它。但是,我想知道如何使用这样的结构进行一些额外的检查。让我们更好地解释一下:每个“样本”列都有固定数量的重复“检测器”元素,从 1(无重复)到多个重复元素。我想确保对于每个样本元素,检测器的数量始终相同(即,如果 P_1 有 3 个“106”检测器,则 P_2 也应该有 3 个“106”检测器)。

目前我这样做相当粗略:

对我来说这似乎很 hacky,可能有更好的方法在 pandas 中做到这一点。这怎么可能实现?

0 投票
1 回答
927 浏览

solr - 印地语语音过滤器工厂

我正在使用 Apache solr,我正在尝试使用语音过滤器工厂,我已经尝试了 solr.PhoneticFilterFactory 可用的所有编码器,但它们都不支持印度语言。是否有任何其他可用的过滤器/方法,以便我可以获得印度语言的语音表示,例如印地语、泰米尔语、孟加拉语等

如果不是,那么我们如何修改现有过滤器以支持这些语言。

0 投票
1 回答
1022 浏览

python - pandas:在没有副本的分层索引上切片

我想在分层索引的特定级别修改某些行的 DataFrame 条目。这是一个典型的例子:

我想将行设置为second==20(例如)。我尝试使用DataFrame.xs方法,但它返回一个副本而不是一个视图:

最后的分配没有影响data(它selected当然改变了值)。

0 投票
1 回答
2139 浏览

python - 计算pandas DataFrame中列对的减法

我使用大尺寸(48K 行,多达数十列)的 DataFrame。在他们操作的某个时刻,我需要对列值进行成对减法,我想知道是否有比我正在做的更有效的方法(见下文)。

我当前的代码:

由于数据可能很大(我也在置换测试期间使用这段代码),我很想知道它是否可以优化一下。

编辑:根据要求,这是一个典型数据集的样本

一个典型的结果是,如果 "A" 组是group1和 "B" group2,对于每个 ID 行,对于每一列都有对应于上面生成的配对的对(例如,A1_B1、A2_B1、A3_B1...),包含每个行 ID 的减法。

0 投票
1 回答
2371 浏览

statistics - Rapidminer 中哪些参数最适合决策树

我有一组具有 14 个常规属性的数据。我正在尝试从该训练数据中创建Rapidminer中的最佳决策树,以便我可以在评分数据上使用该树。

但是我不确定决策树使用哪些参数(例如:标准、最小增益、置信度等)?我也不确定我可以/应该将哪些其他运算符(如果有的话)应用于我的模型?

谁能给我一些关于什么最有效的一般提示?

我所拥有的数据是尝试确定是否有人开设了新的银行账户,他们的信用状况是否良好。我有信用状况、账户类型、历史、就业、性别、工作等信息。

谢谢你。