问题标签 [data-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 用于对 ASM 代码执行特定“数据分析”的 Java 工具
我需要使用 Java 类或可在 Eclipse 上使用的任何东西对 ASM 代码进行特定的“数据分析”。具体来说,我需要用这个顺序确定一个变量的三个步骤:1)使用;2)初始化;3) 删除。
谢谢。
python - 使用 date_range 重新索引时间戳数据
我有一个pandas.Series
时间戳数据 - 基本上是一系列事件:
我想创建一个pandas.TimeSeries
超过特定的pandas.date_range
(例如 15 分钟间隔;pandas.date_range(start, end, freq='15T')
),它保存每个时期的事件计数。如何实现?
谢谢,彼得
r - R计算数据框中的百分比值
我今天的问题是指我在 R 中处理的一个数据框。数据框的标题如下所示:String(unique), Integer N[0-23]
这 24 个整数值表示与一天中的每个小时相关联的字符串的频率。从逻辑上讲,每行中的 int 值总和等于字符串在数据中出现的频率。
问题是,我不需要字符串在某个小时的实际频率,而是该频率代表的百分比相对于所有行中整数值的总和。
我的讲师暗示 table() 可能是正确的 R 工具,但老实说,我不明白这应该如何帮助我。
如果一切都失败了,我会用 Java 计算它——尽管我真的很感谢你在 R 中提供的帮助。
感谢您到目前为止的阅读,并提前感谢您的帮助,
瑞奇福克斯
@@@@@@我是你的编辑,读给我@@@@@@
在詹姆斯的帮助下,我得到了以下道具
问题是,每行的百分比总和为 100,但他们应该为整个表这样做。有没有办法做到这一点?
r - 难以决定将我的时间花在 R 中的大数据分析上
我知道 R,我知道 SQL,我使用 Windows,我有 0 美元的预算,我有 1 TB 的数据,我有 12 个处理器,我有 96GB 的 RAM,如果速度收益会得到回报,我会积极学习新软件从长远来看。
我需要运行描述性统计和回归。
我有太多的选择。我应该把所有的精力都用在哪里?谢谢。
python - 带有 MultiIndex 的 Pandas DataFrame:检查索引之一中重复元素的有效方法
我正在处理这样的数据:
正如这篇文章中所建议的,我正在使用 MultiIndex 来处理它。但是,我想知道如何使用这样的结构进行一些额外的检查。让我们更好地解释一下:每个“样本”列都有固定数量的重复“检测器”元素,从 1(无重复)到多个重复元素。我想确保对于每个样本元素,检测器的数量始终相同(即,如果 P_1 有 3 个“106”检测器,则 P_2 也应该有 3 个“106”检测器)。
目前我这样做相当粗略:
对我来说这似乎很 hacky,可能有更好的方法在 pandas 中做到这一点。这怎么可能实现?
solr - 印地语语音过滤器工厂
我正在使用 Apache solr,我正在尝试使用语音过滤器工厂,我已经尝试了 solr.PhoneticFilterFactory 可用的所有编码器,但它们都不支持印度语言。是否有任何其他可用的过滤器/方法,以便我可以获得印度语言的语音表示,例如印地语、泰米尔语、孟加拉语等
如果不是,那么我们如何修改现有过滤器以支持这些语言。
python - pandas:在没有副本的分层索引上切片
我想在分层索引的特定级别修改某些行的 DataFrame 条目。这是一个典型的例子:
我想将行设置为second==2
0(例如)。我尝试使用DataFrame.xs
方法,但它返回一个副本而不是一个视图:
最后的分配没有影响data
(它selected
当然改变了值)。
python - 计算pandas DataFrame中列对的减法
我使用大尺寸(48K 行,多达数十列)的 DataFrame。在他们操作的某个时刻,我需要对列值进行成对减法,我想知道是否有比我正在做的更有效的方法(见下文)。
我当前的代码:
由于数据可能很大(我也在置换测试期间使用这段代码),我很想知道它是否可以优化一下。
编辑:根据要求,这是一个典型数据集的样本
一个典型的结果是,如果 "A" 组是group1
和 "B" group2
,对于每个 ID 行,对于每一列都有对应于上面生成的配对的对(例如,A1_B1、A2_B1、A3_B1...),包含每个行 ID 的减法。
statistics - Rapidminer 中哪些参数最适合决策树
我有一组具有 14 个常规属性的数据。我正在尝试从该训练数据中创建Rapidminer中的最佳决策树,以便我可以在评分数据上使用该树。
但是我不确定决策树使用哪些参数(例如:标准、最小增益、置信度等)?我也不确定我可以/应该将哪些其他运算符(如果有的话)应用于我的模型?
谁能给我一些关于什么最有效的一般提示?
我所拥有的数据是尝试确定是否有人开设了新的银行账户,他们的信用状况是否良好。我有信用状况、账户类型、历史、就业、性别、工作等信息。
谢谢你。