问题标签 [data-munging]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
56 浏览

python - Python,Pandas - 问题将函数应用于数据框中的列以仅替换某些项目

我有一本我们的系统(出于某种原因)适用于数据的一些城市名称的缩写字典(即“堪萨斯城”缩写为“堪萨斯 CY”,俄克拉荷马城拼写正确)。

我在让我的函数应用于数据框的列时遇到问题,但是当我传入数据字符串时它可以工作。下面的代码示例:

当我在最后一行添加'axis = 1'时,它会出错,说我提供了太多的参数。否则,它运行时不会出错,它只是在与字典匹配时不进行更改。

先感谢您!-里斯

0 投票
1 回答
3607 浏览

r - 替换 R 中数据表单列中的 NA

我正在尝试用“-999”替换R中数据表的单列中的NA,我完全可以得到它。

Stackoverflow 上有相关的问题但我认为这可以在不遍历表格的情况下完成。

我在数据表column_to_check中有一个列。该列是一个因子变量,有 80K 个观察值,由 NA、0 和 1 组成。我正在尝试将其更改NA-999以便可以做进一步的工作。

我正在使用的代码是这样的:

第一行将整列设置为 NA。第二个不起作用,我知道已经关闭,但我想我已经接近了。

任何人都可以帮忙吗?

谢谢。

0 投票
1 回答
977 浏览

php - 将 PHP 关联数组映射到 PDO 准备语句

我正在对数据进行一些清理和转换(该部分已完成,哇),并且需要将其插入 MySQL 表中。之前在 Perl 中做过这种事情,我认为,作为处理的一部分,我将数据构造为关联数组是有意义的,其中键与我需要加载它们的字段名称相同 -这样,只需遍历键并生成命名占位符和匹配值的列表,就可以很容易地构造一个准备好的语句。

但是,我似乎无法在 PHP/PDO 中完成这项工作。测试代码:

坦率地说,工作感觉太……不优雅和笨拙——但事实并非如此。

正确的方法可以做到这一点,对吧?如果有人能向我介绍适当的 PHP 风格的措辞,我将不胜感激。

0 投票
2 回答
50 浏览

r - 以特定形式重塑数据

我的数据如下,它是一个但实际上我很少experiment,它是简化的数据集:

现在我的数据具有以下形式:

我希望它被重塑如下:

最简单的方法是什么?我真的不知道该怎么做。我试过了

但是我失去了theoric和之间的所有对应关系observed。非常感谢

编辑:完整数据集:

输出:

编辑 2:添加EL输出

0 投票
1 回答
243 浏览

python - 'Stack()' output with all Individual index's filled in Pandas DataFrame

I have the following DataFrame:

which is:

I stacked the dataframe with purpose and it appears as below:

I wish to have the dates printed in all the rows instead of having merged together. I want to have something like this:

Can anyone please help me to achieve this goal. Thank you.

0 投票
1 回答
51 浏览

r - 从 R 中的数据框构建句子

我试图从数据框生成句子下面是数据框

因此,如果我们以mycode一个例子为例,我想创建一个句子,如“对于代码mycode,最大的目的地是myresorts访问次数最多mydate的地方HolidayMakers

如果我们假设每个代码有多行。我想要的是一个句子,例如,而不是每个mydateand一个句子myresort,我想说一些类似的话

“对于代码 AAABBB,最大的目的地是 GB、GR、DK、IE,其中访问最多的天数是 2016-10-17,2016-10-18,2016-10-19,总共 650 天”

650 基本上是每个 mycode 在那些日子里所有这些国家的所有度假者的总和

有人帮忙吗?

感谢您的时间

0 投票
2 回答
2043 浏览

python - 如何对熊猫数据框进行子集化

我有一个熊猫数据框,它有 50 列,我想选择 30 列。假设我们有以下数据框:

我想选择“a”和“c”,然后选择从“h”到“z”的所有列

请告知如何按名称或索引对该数据框进行子集化。

我希望生成的数据框如下所示:

0 投票
1 回答
43 浏览

r - 管理未在 R 中作为重复项输入的重复项

我有一个来自国家机构的数据集,正在尝试清理它。一个障碍是没有标题的输入标准(例如,DIR、DIRECTOR、DIR.,都是允许的输入)。另一个障碍是,一个人可能有多个职位,但只输入其中一个。

例如,考虑下面的员工 #1 (Emp_1)。此人是教员。他们年复一年地教书。但在 2015 年,除了教学职责外,他们还承担了一些被归类为非教师或豁免的工作。但他们的“真正”分类是教师。在此示例中,已为 Emp_1 提供了两条记录。我做了一个快速的 grep 来创建一个名为“job.cat”的新分类,以帮助识别教师。但是在下面的 Emp_1 和 Emp_4 的情况下,您可以看到它们被错误地归类为“非教师”。现在,我可以对“STIPEND/COORD FAC,EXMT EMP”做一个 grep 并将其也算作教员,但是有些人从不教书并且总是“STIPEND/COORD FAC,EXMT EMP”,所以应该是算作非教职员工。

为了解决这个问题,我想我应该创建第二个名称、职位和职位类别的数据集,清理它,然后将其合并回下面的数据,我将使用employee_name 和正确的工作加入。猫。但我想知道是否有更好的方法可以使用类似函数、ifelse 或 for 循环来执行此操作。

0 投票
2 回答
80 浏览

python - 如何有效地重新排列熊猫数据如下?

我需要一些帮助,以在 pandas 中进行以下操作的简洁且首先是有效的公式化:

给定格式的数据框

构造格式的数据框:

也就是说,“one_entries”列包含原始帧中条目为 1 的列的串联名称。

0 投票
1 回答
54 浏览

python - 使用数据框列以相同的顺序从另一个框架中选择行

需要一些熊猫从这里开始:

考虑两个数据帧AB。两者都包含一个id带有标识符值的列:

我需要一个数据框版本,B它只包含包含来自 标识符的行,其A[id]顺序与A. 那是:

我认为这是 pandas 中的一个基本操作,但我现在似乎缺少用谷歌搜索它的词汇。

我试过了

但这似乎不是解决方案 -id结果中的列与 A.