问题标签 [data-munging]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

201 问题

0 投票

1 回答

56 浏览

python - Python，Pandas - 问题将函数应用于数据框中的列以仅替换某些项目

我有一本我们的系统（出于某种原因）适用于数据的一些城市名称的缩写字典（即“堪萨斯城”缩写为“堪萨斯 CY”，俄克拉荷马城拼写正确）。

我在让我的函数应用于数据框的列时遇到问题，但是当我传入数据字符串时它可以工作。下面的代码示例：

当我在最后一行添加'axis = 1'时，它会出错，说我提供了太多的参数。否则，它运行时不会出错，它只是在与字典匹配时不进行更改。

先感谢您！-里斯

2016-09-20T19:45:32.950

0 投票

1 回答

3607 浏览

r - 替换 R 中数据表单列中的 NA

我正在尝试用“-999”替换R中数据表的单列中的NA，我完全可以得到它。

Stackoverflow 上有相关的问题，但我认为这可以在不遍历表格的情况下完成。

我在数据表column_to_check中有一个列。该列是一个因子变量，有 80K 个观察值，由 NA、0 和 1 组成。我正在尝试将其更改NA为-999以便可以做进一步的工作。

我正在使用的代码是这样的：

和

第一行将整列设置为 NA。第二个不起作用，我知道已经关闭，但我想我已经接近了。

任何人都可以帮忙吗？

谢谢。

r data.table data-munging

2016-09-24T14:38:42.133

0 投票

1 回答

977 浏览

php - 将 PHP 关联数组映射到 PDO 准备语句

我正在对数据进行一些清理和转换（该部分已完成，哇），并且需要将其插入 MySQL 表中。之前在 Perl 中做过这种事情，我认为，作为处理的一部分，我将数据构造为关联数组是有意义的，其中键与我需要加载它们的字段名称相同 -这样，只需遍历键并生成命名占位符和匹配值的列表，就可以很容易地构造一个准备好的语句。

但是，我似乎无法在 PHP/PDO 中完成这项工作。测试代码：

坦率地说，工作感觉太……不优雅和笨拙——但事实并非如此。

有正确的方法可以做到这一点，对吧？如果有人能向我介绍适当的 PHP 风格的措辞，我将不胜感激。

php mysql pdo associative-array data-munging

2016-10-07T21:51:51.690

0 投票

2 回答

50 浏览

r - 以特定形式重塑数据

我的数据如下，它是一个但实际上我很少experiment，它是简化的数据集：

现在我的数据具有以下形式：

我希望它被重塑如下：

最简单的方法是什么？我真的不知道该怎么做。我试过了

但是我失去了theoric和之间的所有对应关系observed。非常感谢

编辑：完整数据集：

输出：

编辑 2：添加EL输出

r reshape data-munging

2016-10-08T09:37:22.100

0 投票

1 回答

243 浏览

python - 'Stack()' output with all Individual index's filled in Pandas DataFrame

I have the following DataFrame:

which is:

I stacked the dataframe with purpose and it appears as below:

I wish to have the dates printed in all the rows instead of having merged together. I want to have something like this:

Can anyone please help me to achieve this goal. Thank you.

python pandas dataframe data-munging

2016-10-19T16:12:41.823

0 投票

1 回答

51 浏览

r - 从 R 中的数据框构建句子

我试图从数据框生成句子下面是数据框

因此，如果我们以mycode一个例子为例，我想创建一个句子，如“对于代码mycode，最大的目的地是myresorts访问次数最多mydate的地方HolidayMakers”

如果我们假设每个代码有多行。我想要的是一个句子，例如，而不是每个mydateand一个句子myresort，我想说一些类似的话

“对于代码 AAABBB，最大的目的地是 GB、GR、DK、IE，其中访问最多的天数是 2016-10-17,2016-10-18,2016-10-19，总共 650 天”

650 基本上是每个 mycode 在那些日子里所有这些国家的所有度假者的总和

有人帮忙吗？

感谢您的时间

r data-munging

2016-10-26T10:42:00.250

0 投票

2 回答

2043 浏览

python - 如何对熊猫数据框进行子集化

我有一个熊猫数据框，它有 50 列，我想选择 30 列。假设我们有以下数据框：

我想选择“a”和“c”，然后选择从“h”到“z”的所有列

请告知如何按名称或索引对该数据框进行子集化。

我希望生成的数据框如下所示：

python pandas dataframe subset data-munging

2016-11-18T12:32:45.167

0 投票

1 回答

43 浏览

r - 管理未在 R 中作为重复项输入的重复项

我有一个来自国家机构的数据集，正在尝试清理它。一个障碍是没有标题的输入标准（例如，DIR、DIRECTOR、DIR.，都是允许的输入）。另一个障碍是，一个人可能有多个职位，但只输入其中一个。

例如，考虑下面的员工 #1 (Emp_1)。此人是教员。他们年复一年地教书。但在 2015 年，除了教学职责外，他们还承担了一些被归类为非教师或豁免的工作。但他们的“真正”分类是教师。在此示例中，已为 Emp_1 提供了两条记录。我做了一个快速的 grep 来创建一个名为“job.cat”的新分类，以帮助识别教师。但是在下面的 Emp_1 和 Emp_4 的情况下，您可以看到它们被错误地归类为“非教师”。现在，我可以对“STIPEND/COORD FAC,EXMT EMP”做一个 grep 并将其也算作教员，但是有些人从不教书并且总是“STIPEND/COORD FAC,EXMT EMP”，所以应该是算作非教职员工。

为了解决这个问题，我想我应该创建第二个名称、职位和职位类别的数据集，清理它，然后将其合并回下面的数据，我将使用employee_name 和正确的工作加入。猫。但我想知道是否有更好的方法可以使用类似函数、ifelse 或 for 循环来执行此操作。

r duplicates data-munging

2016-11-23T19:36:28.453

0 投票

2 回答

80 浏览

python - 如何有效地重新排列熊猫数据如下？

我需要一些帮助，以在 pandas 中进行以下操作的简洁且首先是有效的公式化：

给定格式的数据框

构造格式的数据框：

也就是说，“one_entries”列包含原始帧中条目为 1 的列的串联名称。

python pandas dataframe data-munging

2016-11-27T12:45:29.337

0 投票

1 回答

54 浏览

python - 使用数据框列以相同的顺序从另一个框架中选择行

需要一些熊猫从这里开始：

考虑两个数据帧A和B。两者都包含一个id带有标识符值的列：

我需要一个数据框版本，B它只包含包含来自标识符的行，其A[id]顺序与A. 那是：

我认为这是 pandas 中的一个基本操作，但我现在似乎缺少用谷歌搜索它的词汇。

我试过了

但这似乎不是解决方案 -id结果中的列与 A.

python pandas dataframe data-munging

2016-11-27T16:57:11.947

1 2 3 4 5 6 7 8 9 10

问题标签 [data-munging]

Reference