问题标签 [data-munging]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python,Pandas - 问题将函数应用于数据框中的列以仅替换某些项目
我有一本我们的系统(出于某种原因)适用于数据的一些城市名称的缩写字典(即“堪萨斯城”缩写为“堪萨斯 CY”,俄克拉荷马城拼写正确)。
我在让我的函数应用于数据框的列时遇到问题,但是当我传入数据字符串时它可以工作。下面的代码示例:
当我在最后一行添加'axis = 1'时,它会出错,说我提供了太多的参数。否则,它运行时不会出错,它只是在与字典匹配时不进行更改。
先感谢您!-里斯
r - 替换 R 中数据表单列中的 NA
我正在尝试用“-999”替换R中数据表的单列中的NA,我完全可以得到它。
Stackoverflow 上有相关的问题,但我认为这可以在不遍历表格的情况下完成。
我在数据表column_to_check
中有一个列。该列是一个因子变量,有 80K 个观察值,由 NA、0 和 1 组成。我正在尝试将其更改NA
为-999
以便可以做进一步的工作。
我正在使用的代码是这样的:
和
第一行将整列设置为 NA。第二个不起作用,我知道已经关闭,但我想我已经接近了。
任何人都可以帮忙吗?
谢谢。
php - 将 PHP 关联数组映射到 PDO 准备语句
我正在对数据进行一些清理和转换(该部分已完成,哇),并且需要将其插入 MySQL 表中。之前在 Perl 中做过这种事情,我认为,作为处理的一部分,我将数据构造为关联数组是有意义的,其中键与我需要加载它们的字段名称相同 -这样,只需遍历键并生成命名占位符和匹配值的列表,就可以很容易地构造一个准备好的语句。
但是,我似乎无法在 PHP/PDO 中完成这项工作。测试代码:
坦率地说,工作感觉太……不优雅和笨拙——但事实并非如此。
有正确的方法可以做到这一点,对吧?如果有人能向我介绍适当的 PHP 风格的措辞,我将不胜感激。
r - 以特定形式重塑数据
我的数据如下,它是一个但实际上我很少experiment
,它是简化的数据集:
现在我的数据具有以下形式:
我希望它被重塑如下:
最简单的方法是什么?我真的不知道该怎么做。我试过了
但是我失去了theoric
和之间的所有对应关系observed
。非常感谢
编辑:完整数据集:
输出:
编辑 2:添加EL
输出
python - 'Stack()' output with all Individual index's filled in Pandas DataFrame
I have the following DataFrame:
which is:
I stacked the dataframe with purpose and it appears as below:
I wish to have the dates printed in all the rows instead of having merged together. I want to have something like this:
Can anyone please help me to achieve this goal. Thank you.
r - 从 R 中的数据框构建句子
我试图从数据框生成句子下面是数据框
因此,如果我们以mycode
一个例子为例,我想创建一个句子,如“对于代码mycode
,最大的目的地是myresorts
访问次数最多mydate
的地方HolidayMakers
”
如果我们假设每个代码有多行。我想要的是一个句子,例如,而不是每个mydate
and一个句子myresort
,我想说一些类似的话
“对于代码 AAABBB,最大的目的地是 GB、GR、DK、IE,其中访问最多的天数是 2016-10-17,2016-10-18,2016-10-19,总共 650 天”
650 基本上是每个 mycode 在那些日子里所有这些国家的所有度假者的总和
有人帮忙吗?
感谢您的时间
python - 如何对熊猫数据框进行子集化
我有一个熊猫数据框,它有 50 列,我想选择 30 列。假设我们有以下数据框:
我想选择“a”和“c”,然后选择从“h”到“z”的所有列
请告知如何按名称或索引对该数据框进行子集化。
我希望生成的数据框如下所示:
r - 管理未在 R 中作为重复项输入的重复项
我有一个来自国家机构的数据集,正在尝试清理它。一个障碍是没有标题的输入标准(例如,DIR、DIRECTOR、DIR.,都是允许的输入)。另一个障碍是,一个人可能有多个职位,但只输入其中一个。
例如,考虑下面的员工 #1 (Emp_1)。此人是教员。他们年复一年地教书。但在 2015 年,除了教学职责外,他们还承担了一些被归类为非教师或豁免的工作。但他们的“真正”分类是教师。在此示例中,已为 Emp_1 提供了两条记录。我做了一个快速的 grep 来创建一个名为“job.cat”的新分类,以帮助识别教师。但是在下面的 Emp_1 和 Emp_4 的情况下,您可以看到它们被错误地归类为“非教师”。现在,我可以对“STIPEND/COORD FAC,EXMT EMP”做一个 grep 并将其也算作教员,但是有些人从不教书并且总是“STIPEND/COORD FAC,EXMT EMP”,所以应该是算作非教职员工。
为了解决这个问题,我想我应该创建第二个名称、职位和职位类别的数据集,清理它,然后将其合并回下面的数据,我将使用employee_name 和正确的工作加入。猫。但我想知道是否有更好的方法可以使用类似函数、ifelse 或 for 循环来执行此操作。
python - 如何有效地重新排列熊猫数据如下?
我需要一些帮助,以在 pandas 中进行以下操作的简洁且首先是有效的公式化:
给定格式的数据框
构造格式的数据框:
也就是说,“one_entries”列包含原始帧中条目为 1 的列的串联名称。
python - 使用数据框列以相同的顺序从另一个框架中选择行
需要一些熊猫从这里开始:
考虑两个数据帧A
和B
。两者都包含一个id
带有标识符值的列:
我需要一个数据框版本,B
它只包含包含来自 标识符的行,其A[id]
顺序与A
. 那是:
我认为这是 pandas 中的一个基本操作,但我现在似乎缺少用谷歌搜索它的词汇。
我试过了
但这似乎不是解决方案 -id
结果中的列与 A
.