问题标签 [data-munging]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1080 浏览

python - 正则表达式不适用于 Pandas Dataframe

我有一个 Pandas 数据框,它由我需要使用正则表达式清理的电子邮件组成。但是,我清理列的尝试实际上并没有应用于文本。

示例数据如下:

实际数据集大约有 2500 行。

我正在使用的示例代码是:

在使用 Python 2.7 的 iPython 笔记本中运行此代码,我希望正则表达式能够识别语句并将其替换为空格。

但是,在运行它时,描述的文本不会改变。

我尝试过的另一种结果相同的方法如下:

但是,我得到了相同的结果,没有删除任何文本。

你能给我建议或指出正确的方向吗?

0 投票
1 回答
21 浏览

sql - 获取用户在 SQL 中使用特定服务的月数

我有如下数据:

现在可能会有用户在一年内使用过一项以上的服务,我希望有一个查询可以提供给我。例如,895 使用 S 3 个月,BB 4 个月,然后他的最新服务是 V。所以:

我如何在 SQL 中执行此枢轴和计数,有人可以帮助我吗?

0 投票
1 回答
729 浏览

python - 根据数字和组 ID (Python 3) 扩展 pandas 数据框行。

我一直在努力寻找一种基于预定数字和分组变量(id)来扩展/克隆观察行的方法。对于上下文,这是一个使用 pandas 和 numpy (python3) 的示例数据框。

我想根据 ID 组通过“num”变量中给出的数字来扩展/克隆行。在这种情况下,我想要 15 行 id = 1 和 20 行 id = 2。这可能是一个简单的问题,但我正在努力完成这项工作。我一直在搞乱 reindex 和 np.repeat,但概念上的部分不适合我。

在 R 中,我使用了 splitstackshape 包中的 expandRows 函数,它看起来像这样:

再次抱歉,如果这是一个愚蠢的问题,并提前感谢您的帮助。

0 投票
2 回答
104 浏览

r - R中的修改日期

我正在研究数据中包含大量日期列的数据处理管道。许多 R 函数(例如,设置操作sapply等)不保留日期类,将日期转换为整数。

我看到的处理这个问题的策略是:

  1. 确保数据处理管道中的每个函数都接受并返回格式化为日期的日期。缺点:找出所有要粘贴的地方as.Date()通常很乏味。
  2. 在所有修改步骤中将日期作为整数生活,仅在最后将它们转换为日期。by = "month"这样做的缺点是,如果不首先转换为日期,则无法在中间修改步骤中进行日期操作(例如,使用 排序)。

我还缺少其他选择吗?有没有办法让 R 和日期玩得很好?澄清一下,我正在处理的数据不仅仅是一个时间序列:多个列包含日期。因此,据我所知,xts它的用处有限。

0 投票
3 回答
61 浏览

r - 在两行中消除具有更多 NA 的那一行

我正在寻找一种方法来检查数据框中的两列是否包含一个或多个行的相同元素,然后消除包含更多 NA 的行。

假设我们有一个这样的数据框:

请注意,瑞典在 2017 年的条目有两次,但第一行有一个带有 NA 的条目,而另一行在三个位置包含 NA。现在我想检查两行是否包含相同的“年份”和“国家”,然后继续消除包含较高数量 NA 的行,在这种情况下是第二行。我做了一些研究,但似乎无法为这种特殊情况找到解决方案。

非常感谢您提前。

0 投票
1 回答
30 浏览

python - 将复杂列(类似字典)转换为多个列

我有一个两行单列的数据框:

如您所见,行是一种字典,我知道字典元素的最大数量(在我们的例子中,如果您从 0 开始计数,则为 3 或 2;))。我想在此数据框中使用以下值创建额外的三列T0、T1、T2 :

  • 可能超过 2 行
  • 可能有更多的列,但它不应该影响问题
0 投票
3 回答
669 浏览

r - R - 如何在数据框中的两个对应 ID 之间填充 NA

我正在尝试获取以下数据集并将其转换为第二个。基本上,我正在尝试用该 ID 填写每个 ID 之间的 NA。

每个 ID 对应于两个时间戳,我已将其加入到较大的 date_time 列中。出于重现能力的目的,在连接之间执行 sql(date_time 列非常大)甚至获取原始数据集并在每个 id 之间创建时间戳然后将其加入(我有太多ID 来执行此操作)。我已经成功完成了这两种方法,但我拥有的数据量需要太多时间。我希望用这个数据集来操作数据。看似很简单的事情,却真的让我很为难。任何帮助,将不胜感激。

当前数据集:

所需数据集:

输入()日期:

0 投票
1 回答
49 浏览

python - 将基于正则表达式的选定列更改为百分比

我有以下数据:

对于每一列(Total 和 no_of_prize 除外)都将更改为 Total 的百分比。现在列数可能因数据而异,因此我想使用正则表达式来识别 Shiver 和 Shiver - Multi 等列。例如,另一个数据可能是

恐怖恐怖 - FRANKESTIEN - 多总 no_of_prize

我想通过使用正则表达式或任何其他可行的方式自动处理这个问题。

预期输出:

有人可以帮我吗?

0 投票
1 回答
84 浏览

mysql - 如果不存在句点,MySQL 将句点添加到名称首字母

我有一个这样的数据集:

Juan Corona Jane L Doe John Q. Public R S Fitzgerald

我需要清理它,所以它是:

Juan Corona Jane L. Doe John Q. Public R. S. Fitzgerald

但由于 MySQL 不支持正则表达式搜索和替换,我觉得我有点难过。

更好的做法是在数据库中,但作为后备,我可以在 PREG_REPLACE 中进行,我知道它可以在其中完成。

0 投票
1 回答
40 浏览

r - 替换向量中不包含的数据框中的元素

简单的问题,但我找不到解决方案:如何用特定字符串替换向量中不包含的数据框中的所有元素?

我的数据框如下所示:

我还有一个包含所有可能的国家代码的向量:

我想将 myDF$Country 中未包含在 countryCodes 中的所有元素替换为“N/D”。

我正在使用的数据集大约有 3000 万行,我必须执行几次转换,所以我想保持代码尽可能简单和快速。

提前致谢!