问题标签 [data-preprocessing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas Dataframe 中包含字符串列表作为值的列中的项目的值计数
我想计算数据集列中存在的列表中项目的出现次数。我在数据集中有我的标签列。我的数据集包含以下格式的数据
该列表似乎也是字符串格式。如果不连接列表中的所有项目,我无法将字符串转换为列表。
输出将是
我尝试了两种方法 方法1:
输出将是
但价值计数不适用于上述系列。值计数将给出以下输出
方法2: 我尝试使用replace、strip、asl.literal_eval()。
问题 如何实现以下格式的输出?
python-3.x - 在窗口中用移动平均值替换 null 的优雅方法
我有一个以数据帧格式表示的时间序列数据,如下所示:
可以看出U4
有一个空值,我想用 6 个附近值的平均值替换它:U1
, U2
, U3
, U5
, U6
, U7
(前面三个值,后面三个值,如果U1
包含 null,则后面有 6 个值。如果U2
包含 null,然后是前面的 1 个值和后面的 5 个值。等等)
我可以像下面这样手动实现它:
有没有更优雅的方法来实现这一点?
python - 将列表中的单个字符串转换为熊猫中同一列表中的多个字符串
我有一个数据框,它由一个带有标签的列组成
如何获取以下格式的数据框?
查看单行时:
我尝试了以下方法:
Method2这对我也不起作用。
Question2我想计算标签的总出现次数,df['tags'].value_counts()
但不起作用。它要么将整个列表作为计数它们的出现,要么如果我修改列表,那么它将采用字符计数。
python - 检查无效观察
我需要检查并删除那些在表位序列(DF 中的列)中包含任何非特异性氨基酸字母(即 B、J、X 或 Z)的观察结果。
表位序列是数据框中的一列,其值类似于下面给出的样本。我需要检查该序列是否包含字母 B、J、X、Z,如果是,则删除所有相应的记录。
表位序列:
我拥有的当前代码正在单独检查每个代码,这意味着编写 4 行代码。有没有更好的方法来做到这一点,即所有 4 行代码在一行中使用 OR 运算符?如果是,如何?
当前代码:
python - 如何在训练前预处理顺序编号的数据?
我有一个数据集如下:
小路 | 类标签 |
---|---|
4,3 | 0 |
4,5,3,7 | 1 |
5,3,2,1,8 | 0 |
3,4,5 | 1 |
- “路径”列是一系列具有不同长度 (>=2) 的序列号。
- 数字范围从 1 到 9。
- 每个数字可以在任何位置的“路径”中多次出现。
- “路径”中的每个数字都代表现实世界中的一个状态。
- 目的是根据“路径”数据预测类标签。
在将“路径”用作训练数据之前,我应该如何对其进行预处理?
谢谢,
python - 数据集预处理中的 NumPy 效率
我目前正在从事一个与使用在 EEG 数据集上运行的神经网络有关的研究项目。我正在使用 BCICIV 2a 数据集,它由一系列包含受试者试验数据的文件组成。每个文件包含一组 25 个通道和一个非常长的 ~600000 时间步长的信号数组。我一直在编写代码以将这些数据预处理为可以传递给神经网络的东西,但遇到了一些效率问题。目前,我编写了代码来确定文件中所有试验在数组中的位置,然后尝试提取存储在另一个数组中的 3D NumPy 数组。但是,当我尝试运行此代码时,速度非常慢。我对 NumPy 不是很熟悉,我目前的大部分经验都是在 C 中。我的意图是将预处理的结果写入一个单独的文件,可以加载该文件以避免预处理。从 C 的角度来看,只需移动指针以适当地格式化数据,所以我不确定为什么 NumPy 这么慢。任何建议都会非常有帮助,因为目前对于 1 个文件,提取 1 个试用版需要大约 2 分钟,一个文件中有 288 个试用版和 9 个文件,这比我想要的要长得多。我对如何充分利用 NumPy 对通用列表的效率改进的知识不是很满意。谢谢!任何建议都会非常有帮助,因为目前对于 1 个文件,提取 1 个试用版需要大约 2 分钟,一个文件中有 288 个试用版和 9 个文件,这比我想要的要长得多。我对如何充分利用 NumPy 对通用列表的效率改进的知识不是很满意。谢谢!任何建议都会非常有帮助,因为目前对于 1 个文件,提取 1 个试用版需要大约 2 分钟,一个文件中有 288 个试用版和 9 个文件,这比我想要的要长得多。我对如何充分利用 NumPy 对通用列表的效率改进的知识不是很满意。谢谢!
编辑:我想回来添加一些关于数据集结构的更多细节。有一个包含数据的 25x~600000 数组和一个更短的注释对象,其中包含事件标签并将这些与较大数组中的时间相关联。具体事件表示运动图像提示,这是我的网络正在接受训练的试验,我正在尝试提取一个 3D 切片,其中包括使用时间维度适当格式化的相关通道,发现时间维度为 313 个时间步长。注释为我提供了相关的时间步长进行调查。Ian 推荐的分析结果表明,主要计算时间位于 getSlice1D() 函数中。特别是在我索引原始对象的地方。从注释中提取事件时间的代码可以忽略不计。
python - AttributeError: 'SimpleImputer' 对象没有属性 'mean'
我正在尝试对 iris 数据集执行预处理,但在插补步骤中,使用 SimpleImputer 打印每列的平均值时出现此错误。
这是完整的代码供参考。我在最后一部分得到了错误。
对不起,我是机器学习的新手。
python-3.x - 改变数据的形状和结构
我有以下数据集
办公室 | 员工ID | 加盟日期 | 减员日期 |
---|---|---|---|
AA | 700237 | 27-11-2017 | |
AA | 700238 | 11-01-2018 | |
AA | 700252 | 14-02-2018 | 08-04-2018 |
AB | 700287 | 18-01-2014 | |
AB | 700449 | 28-02-2014 | 17-04-2014 |
这个想法是如果有人加入,则添加活动列,如果有人在任何一个月辞职,则扣除,因此想使用 python 将其更改为以下格式
办公室 | 年月 | 积极的 |
---|---|---|
AA | 17 月 17 日 | 0 |
AA | 2月17日 | 0 |
AA | 3 月 17 日 | 0 |
AA | Apr-17 | 0 |
AA | 5 月 17 日 | 0 |
AA | 17 年 6 月 | 0 |
AA | 7 月 17 日 | 0 |
AA | 17 年 8 月 | 0 |
AA | 17 年 9 月 | 0 |
AA | 17 月 17 日 | 0 |
AA | 11 月 17 日 | 1 |
AA | 17 月 17 日 | 1 |
AA | 18 年 1 月 | 2 |
AA | 2月18日 | 3 |
AA | 3月18日 | 3 |
AA | Apr-18 | 2 |
AB | 14 年 1 月 | 1 |
AB | 2月-14日 | 2 |
AB | 3 月 14 日 | 2 |
AB | Apr-14 | 1 |
请帮忙。
python - 有没有办法从列表中获取数字
这是一个奇怪的情况。该表获取 id 联系人。我现在在这里获得包含多个 ID 的票证跟踪,我想总计他们的联系人。
我正在尝试将 id 和 contacts 放入字典,但我很难获取值,我将其转换为跟踪列表每一行中的列表。
有没有办法解决这个问题?