问题标签 [data-preprocessing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 ImageDataGenerator 中,每个批次或每个时期都会增加数据?
我知道在每个时代我们都有一组新的增强。但我的问题是,如果我们总共有 10 个样本图像,batch_size = 5
而steps_per_epoch = 3
不是 2 个,那么我们将5*3 = 15
在每个 epoch 中传递图像,
所以我们肯定会有重复,我的问题是,如果图像x
重复,两者将具有相同或不同的增强值。
这取决于新的增强是在每批还是在每个时期发生。
谢谢,
aws-lambda - Lambda for SageMaker Endpoint 中的实时数据预处理
正在做一个网站上的消费者行为分析项目,并实时预测用户的恶意活动。正在收集用户每次点击的点击数据。
我正在使用多种 AWS 服务,例如 kinesis stream、Lambda 和 sagemaker。我创建了一个自动编码器模型并将其部署为 sagemaker 端点,当它通过 Kinesis 流从网站接收新的点击数据时,将使用 lambda 调用该端点。
由于 sagemaker 端点包含唯一的模型,但 lambda 函数接收的点击数据是带有 URL、文本和日期的原始数据。如何将原始数据传递到所需的预处理步骤并以所需格式将处理后的数据发送到 sagemaker 端点?
原始数据示例:-
{'URL':'www.amazon.com.au/ref=nav_logo','文本':'主页','信息':'计算机'}
testing - 如何随机播放 .npz 文件
f_loaded.files #['img', 'name', 'shape']
f_loaded['img'].shape #(23587, 213, 390, 3)
f_loaded['name'].shape #(23587, )
f_loaded['shape'].shape #(23587, )
我想改组进行测试,训练集..但不知道如何..
python - 如何在python中预处理包含网站链接(主机页面和登陆页面)的数据以进行机器学习训练?
我知道我们需要将分类数据转换为一种热编码,以便能够在模型中对其进行训练。但是,如果我的数据列包含诸如主机网站链接和 cookie 之类的文本,那么处理它以在训练算法上正确运行的适当方法是什么?
python - Python中均值的数据插补
我正在处理一些数据,我每小时都会对患者进行观察。在某些情况下,特定患者的某些功能完全是空的。我试图找到一种方法来通过使用恒定平均值来估算数据,该平均值基于具有相同性别和相似年龄的其他 50 名患者的人口子集。我对以下数据进行了简化:
人力资源 | O2Sat | 温度 | 血小板 | 年龄 | 性别 | 患者 ID |
---|---|---|---|---|---|---|
80 | 98 | 36.5 | 钠 | 52 | 1 | A0 |
82 | 96 | 37.0 | 钠 | 52 | 1 | A0 |
82 | 100 | 36.3 | 160 | 53 | 1 | A1 |
90 | 93 | 36.6 | 165 | 53 | 1 | A1 |
83 | 95 | 35.9 | 140 | 23 | 0 | A2 |
79 | 98 | 36.2 | 155 | 23 | 0 | A2 |
88 | 92 | 36.6 | 163 | 60 | 0 | A3 |
90 | 91 | 36.3 | 165 | 60 | 0 | A3 |
81 | 95 | 37.1 | 钠 | 20 | 0 | A4 |
81 | 92 | 36.9 | 钠 | 20 | 0 | A4 |
我已经按年龄对数据框进行了重新排序,并且到目前为止拥有此代码
data = data.sort_values(['Age']).groupby(['PatientID','Gender']).apply(lambda x: x.fillna(x.mean()))
但我知道这将使用所有可用数据来找到平均值,但我不确定如何将其限制为 50 名年龄相近的患者。
python - 无法在导入的 python 文件中使用导入的库
我创建了一个名为 dataFramePreprocessing.py 的 python 文件,其中包含一些已定义的函数,可在我的其他笔记本中使用。在我使用 sklearn.preprocessing 的功能之一中。这是引发错误的函数:
当我在另一个文件中调用该函数时(所有其他函数都可以正常工作),如下所示:
有时候是这样的
有谁知道我该如何解决这个问题?
r - 是否有任何包可用于在 R 中缩放到单位长度?
我想将特征缩放技术应用于我的数据集以缩放特征。特别是我想使用缩放到单位长度技术来缩放我的特征。我对哪些软件包可用于扩展进行了一些研究。我确实从互联网资源中看到了这些,[在此处输入链接描述][1]
[1] 在 R 中缩放 - 从一个答案中,我了解到这种缩放使用Z 分数归一化技术。
是否已经有任何包可用于在 R 中实现对单位长度的缩放?我想知道是否有任何可用的包可以实现这个公式,
X` = X/(||X||)。
r - 如何减小 r 中预处理配方对象的大小?
我正在使用 R recipes 包预处理数据集,进行 Yeo-Johnson 转换以使其更正态分布,然后进行缩放以使其标准化。之后我想减小配方对象的大小,我使用了 butcher 包。但这无济于事。我还尝试手动清理存储数据的“模板”,但大小仍然保持不变。知道如何减少存储和以后使用的大小吗?这是我面临的一个现实问题的示例:
由reprex 包(v0.3.0)于 2021-06-17 创建
看来我无法减小尺寸,有人可以帮忙吗?
python - 如何将带有字符串的列替换为带有整数的列?
我正在尝试预测一个数据集,该数据集有一列包含不同的字符串。例如,有 3 个品牌,“A”、“B”和“C”,我想用数字(例如 0、1 和 2)替换它们。
如果只有 2 个品牌,我知道该怎么做,使用pd.eq
,
我曾尝试使用set
,但我想知道是否有更简单的方法可以做到这一点,因为我必须用具有超过 5 个不同字符串的列替换它,这会很烦人。
pandas - 实时对点击流数据进行数据预处理
我正在开发一个实时检测网络用户活动异常的项目。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID(唯一用户 ID)、点击 URL(网页 URL)、点击文本(用户点击的网站中的文本/功能)和信息(用户输入的任何信息)。该项目类似于入侵检测系统 (IDS)。我正在使用 python 3.6,我有以下查询,
- 考虑到数据集中的所有属性都是分类值,这是进行数据预处理的最佳方法。
- 可以应用热编码或标签编码等编码方法,但必须实时处理数据,这使其难以应用
- 根据项目要求,将 3 列(单击 URL、单击文本和键入的信息)视为特征列。
我真的很困惑如何处理数据预处理。任何见解或建议将不胜感激