问题标签 [feature-engineering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
34 浏览

python - 检查几列中的日期并在python中创建一个新列

我是 Python 新手。在数据框中,有两列,DOB(出生日期)和 DOD(死亡日期)。我想在数据框中创建一个名为“IS_ALIVE”的新分类列。当 DOB 被填充并且 DOD 为空时,这个新字段的条件 IS_ALIVE 应该是“1”;当 DOB 和 DOD 都不为空时,IS_ALIVE 应该为“0”,这意味着,某个日期填充了 DOD。 我正在查看的数据

我搜索并尝试了多种方法,没有运气。请帮我。

0 投票
1 回答
45 浏览

feature-engineering - 电子商务网站分析中的特征工程

我对这个论坛很陌生,第一次提出问题。我正在为一个项目处理电子商务数据集 - 包括这两个变量 - 页面访问 (0/1) 和退出 (num var 值 -1,0,2,3......)次唯一 ID 已退出特定页面。有6个这样的页面有信息。

页面退出中的 -1 是没有页面访问的页面。但是,我使用页面退出来计算退出率等其他指标,我不确定如何删除/替换 -1 而不会丢失信息或以其他方式放置。我无法将其设为 0 - bcos,这意味着页面上没有页面退出/访问者。即使我删除并创建了一个分类变量 - 表示没有访问,停留,退出..我仍然不知道用什么替换 -1。

我该怎么做……我需要在这里做任何特征工程吗?

0 投票
1 回答
299 浏览

python - 如何在熊猫数据框列上并行应用函数?

1million X 1000我有一个维度的熊猫数据框。列是分类变量。我想对它们进行编码。

我已经从 sklearn 获得了编码模型并对其进行了安装。现在想并行转换我的数据框的列。

上面的 X 是我要编码的数据帧。这里是以串行方式进行的。有没有办法将转换函数并行应用于我的数据框 X 的每一列?

0 投票
1 回答
66 浏览

python - 将列值转换为 pandas 数据框中的 column_name

我有数据框:

然后我想将其转换为:

然后我想将列值合并到一个新列中:

任何人都可以帮助我吗?

谢谢

0 投票
1 回答
114 浏览

r - 如何使用 acs(美国社区服务)和 rStudio 获取邮政编码数据

我正在使用 rStudio、acs 包和数据集进行课堂作业。我需要获取城市邮政编码,并绘制每个邮政编码有多少药物过量。但是,我对 R 的经验很少,而且我以前从未使用过它。网上的“如何使用 R”信息不是很好,大多数人建议使用除 acs 以外的软件包。我已经尝试了几个 acs 函数,但我很确定我做错了。

此代码应该返回芝加哥的所有邮政编码。它运行,但变量“zips”似乎不包含任何数据。有人可以帮帮我吗?

谢谢

附言

我一直在努力寻找一位 R/python 数据科学导师。然而,我尝试过的大多数网站和导师要么真的很贵,要么只是对卖给我作业感兴趣。我真的对学习数据科学、数据挖掘、人工智能等感兴趣......,而不仅仅是获得成绩。所以,如果有人知道一些好的辅导资源或想辅导,请告诉我。我试图以大约 20.0 美元/小时的价格找人。我知道这很低,但请记住我目前是一名失业的大学生;仁慈点;)。

再次感谢。

0 投票
1 回答
27 浏览

r - 我想在现有变量的帮助下创建新变量

我有变量名称为“销售查询日期”、“销售查询阶段”的数据

我想创建一个新变量“当前阶段日期”

所以示例查询日期是 10/03/2017,阶段是会议,同样,查询日期是 27/04/2017,阶段是提案。我想要新变量,“当前阶段日期”<-如果阶段 = 会议,则询问者日期 + 5 天,即 15/03/2017 同样,“当前阶段日期”<- 如果阶段 = 提案,则询问者日期 + 10 天,即 07/ 05/2017

0 投票
1 回答
822 浏览

python - 目标编码:填充扩展平均编码值中生成的 NaN

我正在研究目标列中有五个类的多类分类问题。我使用扩展平均编码(目标编码)为分类变量生成了特征。该方法基于使用每个值的目标变量的平均值对分类变量值进行编码。

这也会导致一些 NaN 值,例如“Transaction-Type_mean_target”列。

  1. 填充这些 NaN 值的最佳方法是什么?我应该用均值列填充这些。

  2. 由于目标/因变量“投诉状态”不存在,如何为我的测试数据生成平均编码?

输入数据 :

在此处输入图像描述

生成平均编码:

0 投票
3 回答
80 浏览

r - 将整数分布在几行上的次数与除以常数一样多

我有一个数据框

其中 4420 是以分钟为单位的时间。我试图得到这个:

其中 1440 - 一天中的分钟和剩下的 100 分钟。我用循环做的。这可以以更优雅的方式实现吗?

0 投票
1 回答
651 浏览

feature-extraction - 使用 Featuretools 聚合一天中的每个时间

我想知道是否有任何方法可以计算我已经在一天内的不同时间段使用深度特征合成(即计数、总和、平均值等)的所有相同变量?

即早晨事件的计数(0-12 小时)作为晚上事件(13-24)的一个独立变量。

此外,同样,按星期几、每月几日、每年几日等最容易获得计数的方法是什么。自定义聚合原语?

0 投票
3 回答
291 浏览

python-3.x - 在机器学习中,编码非层次分类特征的最佳方法是什么?

对于顺序无关紧要的字符串功能,get dummies 或 oneHotEncoder 哪个更好?

例如,在这个 pandas 数据框上:

我知道现在为了处理它们(输入缺失值等),我必须对它们进行编码,如下所示:

输出:

但现在似乎有一些顺序 0-3 但事实并非如此......'ios' ->2不一定大于'android' ->1