问题标签 [featuretools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Featuretools 分类处理
Featuretools 提供了处理分类变量的集成功能
然而,这些应该是strings
或pandas.Category
类型以实现与 Featuretools 的最佳兼容性?
编辑
此外,是否需要手动指定所有列,如 https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb或者它们是否会从拟合熊猫数据类型中自动推断出来
python - Featuretools 与非唯一连接键的关系
假设我有两张表,一张是关于带有字段的客户的元数据,另一张是customer_id
从网站点击流事件中记录的带有字段的事件表customer_id
,date
. 显然,第二个表可能有几个非唯一事件(不幸的是,日期实际上只是一个日期而不是时间戳)。
尝试创建https://docs.featuretools.com/loading_data/using_entitysets.html时失败:
我怎样才能让它独一无二或让它发挥作用?
python - 在 Featuretools 中使用多个训练窗口计算相同的特征
Featuretools 已经支持处理多个截止时间https://docs.featuretools.com/automated_feature_engineering/handling_time.html
但是正如您看到的,一个 ID 的多个时间点会生成一个 pandas 多索引。我如何(也许通过枢轴?)我可以得到所有 MIN/MAX/... 生成的列,前缀为 last_x_days_MIN/MAX/... 所以每个截止窗口都获得额外的功能?
编辑所需的输出格式
python - 向实体添加变量 - featuretools
我正在尝试向实体添加一个新变量。
我正在尝试添加一个变量,如下所示:
但是我收到了这个错误:
如果我将类型参数指定为 int,
我得到一个不同的错误:
是否有另一种方法可以向实体添加新变量?
谢谢,
pandas - 无法添加关系,因为 dtypes 在 Featuretools 中不匹配
尝试在 Featuretools 中添加两个实体之间的关系时出现以下错误
请注意,系列不一定相同cat.Codes
training-data - 如何使用 ft.dfs 结果加入测试集?
我知道 featuretools 有 ft.calculate_feature_matrix 方法,但它计算数据使用测试。我需要在获得特征时使用训练数据,并加入测试数据,而不是在测试数据上使用相同的特征。例如:训练数据:
dfs后,我得到:</p>
我想在测试集上这样:</p>
不是
我怎样才能实现它,谢谢。</p>
python - FeatureTools:处理多对多关系
我有一个包含多列的购买数据框,包括以下三列:
一个工作人员可以有多个与之关联的帐户,一个帐户可以有多个工作人员。
如果我创建 WORKER 和 ACCOUNT 实体并添加关系,则会出现错误:
到目前为止,这是我的代码:
如何分离实体以包含多对多关系?
python - 使用 featuretools 指定有趣的变量不起作用
我目前正在使用我自己的数据处理功能工具文档。到目前为止一切正常,但我一直在添加有趣的变量。出于某种原因,我无法让它工作,我不知道为什么。文档中的示例工作得很好。
创建实体集后,我试图获取特定产品的功能Classic Cars
:
我期望的是一个计算包括经典汽车在内的交易数量的功能。不幸的是,它没有这样做。它也不适用于我尝试过的任何其他变量或值。
正如您在此处看到的,作业确实有效。
Classic Cars 是变量 PRODUCTLINE 的有效值:
不知道我做错了什么,任何帮助将不胜感激!
如果您想复制它,这里是数据和代码:https ://drive.google.com/open?id=1NOeudbCkeZ66nSOZrhhBdd1jcAa1LDco
feature-engineering - 使用 Deep Feature Synthesis 时如何记录 FeatureTools 派生的常量
当 FeatureTools 执行深度特征合成时,有没有办法记录它导出的常量值?
例如,我有很多这样的行:
| loan_id | loan_term |
|---------|:---------:|
| a | 12 |
| ... | ... |
| z | 18 |
DeepFeatureSynthesis 工程师features
包括<Feature: loan_term.COUNT(loan)>
:
| loan | loan_term | loan_term.COUNT(loan) |
|---------|:---------:|:---------------------:|
| a | 12 | 2000 |
| ... | ... | ... |
| z | 18 | 800 |
我希望能够重新设计单个实体的功能,以便单个贷款期限12
具有 a loan_term.COUNT(loan)
of2000
而无需重新计算所有loan_term
s。*
我可以通过将实体与训练数据重新组合来做到这一点
ft.calculate_feature_matrix(features, my_entity_set_with_one_new_entity_added)
,但这效率低下且速度慢。
有没有办法指示 FeatureTools 记录在深度特征合成过程中发现的常量,并将它们用于未来的特征生成?
*现在将单个新贷款实体包括在计算中对我来说并不重要。所以12
不必成为2001
。
featuretools - Featuretools 可以从一组特征中选择一组特征吗?
我有一个包含 100 多个输入的数据集,6 个输入可以组合成一个集合,它们是从同一个传感器收集的。我同样试图找出哪个传感器的数据是最好的功能。Featuretools 可以做特征工程并从特征集中找到最好的特征集吗?