问题标签 [featuretools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
featuretools - 来自 featuretools 的 feature_matrix[["MEAN_SUNDAY(log.value, datetime)", "MEAN_SUNDAY(log.value_2, datetime)"]] 中的“log”是什么意思?
我怀疑 log.value 和 log.value_2 是否是,
1) 列“value”和“value_2”的对数以及“datetime”作为两个输入发送到 MEAN_SUNDAY 以执行用户定义的函数。
2)日志只是实体集中的一个实体,它访问其列“value”和“value_2”。
你能告诉我哪个是正确的,我如何区分我提取的特征实际上是(1)还是(2)?
python - 使用特征工具创建“时间窗口特征”
我试图使用featuretools
包自动创建“行窗口功能”,但我找不到创建它们的简单方法。我对“行窗口特征”的意思是,对于每个cutoff
点,我都想创建提取时间模式的特征。例如:
我知道有一种方法可以使用training_window
参数 in来限制功能的“时间窗口” ft.dfs()
,但这只是一个“下限”,是否有一种简单的方法可以创建这种功能?
featuretools - 有没有办法获得实体集中分类变量的每个级别的百分比?
现在,对于具有 A、B 和 C 级别的分类变量,我只能获取每个用户 ID 的模式。我还想获取每个用户 ID 的每个级别的值的百分比。
例如,使用 encode_features,我得到 user1 具有以下内容:
- 模式(变量 X = A)= 0
- 模式(变量 X = B)= 1
- 模式(变量 X = C)= 0
但我也想要的是:
- 百分比(变量 X = A)= .05
- 百分比(变量 X = B)= .5
- 百分比(变量 X = C)= .45
有没有办法使用 Featuretools 来做到这一点,或者我应该在预处理阶段将每个级别重新编码为布尔值?谢谢!
featuretools - 如何从通过深度特征合成创建的 feature_def 中选择特征
我正在使用深度特征合成来创建新特征。如何从 feature_def 中选择功能。
例如,我需要选择其中包含字符串“Age”的所有特征。我尝试了以下代码,它给了我一个错误“'IdentityFeature'类型的参数不可迭代”
featuretools - 如何使用来自多个特征/列的值组合创建有趣的值
我对功能工具相当陌生,并试图了解是否以及如何将有趣的值添加到使用多个功能生成的实体集中。
例如,我有一个包含两个实体的实体集:客户和交易。交易可以是借记或贷记 (c_d),并且可以发生在不同的消费类别 (tran_category) - 餐馆、服装、杂货等。
到目前为止,我能够为这些功能中的任何一个创建有趣的值,但不能从它们的组合中创建:
如何添加一个有趣的值,它结合了 c_d 和 tran_category 中的值?(即餐厅借记、杂货贷记、服装借记等)。然后,目标是使用 where_primitives 使用这些有趣的值来汇总交易金额、交易之间的时间等:
nlp - 对文本数据使用特征工具(字数统计,tfidf)
Featuretools 最适合关系分类和数值数据。
关于文本,它似乎只计算文本长度和其他一些非常基本的统计数据。
为特征工具准备文本数据的最佳管道是什么?
应该这样做make_trans_primitive
还是以其他方式准备数据会更好?
featuretools - 是否可以跳过一列的处理?
我想将我的数据框的一列保持在其原始状态,而不是对其应用任何原语,这可能吗?
feature-extraction - 使用 Featuretools 聚合一天中的每个时间
我想知道是否有任何方法可以计算我已经在一天内的不同时间段使用深度特征合成(即计数、总和、平均值等)的所有相同变量?
即早晨事件的计数(0-12 小时)作为晚上事件(13-24)的一个独立变量。
此外,同样,按星期几、每月几日、每年几日等最容易获得计数的方法是什么。自定义聚合原语?
python-3.x - 如何修复 colab 上的功能工具类型错误
只要我在下面的代码中的 es.entity_from_dataframe(..) 中输入 time_index='date' 参数,ft.dfs(..) 就会抛出从 Type Error 开始的一长串错误。我正在使用 google colab 和 featuretools 版本 0.4.1。
featuretools - 特征工具中是否有用于交互的内置原语?
是否有内置原语执行两个数字列之间的绝对和相对差异?两个日期列?