0

我发现功能存储是一种在商业环境中操作 ML 管道的机制。听起来不错,但我发现在进行探索性数据分析时很难理解何时何地使用它。例如,考虑一个预测给定地理位置的房价的简单用例。我从包含历史房价的远程服务器获取原始数据,其中包含一些列(特征),如下所示:

latitude, longitude, total_rooms, house_size, total_bedrooms, year_of_construction........

这只是功能集的一个小表示。作为一名数据工程师,可能必须查看原始数据,进行一些简单的统计分析,例如:

  1. 识别 Null 或 NaN 值并估算它们
  2. 识别特征与目标变量的相关关系,并确定是否删除某些特征
  3. 识别数字变量的唯一计数,并在唯一计数低于某个阈值时确定删除该特征或列
  4. 删除重复行
  5. 对分类数据执行 OneHotEncoding
  6. 识别和去除异常值
  7. 执行降维/特征缩放

现在假设我将只执行前几个步骤,或者我将执行上述所有步骤,我想知道使用特征存储将如何加速或更确切地说操作我的 ML 管道?

4

0 回答 0