tsfresh
需要在特定列中输入数据。我最初认为这column_id
只是 row_index 但我担心这是错误的。
我有传感器数据 - 以 10 秒的间隔捕获压力传感器、温度传感器和湿度传感器。因此它是 4 列pandas DataFrame
。现在告诉我应该如何使用数据?是什么column id
?
这里的文档很好,但我无法理解它们的含义entity
。每个传感器测量一个不同的东西,所有传感器都安装在一个机器单元中。
tsfresh
需要在特定列中输入数据。我最初认为这column_id
只是 row_index 但我担心这是错误的。
我有传感器数据 - 以 10 秒的间隔捕获压力传感器、温度传感器和湿度传感器。因此它是 4 列pandas DataFrame
。现在告诉我应该如何使用数据?是什么column id
?
这里的文档很好,但我无法理解它们的含义entity
。每个传感器测量一个不同的东西,所有传感器都安装在一个机器单元中。
源代码揭示了这个密文:
tsfresh/feature_extraction/extraction.py:76
:
:param column_id: The name of the id column to group by.
:type column_id: str
因此,这是一个对于时间序列的所有点都应该具有相同值的列。如果数据框中的该列中有多个值,则库会将其解释为多个时间序列并同时对其进行分析。
此列指示时间序列属于哪些实体。将为每个实体单独提取特征。生成的特征矩阵将包含每个实体一行。在文档中提出的示例中,您有不同机器人的 6 个传感器在不同时间的值。在此示例中,每个机器人都是不同的实体,因此每个机器人都有不同的 id。
或者,如果您有不同供应商的数据以及他们在不同时间戳的不同类别中销售的商品数量,则供应商 ID 可以用作您的“column_id”。