我收集了有关天气预报的每小时数据。我收集的特征是数字的——“温度”、“降水”以及分类的——“天气预报”(例如“晴天”、“晴天”、“多云”、“雨”、“大雨”等)。我需要创建每日天气预报统计数据。虽然对于数值特征很容易(最小值、最大值、平均值、标准等),但我正在努力处理分类数据。我正在考虑每小时对“weather_forecast”功能进行一次热编码,然后将这些值加在一起。
例如,对于以下数据:
hour weather_forecast
8:00 sunny
9:00 sunny
10:00 sunny
11:00 cloudy
12:00 rain
13:00 cloudy
在一次热编码中
sunny cloudy rain
8:00 1 0 0
9:00 1 0 0
10:00 1 0 0
11:00 0 1 0
12:00 0 0 1
13:00 0 1 0
我会得到类似的统计数据
sunny: 3
cloudy: 2
rain: 1
这可能会让我获得关于一天中天气的汇总统计数据。
我想知道这种方法是否存在任何陷阱/问题或需要注意的事项。这种编码有名字吗(我在网上找不到)。