所以我有一个 20000x4 数据集,其中 4 列都有字符串。第一个是描述,其他三个是类别,最后一个是我希望预测的。我标记了第一列的每个单词并将其保存在字典中,并带有他各自的 Int 值,我将其他列更改为具有数值。现在我很难理解如何在 Flux 模型中提供这些数据。
根据文档,我必须使用“数据集来训练(通常是一组输入 x 和目标输出 y) ”。在示例中,它将数据x和y分开。但是我怎样才能用字典加上两个数字列来做到这一点呢?
编辑:
这是我现在拥有的一个最小示例:
using WordTokenizers
using DataFrames
dataframe = DataFrame(Description = ["It has pointy ears", "It has round ears"], Size = ["Big", "Small"], Color = ["Black", "Yellow"], Category = ["Dog", "Cat"])
dict_x = Dict{String, Int64}()
dict_y = Dict{String, Int64}()
function words_to_numbers(data, column, dict)
i = 1
for row in range(1, stop=size(data, 1))
array_of_words = tokenize(data[row, column])
for (index, word) in enumerate(array_of_words)
if haskey(dict, word)
continue
else
dict[word] = i
i += 1
end
end
end
end
function categories_to_numbers(data, column, dict)
i = 1
for row in range(1, stop=size(data, 1))
if haskey(dict, data[row, column])
continue
else
dict[data[row, column]] = i
i += 1
end
end
end
words_to_numbers(dataframe, 1, dict_x)
categories_to_numbers(dataframe, 4, dict_y)
我想使用 dict_x 和 dict_y 作为 Flux 模型的输入和输出