我在 csv 中有原始数据,列名 w1 有公司名称。
w1
abcd reit pvt ltd
abcd reit private ltd
ac abcd pte limited
abcd reit pvt ltd
abcd singapore private limited company
abcd reit pvt ltd company
abcd reit private limited company
abcd reit private limited
abcd reit private ltd
abcd pte limited
abcd reit pvt ltd company
abcd singapore private limited company
abcd reit pvt ltd company
abcd reit private limited company
我正在编写一个神经网络 ML 程序,该程序将自行学习识别相似的公司名称。仅使用 ML 算法,如神经网络、RNN 等
我创建了一个列标签来分类相似的名称属于同一组,所以我的数据集变成了。
w1 label
abcd reit pvt ltd 1
abcd reit private ltd 1
ac abcd pte limited 2
abcd reit pvt ltd 1
abcd singapore private limited company 3
abcd reit pvt ltd company 1
abcd reit private limited company 1
abcd reit private limited 1
abcd reit private ltd 1
abcd pte limited 1
abcd reit pvt ltd company 1
abcd singapore private limited company 3
abcd reit pvt ltd company 1
abcd reit private limited company 1
我创建了哈希矩阵,但我无法将此矩阵提供给神经网络。
附上我的代码
library(readxl)
data <- read_excel("~/data.xlsx")
data1<-as.data.frame(data)
library(FeatureHashing)
library(Matrix)
############### split data test train
library(caTools)
set.seed(101)
data2<-as.data.frame(data1)
# Create Split (any column is fine)
split = sample.split(data2$label, SplitRatio = 0.70)
# Split based off of split Boolean Vector
train = subset(data2, split == TRUE)
print(head(train,1))
test = subset(data2, split == FALSE)
hash.size(train)
d1<- hashed.model.matrix(label~ split(w1, delim= " "),
data = train, hash.size = 16, signed.hash = FALSE ,
create.mapping = TRUE)
在这里我有问题,因为我不知道如何将这个 d1 哈希矩阵输入到神经网络中,当我运行输入这个哈希矩阵到神经网络时,我得到了错误,
####### test hash input to neural net
nn <- neuralnet(
label~w1,
data=train, hidden=2, err.fct="sse",
linear.output=TRUE)
predicted.nn.values <- compute(nn,test[1:1] )
plot(nn)
有没有其他方法可以做到这一点,我也不确定如何将这个 d1 哈希矩阵输入神经网络