2

我正在做一项流量分析任务,但我的代码中出现了一些错误。我的数据行是这样的:

qurter | DOW (Day of week)| Hour | density | speed | label (predicted speed for another half an hour)

值是这样的:

1, 6, 19, 23, 53.32, 45.23

这意味着在 15 点钟的某个特定街道1st19Friday测量交通密度23和当前速度53.32。预测的速度将是45.23

任务是通过上面给出的预测器预测另外半小时的速度。

我正在使用此代码DNNRegressor为数据构建 TensorFlow:

import pandas as pd
data = pd.read_csv('dataset.csv')
X = data.iloc[:,:5].values
y = data.iloc[:, 5].values
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=0)

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_train = pd.DataFrame(data=scaler.transform(X_train),columns =    ['quarter','DOW','hour','density','speed'])
X_test = pd.DataFrame(data=scaler.transform(X_test),columns = ['quarter','DOW','hour','density','speed'])

y_train = pd.DataFrame(data=y_train,columns = ['label'])
y_test = pd.DataFrame(data=y_test,columns = ['label'])

import tensorflow as tf

speed = tf.feature_column.numeric_column('speed')
hour = tf.feature_column.numeric_column('hour')
density = tf.feature_column.numeric_column('density')
quarter= tf.feature_column.numeric_column('quarter')
DOW = tf.feature_column.numeric_column('DOW')

feat_cols = [h_percentage, DOW, hour, density, speed]
input_func = tf.estimator.inputs.pandas_input_fn(x=X_train,y=y_train ,batch_size=10,num_epochs=1000,shuffle=False)

model = tf.estimator.DNNRegressor(hidden_units=[5,5,5],feature_columns=feat_cols)
model.train(input_fn=input_func,steps=25000)
predict_input_func = tf.estimator.inputs.pandas_input_fn(
  x=X_test,
  batch_size=10,
  num_epochs=1,
  shuffle=False)

pred_gen = model.predict(predict_input_func)

predictions = list(pred_gen)
final_preds = []
for pred in predictions:
    final_preds.append(pred['predictions'])

from sklearn.metrics import mean_squared_error

mean_squared_error(y_test,final_preds)**0.5

当我运行这段代码时,它会以这个结尾抛出一个错误:

TypeError: Failed to convert object of type <class 'dict'> to Tensor. Contents: {'label': <tf.Tensor 'fifo_queue_DequeueUpTo:6' shape=(?,) dtype=float64>}. Consider casting elements to a supported type. 首先错误的概念是什么?由于错误原因,我找不到处理它的来源。以及如何修改解决方案的代码?

其次,使用 tensorflowcategorical_column_with_identity代替numeric_columns表示星期几的 DOW 是否会提高模型性能?

我还想知道合并quarterhour作为单个列是否有用day timequarter是一小时中的分钟数,它将在 0 和 1 之间标准化)?

4

2 回答 2

1

首先错误的概念是什么?由于错误原因,我找不到处理它的来源。以及如何修改解决方案的代码?

让我先谈谈解决问题的方法。您需要按如下方式更改y参数pandas_input_fn

input_func = tf.estimator.inputs.pandas_input_fn(x=X_train,y=y_train['label'],batch_size=10,num_epochs=1000,shuffle=False)

运行y到. pandas_input_fn_ dataframe_ 将每个样本解析为与本例类似的形式,但无法识别。所以你需要传递类型。model.train()pandas_input_fny{columnname: value}model.train()series

其次,使用 tensorflow categorical_column_with_identity 而不是 numeric_columns 表示星期几的 DOW 是否提高了模型性能?

这涉及到我们应该何时选择categorical或选择numeric特征工程。一个非常简单的规则是选择numeric在你的特征的内部比较中大小之间是否存在显着差异。如果该特征没有更大或更小的意义,则应选择categorical. 所以我倾向于选择categorical_column_with_identityfeature DOW

我还想知道将季度和小时合并为像白天一样的单个列是否有用(季度是一小时中的分钟,将在 0 和 1 之间标准化)?

交叉特征可能会带来一些好处,例如经纬度特征。我建议您在此处使用tf.feature_column.crossed_column链接)。它返回一个用于执行分类特征交叉的列。您还可以同时继续保留特征quarterhour模型,.

于 2019-03-27T13:20:23.647 回答
-3

我也发生了类似的错误:

Failed to convert object of type <class 'tensorflow.python.autograph.operators.special_values.Undefined'> to Tensor.

它发生在tf.function我尝试使用以前未分配的变量时。

要调试它,您必须tf.function从方法中删除;-)

于 2020-05-08T15:56:25.427 回答