machine-learning - 在分类神经网络中应该如何处理训练数据中的系统不确定性（上下）？

Question

我有一个分类神经网络和对其进行训练的标称输入数据，但是输入数据对于每个特征都有系统（上下）不确定性。应该如何使用这些输入数据的不确定性来限定和可视化分类器的准确性？我有一个使用 iris 数据集组成的简单 MWE 示例；目的是应该可以轻松地复制粘贴到 Jupyter 笔记本中。

大量进口：

import numpy as np
import datetime
from IPython.display import SVG
from keras.datasets import mnist
from keras import activations
from keras import backend as K
from keras.layers import Dense, Input, concatenate, Conv1D, Conv2D, Dropout, MaxPooling1D, MaxPooling2D
from keras.layers import Dense, Flatten
from keras.models import Model, Sequential, load_model
from keras.utils import plot_model
from keras.utils.vis_utils import model_to_dot
from matplotlib import gridspec
from matplotlib.ticker import NullFormatter, NullLocator, MultipleLocator
from scipy import stats
from sklearn.datasets import load_iris
from sklearn.metrics import auc, roc_curve
from sklearn.model_selection import train_test_split
from vis.utils import utils
from vis.visualization import visualize_activation
from vis.visualization import visualize_saliency
import datetime
import keras
import matplotlib.pylab as plt
import pandas as pd
import random
import seaborn as sns
import talos as ta
sns.set_palette('husl')
sns.set(style='ticks')
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline
plt.rcParams['figure.figsize'] = [10, 10]

让我们加载 iris 数据集并将其限制为两个类，然后为训练做准备。

iris = load_iris()
df = pd.DataFrame(
    data    = np.c_[iris['data'], iris['target']],
    columns = iris['feature_names'] + ['target']
)
df = df.query('target != 2')
df.head()

df['labels'] = df['target'].astype('category').cat.codes
x = df[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']]
y = df['target']
# Convert class vectors to binary class matrices using 1 hot encoding.
# 0 ---> 1, 0, 0
# 1 ---> 0, 1, 0
# 2 ---> 0, 0, 1
num_classes = len(y.unique())
y = keras.utils.to_categorical(y, len(y.unique()))

x = np.asarray(x)
y = np.asarray(y)

x = x.reshape(len(x), 4, 1)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.33, shuffle = True)

让我们做一些简单的分类模型。

model = Sequential()
model.add(Dense(5, input_shape = (4, 1),         activation = 'tanh'))
model.add(Dropout(rate=0.7))
model.add(Flatten())
model.add(Dense(5,                               activation = 'tanh'))
model.add(Dense(num_classes,                     activation = 'softmax', name = 'preds'))
model.compile(loss = "categorical_crossentropy", optimizer  = "nadam", metrics = ['accuracy'])
model.summary()
SVG(model_to_dot(model).create(prog='dot', format='svg'))

现在进行快速培训...

%%time
def model_evaluation(model, x_test, y_test, verbose=False):
    score = model.evaluate(x_test, y_test, verbose=verbose)
    print('max. test accuracy observed:', max(model.history.history['val_acc']))
    print('max. test accuracy history index:', model.history.history['val_acc'].index(max(model.history.history['val_acc'])))
    plt.plot(model.history.history['acc'])
    plt.plot(model.history.history['val_acc'])
    plt.ylabel('accuracy')
    plt.xlabel('epoch')
    plt.legend(['train_accuracy', 'test_accuracy'], loc='best')
    plt.show()
model.fit(
    x_train,
    y_train,
    batch_size      = 2,
    epochs          = 100,
    verbose         = False,
    validation_data = (x_test, y_test),
)
model_evaluation(model, x_test, y_test, verbose=False)

现在，让我们为每个特征添加一些不确定性：

for column in ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']:
    uncertainties_up   = 0.1 * df[column].mean() * np.random.random_sample(size=(len(df)))
    uncertainties_down = df[column].mean() * np.random.random_sample(size=(len(df)))
    df[column + " uncertainty up"] = df[column] + uncertainties_up
df.head()

现在接下来实际上会发生什么，以便在给定这些不同的输入数据不确定性的情况下对分类器进行限定？

score 0 · Accepted Answer

这是一个有趣的问题。如果我理解你是正确的，你的目标是在分类设置中处理任意（数据固有）不确定性。

如上所述，一种选择可能是应用 Monte-Droput dropout（在训练时使用 dropout，并在推理时打开以估计方差）。然而，已经表明这只是部分地模拟了偶然的不确定性（https://arxiv.org/abs/1703.04977），并且质量可能会随着您模型的表现力而变化。如果您在这条路上走得更远，您还可以查看这项工作 ( https://arxiv.org/abs/1908.00598 )，其中作者通过神经网络引入错误传播以消除推理时的采样。也许错误传播可能对您的特定情况感兴趣。

然而更重要的是，一些作品使用得到的 softmax 的熵作为不确定性估计。这已被证明因认知（模型）不确定性而失败。然而，如果手头没有相应的工作，我认为它对于你试图建模的任意不确定性会表现得不错。

你需要做什么？在你的嘈杂数据集上训练你的模型，然后你的 softmax 的熵应该与任意不确定性相关。您可以通过将其与分类错误进行对比来尝试。

最好的

machine-learning - 在分类神经网络中应该如何处理训练数据中的系统不确定性（上下）？

1 回答 1

Related

Reference