python-3.x - 从 Keras 的路透社数据集中重建新闻文本

Question

我似乎无法理解 Keras 的路透社数据集提供的数据集。

该集合是这样加载的：

(x_train, y_train), (x_test, y_test) = reuters.load_data()

据我了解，“x”数组是新闻故事中单词索引的序列（列表）数组，“y”数组是这些序列主题的数组。

但是，当我尝试使用提供的字典将其中一个序列的单词索引翻译成实际单词时：

wordDict = {y:x for x,y in reuters.get_word_index().items()}  
for index in x_train[0]:
    print (wordDict.get(index))

顺序似乎没有意义。如何将序列转换回原始新闻？

编辑：在这里找到了一个类似的线程。似乎字典中的索引与数据集中的单词索引不匹配存在问题。但是重新下载数据并不能解决我的问题。

score 2 · Accepted Answer

load_data 参数“index_from”的默认值允许实际单词的索引大于 3。可以使用重构文本wordDict.get(index - 3)。

1 回答 1