1

我正在尝试重新创建 google 的“Hello Prediction”算法来测试我的网络。我从同一个地方得到了我的训练样本。


由于我不希望您遵循上面的链接,因此简而言之“Hello Prediction”:它是 Google Prediction API 的“hello world”示例,基本上是一个训练 ANN 的示例,其中包含由西班牙语文本字符串组成的大型训练集, 英语和法语。在这个练习结束时,网络应该能够检测到这 3 种语言中的每一种。


现在我面临着将数据输入网络。

如何操作可变长度的文本字符串以输入固定大小的网络输入?

我见过两种考虑词序的解决方案:

  1. 使网络输入足够大以适应整个句子。这是最现实但最浪费的方法。我相信谷歌已经想出了一个更好的方法。

  2. 将句子分成固定大小 (n) 字符的子字符串,如下所示:如果 n = 2,“abcde”变为 [“ab”,“bc”,“cd”,de”]。

有没有人成功解决这个问题?#2 比 #1 好吗?有第三种解决方案吗?

谢谢你。

4

1 回答 1

0

为什么不尝试一些特征提取?tf_idf 通常用于 NLP,我认为您可以找到一些其他有用的数字特征。

于 2013-08-05T13:07:36.257 回答