我正在尝试使用机器学习对给定主题的句子进行分类。但是,我似乎无法为这个特定问题找到合适的算法/解决方案。
一些细节:
我已经对句子进行了标记、词形还原和向量化。所以,给一个句子:
How will the weather be today?
它被标记化:
['How', 'will', 'the', 'weather', 'be', 'today?']
然后它被词形化:
['How', 'weather', 'today']
然后基于我建立的一个小字典(约 100 个单词),句子被转换为 0 或 1 的序列,指示单词是否出现在字典中:
[0, 0, 0, 1, .... 0, 1]
我已经为自己构建了一个小型数据集(约 50 个句子分为 3 个主题),现在我需要一个算法来在数据集上进行训练,并在给定一个新句子的情况下预测这 3 个类中的一个。
鉴于数据集的大小减小,深度学习效率不高。我试过线性回归,但输出随机的非常大的数字。关于我应该尝试什么或是否犯了任何错误的任何想法?