我需要一些灵感。对于一个爱好项目,我正在玩内容分析。我基本上是在尝试分析输入以将其与主题图相匹配。
例如:
- “伊拉克之路” > 历史,中东
- “Halloumni” > 中东美食
- “宝马” > 德国,汽车
- “奥巴马” > 美国
- “黑斑羚” > 美国,汽车
- “柏林墙” > 历史,德国
- “Bratwurst” > 食品,德国
- “芝士汉堡” > 食品,美国
- ...
我一直在阅读很多关于分类学的内容,最后,无论我读到什么,都得出结论,所有人的标签都不一样,因此系统必然会失败。
我考虑过标记化输入和停用词列表,但它们当然需要大量的工作来提出和构建。建立单词和主题之间的相关链接似乎很累,而且永远不会结束,因为无论你处理什么语言,它都非常丰富,而且大多数语言也严重依赖于上下文。更别说维护了。
我想我需要想出一些聪明的东西,并用我希望它能够猜测的主题来训练它。有点像Eliza 机器人。
无论如何,我不相信有什么东西可以开箱即用,但是有没有人有任何技术线索或示例可用于分析输入以提取含义?