我有一个系统,可以让用户搜索他想要的任何内容,并将来自不同位置的内容抓取到一个页面中。
我通过关键字/标签或几个关键字限制搜索结果,因此用户不会得到他从未要求过的垃圾。而且我始终坚持主要市场/标签主题(关键字),以免搜索出错。
一开始一切都很好,但是当我深入开发这个系统时,我开始明白我无法预测或过滤将要检索的内容。
该系统是自动的,fe,当您搜索“克里斯蒂亚诺·罗纳尔多”时,我想获取他的照片、视频、推特、新闻和其他内容。当我从所有这些中构建一个页面时,为了增强我的搜索引擎优化,我在内容中使用最多重复的词来提供更多内容,例如“查看更多”等链接或基于 1 个用户搜索生成更多页面。
当自动内容爬虫开始带来废话内容时,我遇到了一个问题。我搜索“virgin atlantic”,它给我带来了我想要的航空公司信息,使用部分内容和来自该信息的关键字,我进一步查找,它给我带来了弗吉尼亚,这是相关的,但不是我想要的想。然后它带来东/西,然后是美国,然后它朝着错误的方向越来越深。
那是一个简短的。我真正的问题......是否有任何算法,理论或其他内容可供阅读,是否可以识别内容/关键字与我手动设置的主题的主题/方向/意义/相关性。
所以如果我说 -> 只去寻找与体育相关的内容,它不会给我带来关于罗纳尔多新女友的消息,而是他的统计数据、职业数据等等。
我不在乎让一个人手动过滤内容并告诉 AI:接受/拒绝,这样它就会根据请求的主题/模式学习带什么和不带什么。
神经网络,还有其他识别内容的 AI 算法吗?