0

我有一个系统,可以让用户搜索他想要的任何内容,并将来自不同位置的内容抓取到一个页面中。

我通过关键字/标签或几个关键字限制搜索结果,因此用户不会得到他从未要求过的垃圾。而且我始终坚持主要市场/标签主题(关键字),以免搜索出错。

一开始一切都很好,但是当我深入开发这个系统时,我开始明白我无法预测或过滤将要检索的内容。

该系统是自动的,fe,当您搜索“克里斯蒂亚诺·罗纳尔多”时,我想获取他的照片、视频、推特、新闻和其他内容。当我从所有这些中构建一个页面时,为了增强我的搜索引擎优化,我在内容中使用最多重复的词来提供更多内容,例如“查看更多”等链接或基于 1 个用户搜索生成更多页面。

当自动内容爬虫开始带来废话内容时,我遇到了一个问题。我搜索“virgin atlantic”,它给我带来了我想要的航空公司信息,使用部分内容和来自该信息的关键字,我进一步查找,它给我带来了弗吉尼亚,这是相关的,但不是我想要的想。然后它带来东/西,然后是美国,然后它朝着错误的方向越来越深。

那是一个简短的。我真正的问题......是否有任何算法,理论或其他内容可供阅读,是否可以识别内容/关键字与我手动设置的主题的主题/方向/意义/相关性。

所以如果我说 -> 只去寻找与体育相关的内容,它不会给我带来关于罗纳尔多新女友的消息,而是他的统计数据、职业数据等等。

我不在乎让一个人手动过滤内容并告诉 AI:接受/拒绝,这样它就会根据请求的主题/模式学习带什么和不带什么。

神经网络,还有其他识别内容的 AI 算法吗?

4

1 回答 1

2

简短的回答:看看隐藏马尔可夫模型和贝叶斯网络和语义网络研究。人们可以用关于这个主题的研究填满整个图书馆。

长答案

人工智能的问题通常是这些类型的问题非常非常困难。是的,有很多理论。但实施这些理论是另一回事。我见过一些公司制造某种引擎,他们对此感到非常自豪。但随后他们通常以工具为中心,而忘记了他们真正想要解决的问题。这就是我称之为 AI-blackbox-problem 的问题。你有一个算法,比如隐马尔可夫模型、神经网络、贝叶斯网络、卡尔曼滤波器、支持向量机等。然后你向它们扔一堆数据,它们就会输出一堆参数化模型。但通常不可能追踪内部状态。

因此,如果您想解决语义网络问题,您就选择了最难的问题之一。如何告诉计算机你在找什么?那么谷歌使用链接结构来检索信息。然后是语义网络的支持者,他们说内容提供者应该添加一堆元数据。我认为这种方法在很大程度上失败了。总是有新的初创公司试图在这个领域做新的事情。Palantir 可能是那些通过的数据挖掘公司之一。

所以我建议从使用玩具问题学习基础知识开始,拿起一本教科书,比如 Russell/Norvig,去上课,你现在可以在网上上课,http://www.udacity.com/overview/Course/cs373 /CourseRev/apr2012,然后从那里开始。解决难题并没有错,但很容易感到沮丧。知道您的问题可以在有限的时间和资源内解决。(说我自己在一个几乎不可能的问题上工作了 5 年)。

于 2012-10-26T13:04:53.037 回答