我为我的博客创建了一个非常基本的搜索选项,根据主题和关键词它正在生成结果,但我正在寻找的是在某些文章中我必须添加链接,所以如果我的搜索可以通过那些基本上是外部的链接网站,例如,如果我指的是其他人的博客以获取更多信息,然后搜索从中查找。这可能吗?我不想去GCSE。提前致谢。这将有很大帮助。
再次感谢。
我为我的博客创建了一个非常基本的搜索选项,根据主题和关键词它正在生成结果,但我正在寻找的是在某些文章中我必须添加链接,所以如果我的搜索可以通过那些基本上是外部的链接网站,例如,如果我指的是其他人的博客以获取更多信息,然后搜索从中查找。这可能吗?我不想去GCSE。提前致谢。这将有很大帮助。
再次感谢。
是的,可以编写一个机器人从链接中抓取外部网站。我做了一个。它抓取了 10 万多个网站 URL。所以是的,可以制作一个,它可以从您的博客中抓取链接。
要创建一个搜索引擎,您需要了解一些关于它们如何工作的内部知识......
搜索机器人的工作方式如下:
Parser将 HTML 拆分为多个片段,以便可以从页面中提取数据。这有 2 个子组件,其中...
一个。从页面中提取您要捕获的任何数据,然后将该数据保存到数据库中。
湾。提取链接并将它们放回爬行队列。这会创建一个无限循环,因此您的机器人永远不会停止爬行......(除非其他人的格式错误的 URL 导致它崩溃,这种情况经常发生。所以准备好经常修复它。)
Indexer创建查找索引,将关键字映射到网页内容。这有 2 个子组件,因为它...
一个。创建一个Forward Index,它将每个文档映射到该文档内部的关键字。
doc1 | bird, aviary, robin, dove, blue jay, cardinal
doc2 | birds, bird watching, binoculars
doc3 | cats, eat, birds
doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
doc5 | dog, shows, look, fun
湾。从正向索引创建一个反向索引,它反转索引。这允许用户按关键字搜索,然后搜索脚本查找并建议用户可能想要查看的文档。像这样...
bird | doc1, doc2
cat | doc3, doc4
dog | doc4, doc5
搜索表单的工作方式如下:
例子:
正在寻找:
"bird" returns links to "doc1, doc2"
"cat" returns links to "doc3, doc4"
"dog" returns links to "doc4, doc5"
祝你为你的博客建立搜索引擎好运!