0

我需要一个替代谷歌自定义搜索的网站来管理我的网站,它必须能够抓取网站、索引它、允许摆弄优先级,然后允许通过 REST 或类似的东西进行搜索查询并返回 XML 或 JSON 等. 它需要在 Windows Server 实例上运行。

所以,我已经启动并运行http://www.opensearchserver.com/并且它似乎可以解决问题,但是对于我的生活来说,无法弄清楚如何在结果中获取缩略图?我已经搜索了文档并阅读了我能阅读的所有内容,但无法找到如何做到这一点(或者如何理解它)。

我正在抓取标准网页,它们都有缩略图元数据,我假设应该能够以某种方式解析结果并包含在 JSON 结果中?

任何指针都会非常有帮助,谢谢!

4

1 回答 1

1

我想通了,以防其他人在苦苦挣扎,这就是我的做法。答案在文档中,只是没那么简单。

阅读:http ://www.opensearchserver.com/documentation/faq/crawling/how_to_extract_specific_information_from_web_pages.md - 它包含方法

假设您设置了一个“网络爬虫”索引。

假设您使用的是这样的元缩略图:

<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg">

进入架构/字段。添加一个名为“缩略图”的新字段,索引号,存储是,矢量号,分析器文本,空白副本。保存那个。

现在转到架构/解析器列表,编辑 HTML 解析器。转到“字段映射”,现在为 html 中的缩略图添加一个新的正则表达式。我们使用匹配的正则表达式从“htmlSource”映射到缩略图。

我不完美的正则表达式(虽然有效)是:

htmlSource -> 链接于:缩略图 -> 捕获者:

(?s)<meta name="thumbnail" content="(.*?)">

现在保存并转到抓取/手动抓取,输入一个带有缩略图的 url,然后检查该字段现在是否出现在下面的列表中。如果不检查您的正则表达式,并检查您是否实际保存了 HTML 解析器更改。

要在结果中获得大拇指,只需将字段名添加到您随查询发送的 JSON 中:

"returnedFields": [ "
    "url",
    "thumbnail"
],
于 2016-05-10T14:31:04.860 回答