我想通了,以防其他人在苦苦挣扎,这就是我的做法。答案在文档中,只是没那么简单。
阅读:http ://www.opensearchserver.com/documentation/faq/crawling/how_to_extract_specific_information_from_web_pages.md - 它包含方法
假设您设置了一个“网络爬虫”索引。
假设您使用的是这样的元缩略图:
<meta name="thumbnail" content="http://my_cdn.com/news/images/29637.jpg">
进入架构/字段。添加一个名为“缩略图”的新字段,索引号,存储是,矢量号,分析器文本,空白副本。保存那个。
现在转到架构/解析器列表,编辑 HTML 解析器。转到“字段映射”,现在为 html 中的缩略图添加一个新的正则表达式。我们使用匹配的正则表达式从“htmlSource”映射到缩略图。
我不完美的正则表达式(虽然有效)是:
htmlSource -> 链接于:缩略图 -> 捕获者:
(?s)<meta name="thumbnail" content="(.*?)">
现在保存并转到抓取/手动抓取,输入一个带有缩略图的 url,然后检查该字段现在是否出现在下面的列表中。如果不检查您的正则表达式,并检查您是否实际保存了 HTML 解析器更改。
要在结果中获得大拇指,只需将字段名添加到您随查询发送的 JSON 中:
"returnedFields": [ "
"url",
"thumbnail"
],