5

我已经安装了 nutch 和 solr 来抓取网站并在其中搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:

<div id=something>
      me specific tag
</div>

实际上,我想在此页面中向 solr(某物)添加一个值为“我特定标签”的字段。

任何想法?

4

4 回答 4

3

我为您想要的类似东西制作了自己的插件。将 NutchDocument 映射到 SolrDocument 的配置文件位于 $NUTCH_HOME/conf/ solrindex-mapping.xml 中。在这里您可以添加自己的标签。但是您仍然必须在某处填写自己的标签。

以下是插件的一些提示:

  • 阅读http://wiki.apache.org/nutch/WritingPluginExample,在这里您可以找到如何非常简单地制作您的插件
  • 在您的插件中扩展ParseFilterIndexingFilter。
  • YourParseFilter中,您可以使用NodeWalker找到您的特定 div
  • 您的解析信息像这样放入页面元数据中

    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

  • YourIndexingFilter中,将页面 (page.getMetadata) 中的元数据添加到 NutchDocument

    doc.add("your_specific_tag", value);

  • 最重要的!!!!!

  • your_specific_tag放入以下文件:

    • Solr配置文件schema.xml(并重新启动 Solr)

    字段名称=“您的特定标签”类型=“字符串”存储=“真”索引=“真”

    • Nutch配置文件schema.xml(不知道是否真的有必要)
    • Nutch配置文件solrindex-mapping.xml

    字段 dest="your_specific_tag" 源="your_specific_tag"

于 2013-04-14T09:30:02.087 回答
2

你必须尝试http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html 教程说img标签如何获取以及所有步骤都提到.. .

于 2013-10-15T07:01:49.197 回答
1

您可以使用这些自定义插件之一来解析基于 xpath(或 css 选择器)的 xml 文件:

于 2014-01-30T09:49:07.763 回答
0

您可能需要检查Nutch 插件,它应该允许您从网页中提取元素。

于 2012-09-09T14:26:49.300 回答