我已经用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器,即 html、tika。有些文件的标题是乌尔都语,没问题,但有些文件的标题是乌尔都语,标题为 1,即 h1 具有原始标题,例如bbc-page。同样,在某些情况下,元标记具有相关标题。是否有任何内置选项(解析器)可以处理此选项,以便它应该选择 h1 作为标题(如果可用)。
或者如果我必须这样做,有什么可能的方法来达到这个目的。
我已经用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器,即 html、tika。有些文件的标题是乌尔都语,没问题,但有些文件的标题是乌尔都语,标题为 1,即 h1 具有原始标题,例如bbc-page。同样,在某些情况下,元标记具有相关标题。是否有任何内置选项(解析器)可以处理此选项,以便它应该选择 h1 作为标题(如果可用)。
或者如果我必须这样做,有什么可能的方法来达到这个目的。
Nutch 将使用title
在 DOM 树中找到的标签(https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika /DOMContentUtils.java#L251)为此,您需要在解析器插件中编写自定义逻辑。但真正的问题是如何识别“坏”title
标签?将是一些特定的内容(如 URL)。
在任何情况下,您都需要在解析器或索引插件中编写自己的插件(例如在某些条件下获取一个字段并将其复制到标题字段)。