parsing - 特定语言网站的 Apache Nutch 标题解析问题

Question

我已经用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器，即 html、tika。有些文件的标题是乌尔都语，没问题，但有些文件的标题是乌尔都语，标题为 1，即 h1 具有原始标题，例如bbc-page。同样，在某些情况下，元标记具有相关标题。是否有任何内置选项（解析器）可以处理此选项，以便它应该选择 h1 作为标题（如果可用）。

或者如果我必须这样做，有什么可能的方法来达到这个目的。

score 2 · Accepted Answer

Nutch 将使用title在 DOM 树中找到的标签（https://github.com/apache/nutch/blob/bb2a7adddbc5c780151bb9957d68af52be7339ca/src/plugin/parse-tika/src/java/org/apache/nutch/parse/tika /DOMContentUtils.java#L251）为此，您需要在解析器插件中编写自定义逻辑。但真正的问题是如何识别“坏”title标签？将是一些特定的内容（如 URL）。

在任何情况下，您都需要在解析器或索引插件中编写自己的插件（例如在某些条件下获取一个字段并将其复制到标题字段）。

parsing - 特定语言网站的 Apache Nutch 标题解析问题

1 回答 1

Related

Reference