1

我对 OpenRefine 很陌生,所以如果我犯了一个简单的错误,请多多包涵。我正在解析一个 HTML 网站以收集一些日期。

获取单个页面一切正常,但现在 HTML 解析失败。我正在创建一个新列,基于包含所有页面 HTML 的列。我正在尝试获取特定 DIV[20] 中的数据。

在“基于此列创建列”窗口中,它在使用时为我提供了预览value.parseHtml().select("DIV")[20],这正是我需要的结果......执行它只给我空白单元格。它甚至告诉我它正在“用 grel:value.parseHtml().select("DIV")[20] 填充 0 行”

任何线索我在这里做错了什么?

4

1 回答 1

1

您只需要使用 .toString() 完成以将 JSON.org 对象输出为字符串。

这在我们的 wiki 上进行了解释:https ://github.com/OpenRefine/OpenRefine/wiki/StrippingHTML#extract-html-attributes-text-links-with-integrated-grel-commands

我还使用该示例更新了 select() 函数:https ://github.com/OpenRefine/OpenRefine/wiki/GREL-Other-Functions#selectelement-e-string-s

于 2014-10-17T15:34:21.027 回答