0

我在 Excel 中有一个域名列(如 stackoverflow.com),并希望创建一个带有域标题的相应列(如“堆栈溢出”)。

我将 Excel 文件上传到 OpenRefine。我相信最好的方法是调用“通过获取列上的 URL 添加列”函数。但我不知道该用什么表达方式。

4

1 回答 1

0

我这样做的方式如下:

(1) 来源栏中有可访问的网址。即,http://stackoverflow.com而不仅仅是域名。

(2) 如您所说,应用“通过获取 URL 添加列...”。(如果您一遍又一遍地访问同一域上的页面,请确保设置合理的延迟。)

(3) 使用第一个新列,通过解析返回的 HTML,基于 newCol1 创建第二个新列:

value.parseHtml().select("title")[0].toString()

注意:(a)您需要 toString() 否则在应用该函数后,您将在新列中看到空白值。

(b) 您不必创建第二个新列;您可以使用与上述相同的公式应用转换。

(c) 我也尝试过使用拆分:

value.split("")[1].split("")[0]

我现在手头没有我的结果,但我相信这也有效。

于 2014-06-23T03:48:00.567 回答