我在 Excel 中有一个域名列(如 stackoverflow.com),并希望创建一个带有域标题的相应列(如“堆栈溢出”)。
我将 Excel 文件上传到 OpenRefine。我相信最好的方法是调用“通过获取列上的 URL 添加列”函数。但我不知道该用什么表达方式。
我在 Excel 中有一个域名列(如 stackoverflow.com),并希望创建一个带有域标题的相应列(如“堆栈溢出”)。
我将 Excel 文件上传到 OpenRefine。我相信最好的方法是调用“通过获取列上的 URL 添加列”函数。但我不知道该用什么表达方式。
我这样做的方式如下:
(1) 来源栏中有可访问的网址。即,http://stackoverflow.com而不仅仅是域名。
(2) 如您所说,应用“通过获取 URL 添加列...”。(如果您一遍又一遍地访问同一域上的页面,请确保设置合理的延迟。)
(3) 使用第一个新列,通过解析返回的 HTML,基于 newCol1 创建第二个新列:
value.parseHtml().select("title")[0].toString()
注意:(a)您需要 toString() 否则在应用该函数后,您将在新列中看到空白值。
(b) 您不必创建第二个新列;您可以使用与上述相同的公式应用转换。
(c) 我也尝试过使用拆分:
value.split("")[1].split("")[0]
我现在手头没有我的结果,但我相信这也有效。