问题标签 [google-refine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2105 浏览

json - 使用 Google Refine 从 Google Maps API JSON 中提取邮政编码

我正在尝试使用 Google Refine 从 Google Maps API JSON 中提取邮政编码。

我通过获取 URL 添加了一个新列:

"http://maps.googleapis.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url")

那么生成的JSON如下:

在浏览了一些博客以找到相关代码后,我尝试使用此转换列...

...这对完整地址很有用。

当我尝试提取邮政编码时出现问题。我试着摆弄,但一无所获,然后我下载了 JSONPad 并将 JSON 粘贴到树形图中以获取路径:

问题在于,这对于某些条目来说是完美地提取了邮政编码,而对于其他条目来说却不是那么完美,它提取了其他东西——例如城镇或国家。

将 [5] 更改为 [6] 似乎可以提取其他地址的邮政编码,但是有没有办法只提取邮政编码,而不管它在结构中的哪个位置?

非常感谢任何帮助!

0 投票
1 回答
295 浏览

regex - 如何在 Google Refine 中为数字添加格式逗号

由于我们使用数据的目的,为了格式化和可读性,长数字(8 位以上)每 3 位有逗号很重要。

问题是我真的不知道如何做出这样的表达。有更多经验编写这些表达式的人会指出我正确的方向吗?

支持的表达式语言是 GREL(Google Refine Expression Language)、Clojure 和 Jython。

0 投票
1 回答
109 浏览

google-refine - 合并几乎相同的数据行

我有大量数据(英国和美国邮政地址)100,000+,其中包含重复或几乎相同的数据行(5 列)在几乎相同的行中,五列中有四列具有完全匹配的数据,例如:- AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 AAAA BBBB CCCCCC CCCCCCCC 11.111 22.222 DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444 DDDD EEEE FF FFFFF FFFFF 33.33 44.444 GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666 GGGG HHHH IIII IIIII 55.555 66.666 我正在尝试使用 Google Refine 删除这些重复(或接近重复的行)我只是无法管理它我想要结束的是: - AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444 GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666 例如丢弃具有“更短”数据长度的列

0 投票
3 回答
203 浏览

merge - 为第一列中的每个唯一值合并第二列中的所有数据

我有两列数据。第一列中的一些数据重复(它们代表问题)。第二列中的数据是唯一的(它们代表同一问题的多个答案)。

我需要为第一列中的每个唯一值合并第二列中的所有数据。例如:

合并到:

0 投票
1 回答
183 浏览

google-refine - 如何合并在谷歌优化中都有空格的列

我正在使用谷歌细化中的数据库,我有 2 列包含“年份”信息。两列都有值和空格,其中一列有值,另一列有空格,所以我想合并两者。

我找到了这个教程: http: //kb.refinepro.com/2011/07/merge-2-columns-that-have-both-blank.html

其中使用了公式: cells["col1"].value + " " + cells["col2"].value,但我没有得到我想要的,我只是得到错误和一个空白的新列。

0 投票
1 回答
361 浏览

clojure - 如何使用 Google Refine 从 URL 获取 HTTP 状态代码?

我有一个包含一长串 URL 的文件。我想使用 Google Refine 来获取打开每个 URL 时出现的 HTTP 状态代码。URL 存储在 1 列中,每 1 个单元格 1 个 URL。HTTP 状态代码应存储在新列中。Google Refine 中有 3 种语言可用:Clojure、Jython 和 GREL。我在编程方面很新。

0 投票
1 回答
140 浏览

java - 使用 Java 程序连接到 GoogleRefine

这个问题类似于发布“使用 ruby​​ python perl java 或其他方式进行 Google 优化的脚本驱动自动化”:使用 ruby​​ python perl java 或其他方式进行 Google 优化的脚本驱动自动化

我在 GoogleRefine 中创建了一个冗长的 JSON 脚本,我正在使用它来清理几个单独的文本文件。目前,我需要将每个文件手动加载到 GoogleRefine 并运行 JSON 脚本。

是否有 Java 代码/库可用于连接到 GoogleRefine 并传递我的 JSON 脚本和文本文件位置,以便快速清理我的所有文件?我不知道 Python,因为上面的帖子是 2011 年发布的,我想知道从那时起是否编写了 Java 库/程序。

0 投票
1 回答
117 浏览

openrefine - 丢失了我在 Openrefine 上的所有文件

我尝试了 Openrefine 的测试版,现在我在 2.5 版上丢失了所有以前的文件。你知道文件在哪里吗?我在 Mac 上。

谢谢!

0 投票
2 回答
3134 浏览

regex - Google Refine 中 value.contains() 的正则表达式

我有一列字符串,我想使用正则表达式在每个单元格中查找逗号管道,然后执行操作。我试过这个,但它不起作用(没有语法错误,只是既不匹配逗号也不匹配管道)。

有趣的是,相同的正则表达式适用于 SublimeText 中的相同数据。(是的,我可以在那里工作然后重新导入,但我想了解有什么区别或我的错误是什么)。

我正在使用 Google Refine 2.5。

0 投票
0 回答
174 浏览

openrefine - 打开优化:打开项目问题

我是 Open Refine 用户。我将此工具与 RDF 扩展一起使用。我创建了许多 RDF 项目。每次打开此工具时,我都会在 Open Refine 的“打开项目”选项下找到我现有的项目。两天前,我用最新版本更新了计算机的 Java。现在,当我单击“打开项目”选项时,它显示为空。它说没有现有的项目。“RDF 扩展”也不可用。如何找到我以前的 RDF 项目?请告诉我。我有一些重要的项目,我真的需要这些。任何帮助将不胜感激。