问题标签 [google-refine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2039 浏览

python - 如何使用 jython/python ElementTree 在 Google Refine 中解析 xml

我尝试使用 Jython 和 ElementTree 在 Google Refine 中解析一些 xml,但我正在努力寻找任何文档来帮助我完成这项工作(可能不是因为不是 python 编码器而没有帮助)

这是我要解析的 XML 的摘录。我正在尝试返回所有以下内容的连接字符串dc:indentifier

这是我到目前为止的代码。这是一个返回任何东西的测试,因为现在我得到的只是'错误:null'

0 投票
1 回答
1559 浏览

java - 使用 ruby​​ python perl java 或其他方式优化 Google 的脚本驱动自动化

背景:

在过去一年左右的时间里,同事亚当一直在使用 Google 精炼来处理数据库下载并取得了很大的成功,但亚当得到了一份新的工作机会,因此他在 Google 精炼中所做的所有工作和专业知识都将消失。

Ben 想让 Adam 将她用 Google 精炼完成的所有工作打包,这样办公室的用户仍然可以从他的工作中受益,而不必知道如何使用 Google 精炼。(即,将其作为批处理过程的一部分运行,您将输入文件指定为参数,并因此获得“精炼”输出)。

问题:

有没有人有使用 Google 精炼的免提批处理的经验,用户只需要指定:1)输入文件;2)转换设置文件(或谷歌细化的转换规则)?

问题:

如果这不可用,那么有什么相同或相似的工具可以完成与 Google 优化所可能完成的事情相近的事情。

0 投票
2 回答
503 浏览

python - 我可以从谷歌细化中调用外部 *python* 函数吗?

我正在研究谷歌优化以加快我的一些数据工作——本周之前从未使用过它,但我喜欢我看到的很多东西。

到目前为止,我最大的问题是是否可以从 Refine 调用外部 python 函数。我知道您可以在内部调用 jython,但这不提供对基于 C 的 python 库(例如 lxml)的访问,而且我在其他地方有我想集成的脚本,没有很多复制粘贴或重写的麻烦。

在 Refine 中有哪些选项可以执行此操作?我愿意发挥创造力——我只想要一个稳定、可重复使用的解决方案。

0 投票
1 回答
500 浏览

json - Google Refine 并从 freebase 获取数据以获取大型数据集以从 URL 创建列不起作用

我有一个包含 36k 行数据的谷歌优化项目。我想添加另一列,从 freebase url 获取 json 数据。我能够让它在一个小数据集上工作,但是当我在这个项目上运行它时,需要几个小时来处理,然后大部分结果都是空白的。不过,我确实得到了一些数据结果。有没有办法限制将获取数据的行数,或者有更好的方法从 url 获取数据。

谢谢你!

0 投票
1 回答
767 浏览

crud - 通过行号和列号获取值

在自定义文本方面,我想检查一行单元格的值。

我试过rows[row.index - 1]没有结果。

0 投票
1 回答
4620 浏览

json - 在 Google Refine 中解析 JSON

我正在尝试使用 Google Refine 从数据科学工具包坐标 2 政治 API 的结果中提取特定元素。

这是示例单元#1:

我使用此 GREL 语法在此列的基础上添加了一个列,以提取 Dane 县:

但是当我到达 Sample Cell #2 时,语法不再有效,因为 JSON 结果有点不同:

是否有某种方法可以对 JSON 进行排序或对我的语法进行短语化,以便在任何一种情况下都能找到县?

更新

这是神奇的 GREL,它允许我按名称查找 JSON 字符串中的元素,而不仅仅是位置:

0 投票
1 回答
79 浏览

google-refine - 有没有办法对已经“刻面”的表进行子刻面?

我有一张表,我在其上应用自定义方面以查找重复项(在一列上)。现在我想在带有刻面的表格上应用一个新的刻面(在另一列上)。

那可能吗?似乎每次只能使用一个方面,而不能将它们组合在一起。

干杯,

酶联免疫吸附试验

0 投票
1 回答
1371 浏览

google-refine - Cell.cross() 在 Google Refine 项目中返回错误

我正在尝试根据我的主要项目的 Date 列创建一个新列,该列从另一个 Google Refine 项目中提取时间线事件:

cell.cross("Clean5 Timeline", "TimelineDate").cells["TimelineEvent"].value[0]

两个 Google Refine 项目中的日期格式相同。但它不填充任何单元格,我收到此错误:

错误:无法从 null 检索字段

这 — cell.cross("Clean5 Timeline", "TimelineDate") — 为应该匹配的行返回 [ ]。

这 — cell.cross("Clean5 Timeline", "TimelineDate").cells["TimelineEvent"] — 为这些行返回 null。

我直接从 GREL 帮助文件中复制了语法:http ://code.google.com/p/google-refine/wiki/GRELOtherFunctions 。谁能建议我可能会忽略什么?

谢谢。

0 投票
2 回答
793 浏览

entity - 用于协调两个数据库中凌乱实体的 Google Refine 配方

我有两个混乱名称的数据库,例如:

  • 金达尔,鲍比
  • 佛罗里达州州长鲍比·金达尔
  • 鲍比·金达尔
  • 3M公司
  • 3M 智能手机

我需要找到匹配项。谁能指出我或建议如何在 Google Refine 中执行此操作的好方法?

这个链接给了我一个起点,但我可以使用进一步的建议: http ://blog.ouseful.info/2011/05/06/merging-datesets-with-common-columns-in-google-refine/

0 投票
2 回答
1352 浏览

regex - Google Refine:正则表达式不起作用

我需要在谷歌细化中匹配文本外观的正则表达式。我试过这个表达式,它没有用。然后我尝试了一个在 www.lenovo.com 中使用匹配字符串 lenovo 的简单案例

在某些行中,我的值取值www.lenovo.com

为什么这么简单的字符串匹配,在谷歌细化中不起作用。我在 Windows 上运行。

如果我有任何明显的语法错误,请告诉我。