问题标签 [google-refine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 jython/python ElementTree 在 Google Refine 中解析 xml
我尝试使用 Jython 和 ElementTree 在 Google Refine 中解析一些 xml,但我正在努力寻找任何文档来帮助我完成这项工作(可能不是因为不是 python 编码器而没有帮助)
这是我要解析的 XML 的摘录。我正在尝试返回所有以下内容的连接字符串dc:indentifier
:
这是我到目前为止的代码。这是一个返回任何东西的测试,因为现在我得到的只是'错误:null'
java - 使用 ruby python perl java 或其他方式优化 Google 的脚本驱动自动化
背景:
在过去一年左右的时间里,同事亚当一直在使用 Google 精炼来处理数据库下载并取得了很大的成功,但亚当得到了一份新的工作机会,因此他在 Google 精炼中所做的所有工作和专业知识都将消失。
Ben 想让 Adam 将她用 Google 精炼完成的所有工作打包,这样办公室的用户仍然可以从他的工作中受益,而不必知道如何使用 Google 精炼。(即,将其作为批处理过程的一部分运行,您将输入文件指定为参数,并因此获得“精炼”输出)。
问题:
有没有人有使用 Google 精炼的免提批处理的经验,用户只需要指定:1)输入文件;2)转换设置文件(或谷歌细化的转换规则)?
问题:
如果这不可用,那么有什么相同或相似的工具可以完成与 Google 优化所可能完成的事情相近的事情。
python - 我可以从谷歌细化中调用外部 *python* 函数吗?
我正在研究谷歌优化以加快我的一些数据工作——本周之前从未使用过它,但我喜欢我看到的很多东西。
到目前为止,我最大的问题是是否可以从 Refine 调用外部 python 函数。我知道您可以在内部调用 jython,但这不提供对基于 C 的 python 库(例如 lxml)的访问,而且我在其他地方有我想集成的脚本,没有很多复制粘贴或重写的麻烦。
在 Refine 中有哪些选项可以执行此操作?我愿意发挥创造力——我只想要一个稳定、可重复使用的解决方案。
json - Google Refine 并从 freebase 获取数据以获取大型数据集以从 URL 创建列不起作用
我有一个包含 36k 行数据的谷歌优化项目。我想添加另一列,从 freebase url 获取 json 数据。我能够让它在一个小数据集上工作,但是当我在这个项目上运行它时,需要几个小时来处理,然后大部分结果都是空白的。不过,我确实得到了一些数据结果。有没有办法限制将获取数据的行数,或者有更好的方法从 url 获取数据。
谢谢你!
crud - 通过行号和列号获取值
在自定义文本方面,我想检查前一行单元格的值。
我试过rows[row.index - 1]
没有结果。
json - 在 Google Refine 中解析 JSON
我正在尝试使用 Google Refine 从数据科学工具包坐标 2 政治 API 的结果中提取特定元素。
这是示例单元#1:
我使用此 GREL 语法在此列的基础上添加了一个列,以提取 Dane 县:
但是当我到达 Sample Cell #2 时,语法不再有效,因为 JSON 结果有点不同:
是否有某种方法可以对 JSON 进行排序或对我的语法进行短语化,以便在任何一种情况下都能找到县?
更新
这是神奇的 GREL,它允许我按名称查找 JSON 字符串中的元素,而不仅仅是位置:
google-refine - 有没有办法对已经“刻面”的表进行子刻面?
我有一张表,我在其上应用自定义方面以查找重复项(在一列上)。现在我想在带有刻面的表格上应用一个新的刻面(在另一列上)。
那可能吗?似乎每次只能使用一个方面,而不能将它们组合在一起。
干杯,
酶联免疫吸附试验
google-refine - Cell.cross() 在 Google Refine 项目中返回错误
我正在尝试根据我的主要项目的 Date 列创建一个新列,该列从另一个 Google Refine 项目中提取时间线事件:
cell.cross("Clean5 Timeline", "TimelineDate").cells["TimelineEvent"].value[0]
两个 Google Refine 项目中的日期格式相同。但它不填充任何单元格,我收到此错误:
错误:无法从 null 检索字段
这 — cell.cross("Clean5 Timeline", "TimelineDate") — 为应该匹配的行返回 [ ]。
这 — cell.cross("Clean5 Timeline", "TimelineDate").cells["TimelineEvent"] — 为这些行返回 null。
我直接从 GREL 帮助文件中复制了语法:http ://code.google.com/p/google-refine/wiki/GRELOtherFunctions 。谁能建议我可能会忽略什么?
谢谢。
entity - 用于协调两个数据库中凌乱实体的 Google Refine 配方
我有两个混乱名称的数据库,例如:
- 金达尔,鲍比
- 佛罗里达州州长鲍比·金达尔
- 鲍比·金达尔
- 3M公司
- 3M 智能手机
我需要找到匹配项。谁能指出我或建议如何在 Google Refine 中执行此操作的好方法?
这个链接给了我一个起点,但我可以使用进一步的建议: http ://blog.ouseful.info/2011/05/06/merging-datesets-with-common-columns-in-google-refine/
regex - Google Refine:正则表达式不起作用
我需要在谷歌细化中匹配文本外观的正则表达式。我试过这个表达式,它没有用。然后我尝试了一个在 www.lenovo.com 中使用匹配字符串 lenovo 的简单案例
在某些行中,我的值取值www.lenovo.com
,
为什么这么简单的字符串匹配,在谷歌细化中不起作用。我在 Windows 上运行。
如果我有任何明显的语法错误,请告诉我。