问题标签 [google-refine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
273 浏览

freebase - 在谷歌细化中获取网址时如何处理大型数据集?

所以,我有一个 excel 表,其中包含来自 freebase 的大约 190000 个电影名称,我想通过按标题获取 url 从维基百科获取信息,这需要很长时间,我让我的电脑运行了 8 个小时,它刚刚得到到 2%。有时我的互联网被切断了,我不得不从头开始。无论如何,我是否可以一次执行 100 条记录并一直持续到文件末尾,这样如果我的互联网中断,我可以恢复该过程。

非常感谢。

0 投票
1 回答
380 浏览

google-refine - Google Refine Reconciliation:如何用结果文本自动替换

假设我有这样的单元格:“Nat. Taiwan Normal Univ., Taipei”

一旦我进行和解,我得到这个:Nat。Taiwan Normal Univ., Taipei VV 创建新主题 搜索匹配

然后我点击“搜索匹配”,得到一个下拉结果:“国立台湾师范大学”

2个问题: - 如何将结果文本(“国立台湾师范大学”)输出到单独或同一列中?- 是否可以将结果大学所在的国家/地区输出到单独的列?

谢谢!

0 投票
1 回答
132 浏览

semantics - 在 Google Refine 中提取 Freebase 数据

我对 Google Refine 和 Frebase 还很陌生。我想使用互联网/网站列表,但转储不包含网站 URL,但是可以在相关的“官方网站”对象中访问。

在 Refine 中,如何根据网站 ID (/m/02nqp6l) 获取这些数据?

数据集(互联网/网站)

http://download.freebase.com/datadumps/latest/browse/internet/website.tsv

0 投票
1 回答
76 浏览

facet - 如何在 Google Refine 中将方面的值更改为相同?

我正在尝试清理这些数据:https ://dl.dropbox.com/u/820037/local_council_election_data_w_occupation.gz

这是芬兰地方议会选举的所有候选人。在“Ammatti”栏中,有候选人报告的职业。

我想找到所有的学生,但问题是,他们可以是“opiskelija”(学生)或“yliopisto-opiskelija”(大学生)之类的。

我单击列标题“Ammatti”并使用“opiskelija”对其进行过滤,然后从列标题的菜单中创建了一个“文本构面”。

这给了我以下方面:

  • 农业。奥皮斯凯利亚 AMK 1
  • 农学 9
  • 农艺学 1

...等等。

在这些场合的每个人中,我都想将“Ammatti”(职业)的值更改为“opiskelija”(学生)。

为了让事情更复杂一点,这个方面还有一些职业(成熟的学生和行政人员)我不想改成“opiskelija”:

  • aikuisopiskelija 10
  • opiskelijakunnan hallituksen varapuheenjohtaja 1
  • opiskelijapalvelun päällikkö 1
  • opiskelijapalvelupäällikkö 1

我通过手动单击方面的整个列表并一一更改职业来做到这一点。

我想有更好的方法可以做到这一点,但有人可以告诉我我应该怎么做吗?

0 投票
2 回答
1002 浏览

regex - 如何将 if 函数与 GREL 集成到 forEach 函数中?

我现在正在与 Google Refine 合作。我的目标是将一个现有的列拆分为两部分。我正在使用内置的“基于...添加列”功能。该列包含街道名称和对应的门牌号。例如,我有这个:

每一行的结构都相同,这意味着街道名称可以长也可以短,可以包含一个或多个单词,但它总是以(门牌)号码结尾,并且总是用空格分隔。

当我使用 Google Refine 时,我正准备使用 GREL 语句(Google Refine Expression Language)来做到这一点。这个想法是这样的:将除以空格的每个值分成几块。将每个拆分值保存在一个变量中。然后检查特定值是否包含数值(即门牌号)。如果它是一个数值,则取该值并将其转发到输出。我已经得到了这样的东西。

这是一个问题:我如何在 forEach 函数中集成一个 IF 函数?如果我知道该怎么做,我可能不仅可以拆分值,还可以检查它是否为数字。要检查它是否为数字,可以使用 isNumeric(value)。

我感谢每一个提示。谢谢,约尔格。

0 投票
1 回答
938 浏览

data-cleaning - 如何使用 Google Refine 将字符串值替换为指纹?

我有一列包含 100,000 多个字符串。我希望 Google Refine 用他们的指纹替换这些字符串。

我在 Google Refine 中选择了该列,并创建了一个 Text Facet。从该文本方面,我可以选择“集群”。这将向我显示集群,我假设这意味着具有相同指纹的字符串值,并允许我选择一个新单元格值,它默认为集群的第一个成员的名称。

我希望这个名字只是指纹。原因是,我需要对多个文件执行此操作,如果它们确实属于同一个集群,我需要它们具有相同的值。我无法连接文件,因为这会导致 Refine 处理的数据过多,尽管根据 Refine FAQ 优化了内存参数。

所以我只是在寻找一个操作,它获取列中的每个单元格,计算其指纹,并用其指纹替换列中的值。

我在 OSX 10.7 上使用 Google Refine 2.5

0 投票
3 回答
407 浏览

java - 在 Google Refine 中解析部分字符串 - 错误消息

我正在使用 Google Refine 清理数据集。我有一列日期为 mm/dd/yyyy 格式。我想创建一个新列,其中 mm/dd/yyyy 仅替换为 yyyy。

我努力了

出现的是

错误:替换需要 3 个字符串,或 1 个字符串、1 个正则表达式和 1 个字符串

为什么会出现这个错误?感谢您帮助初学者!

0 投票
1 回答
728 浏览

csv - 在 Google Refine 中按记录填写

我在 Google 优化中有以下逗号分隔的 CSV 文件:

在此处输入图像描述

如何使用 Jython 或 GREL 填写 column1 中的值以变为:

在此处输入图像描述

我努力了:

有什么建议么?谢谢你

0 投票
1 回答
366 浏览

google-refine - 谷歌细化:使用方面工具来推断两列之间的映射

我一直在搜索,但还没有找到如何在细化中做到这一点。

我有两列唯一IDS。对于 A 中的每个 a,我想在 B 中找到前 10 个最接近的匹配项。

我的后备计划是只使用 Levenshtein 进行迭代……但是 Refine 有一个非常好的迭代界面,并且实现了更多算法,我希望能够使用它来完成一些工作。

还是有其他工具可以做到这一点?

0 投票
1 回答
1034 浏览

xml - 使用 Google Refine 解析 XML

我正在使用 Google-refine 从 Google 地图下载信息。更具体地说,我想要与给定地址关联的纬度/经度。我已经成功下载了 XML 信息,但是解析它的时间很糟糕。典型的条目如下所示:

http://maps.googleapis.com/maps/api/geocode/xml?address=543+Boler+Rd,+London,+Ontario&sensor=false

我的问题是:如何使用 GREL 语言从该输出中提取纬度(或经度值)。

提前致谢,

卡洛斯