问题标签 [google-refine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
freebase - 在谷歌细化中获取网址时如何处理大型数据集?
所以,我有一个 excel 表,其中包含来自 freebase 的大约 190000 个电影名称,我想通过按标题获取 url 从维基百科获取信息,这需要很长时间,我让我的电脑运行了 8 个小时,它刚刚得到到 2%。有时我的互联网被切断了,我不得不从头开始。无论如何,我是否可以一次执行 100 条记录并一直持续到文件末尾,这样如果我的互联网中断,我可以恢复该过程。
非常感谢。
google-refine - Google Refine Reconciliation:如何用结果文本自动替换
假设我有这样的单元格:“Nat. Taiwan Normal Univ., Taipei”
一旦我进行和解,我得到这个:Nat。Taiwan Normal Univ., Taipei VV 创建新主题 搜索匹配
然后我点击“搜索匹配”,得到一个下拉结果:“国立台湾师范大学”
2个问题: - 如何将结果文本(“国立台湾师范大学”)输出到单独或同一列中?- 是否可以将结果大学所在的国家/地区输出到单独的列?
谢谢!
semantics - 在 Google Refine 中提取 Freebase 数据
我对 Google Refine 和 Frebase 还很陌生。我想使用互联网/网站列表,但转储不包含网站 URL,但是可以在相关的“官方网站”对象中访问。
在 Refine 中,如何根据网站 ID (/m/02nqp6l) 获取这些数据?
数据集(互联网/网站)
http://download.freebase.com/datadumps/latest/browse/internet/website.tsv
facet - 如何在 Google Refine 中将方面的值更改为相同?
我正在尝试清理这些数据:https ://dl.dropbox.com/u/820037/local_council_election_data_w_occupation.gz
这是芬兰地方议会选举的所有候选人。在“Ammatti”栏中,有候选人报告的职业。
我想找到所有的学生,但问题是,他们可以是“opiskelija”(学生)或“yliopisto-opiskelija”(大学生)之类的。
我单击列标题“Ammatti”并使用“opiskelija”对其进行过滤,然后从列标题的菜单中创建了一个“文本构面”。
这给了我以下方面:
- 农业。奥皮斯凯利亚 AMK 1
- 农学 9
- 农艺学 1
...等等。
在这些场合的每个人中,我都想将“Ammatti”(职业)的值更改为“opiskelija”(学生)。
为了让事情更复杂一点,这个方面还有一些职业(成熟的学生和行政人员)我不想改成“opiskelija”:
- aikuisopiskelija 10
- opiskelijakunnan hallituksen varapuheenjohtaja 1
- opiskelijapalvelun päällikkö 1
- opiskelijapalvelupäällikkö 1
我通过手动单击方面的整个列表并一一更改职业来做到这一点。
我想有更好的方法可以做到这一点,但有人可以告诉我我应该怎么做吗?
regex - 如何将 if 函数与 GREL 集成到 forEach 函数中?
我现在正在与 Google Refine 合作。我的目标是将一个现有的列拆分为两部分。我正在使用内置的“基于...添加列”功能。该列包含街道名称和对应的门牌号。例如,我有这个:
每一行的结构都相同,这意味着街道名称可以长也可以短,可以包含一个或多个单词,但它总是以(门牌)号码结尾,并且总是用空格分隔。
当我使用 Google Refine 时,我正准备使用 GREL 语句(Google Refine Expression Language)来做到这一点。这个想法是这样的:将除以空格的每个值分成几块。将每个拆分值保存在一个变量中。然后检查特定值是否包含数值(即门牌号)。如果它是一个数值,则取该值并将其转发到输出。我已经得到了这样的东西。
这是一个问题:我如何在 forEach 函数中集成一个 IF 函数?如果我知道该怎么做,我可能不仅可以拆分值,还可以检查它是否为数字。要检查它是否为数字,可以使用 isNumeric(value)。
我感谢每一个提示。谢谢,约尔格。
data-cleaning - 如何使用 Google Refine 将字符串值替换为指纹?
我有一列包含 100,000 多个字符串。我希望 Google Refine 用他们的指纹替换这些字符串。
我在 Google Refine 中选择了该列,并创建了一个 Text Facet。从该文本方面,我可以选择“集群”。这将向我显示集群,我假设这意味着具有相同指纹的字符串值,并允许我选择一个新单元格值,它默认为集群的第一个成员的名称。
我希望这个名字只是指纹。原因是,我需要对多个文件执行此操作,如果它们确实属于同一个集群,我需要它们具有相同的值。我无法连接文件,因为这会导致 Refine 处理的数据过多,尽管根据 Refine FAQ 优化了内存参数。
所以我只是在寻找一个操作,它获取列中的每个单元格,计算其指纹,并用其指纹替换列中的值。
我在 OSX 10.7 上使用 Google Refine 2.5
java - 在 Google Refine 中解析部分字符串 - 错误消息
我正在使用 Google Refine 清理数据集。我有一列日期为 mm/dd/yyyy 格式。我想创建一个新列,其中 mm/dd/yyyy 仅替换为 yyyy。
我努力了
出现的是
错误:替换需要 3 个字符串,或 1 个字符串、1 个正则表达式和 1 个字符串
为什么会出现这个错误?感谢您帮助初学者!
csv - 在 Google Refine 中按记录填写
我在 Google 优化中有以下逗号分隔的 CSV 文件:
如何使用 Jython 或 GREL 填写 column1 中的值以变为:
我努力了:
有什么建议么?谢谢你
google-refine - 谷歌细化:使用方面工具来推断两列之间的映射
我一直在搜索,但还没有找到如何在细化中做到这一点。
我有两列唯一IDS。对于 A 中的每个 a,我想在 B 中找到前 10 个最接近的匹配项。
我的后备计划是只使用 Levenshtein 进行迭代……但是 Refine 有一个非常好的迭代界面,并且实现了更多算法,我希望能够使用它来完成一些工作。
还是有其他工具可以做到这一点?
xml - 使用 Google Refine 解析 XML
我正在使用 Google-refine 从 Google 地图下载信息。更具体地说,我想要与给定地址关联的纬度/经度。我已经成功下载了 XML 信息,但是解析它的时间很糟糕。典型的条目如下所示:
http://maps.googleapis.com/maps/api/geocode/xml?address=543+Boler+Rd,+London,+Ontario&sensor=false
我的问题是:如何使用 GREL 语言从该输出中提取纬度(或经度值)。
提前致谢,
卡洛斯