问题标签 [google-refine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
openrefine - Openrefine 列中的渐进数字
是否可以使用 GREL 生成“计数器”,即列中的累进数字?
例如,我想添加value
到该数字以生成每条记录的标识符。
openrefine - 如何在新的 OpenRefine 列中仅保存特定的 JSON 元素
value.parseJson()['categories']
将创建一个名为'categories'
OpenRefine 的新列,但是否可以过滤并保留'chinese'
为唯一值并删除任何其他值?
python - 严格使用 JSON,如何将 key:values 重新排序为 Open Refine 的特定 JSON 模式
尝试使用 Open Refine 分析杂乱的 JSON 字符串数据集(40k 行),但是由于 JSON 的无序性质,一些 JSON 对象的行在返回并记录到文件时会混淆。
有些对象缺少键,有些对象的顺序不正确。例子:
问题:
将数据导入 Open Refine 后,程序会在读取文件时要求与特定模式进行比较。然后它读取提供的文件,将行上的每个 JSON 对象与模式进行比较,并根据它与模式的匹配程度来导入或丢弃!结果很多条目被遗漏了!
理想情况下:
使用 Python,我想将 JSON 对象重新排序为我指定的特定模式。
例子:
指定架构
然后将 JSON 的每一行及其键值重新排列为这种特定格式:
我不完全确定如何有效地做到这一点?
编辑:
我决定只写一个脚本来组织这个。我删除了一些复杂的字段并拥有一个完整的 .JSON 文件:
然而。Google-Refine 仍然拒绝接受我的文件?我做错了什么?
openrefine - OpenRefine 拆分为多个单元格
我有一个像这样的简单表:
我想用“,”分割单元格名称并想保留id,所以我在分割后的表格应该是这样的:
但是,如果我单击编辑单元格 > 拆分多值单元格,则单元格将被分隔,但 id 将为空白(在单元格被分隔的情况下),下面我给出了一个示例,向您展示单击后的样子在上面
openrefine - 在 OpenRefine 的列中添加数字
我想自动为一列编号。与 Excel 类似,我可以在一个单元格中键入“1”,其下方的单元格会自动编号为 2、3、4、5 等。我不知道为什么我在弄清楚这个函数时遇到这么多麻烦Openrefine,但任何帮助将不胜感激。
谢谢,盖尔
random - 如何在 GREL 中使用 GoogleRefine 或 OpenRefine 生成随机数?
我想在 GREL 中生成随机数。有没有办法做到这一点?我想使用 GREL 短语,例如:
“ http://example.org/id/ ” + 随机 + “.html”
openrefine - 如何使用 Google Refine 转换表格格式或其结构
我有一个格式如下的表:
我想将此表中的数据转换为以下格式:
由于注册量很大,我必须从一种格式转换为另一种格式,我想使用 Google Refine 来完成。有人知道怎么做吗?
csv - 使用 Open Refine(以前的 Google Refine)转置调查响应数据集
我正在寻找一些帮助来重塑调查响应数据集,使用 Open Refine(以前的 Google Refine)导出为 csv。
调查的一些背景
- Collector 和 responder ID 在后台收集 - ID1 ID2
- 用户从长列表中选择任务 - T{n}
- 用户输入自定义任务 - OT
- 用户评价每个选定任务的重要性 - R1
- 用户对每个选定任务的满意度评分 - R2
我们总共有 20 个任务 atm,但这可能会改变。
当前数据集如下:
我正在尝试将数据集重塑为以下格式:
regex - 使用现有列的逻辑测试在 OpenRefine 中创建列?
我有一个原始数据集,其中包含代表土地交易的 4,500 多个行条目。现有列之一是“地点”,在每个单元格值中,我通常将地点名称设为Some Neighborhood
,但有时当有一个我不知道的地点时,我会从公证记录中添加其他信息,例如,Some Neighborhood, Some County
甚至作为Some Neighborhood, Some County (nicknamed)
。
我想使用这一列中的信息创建两个新列。第一列将包含上级行政区划,第二列包含上级行政区划——有点像缩小。
我想我需要使用某种逻辑测试或 if-if-if-test 基于现有列创建一个新列,在其中我可以枚举Some Neighborhood
属于County 1
or County 2
orCity 1
等的值。然后,基于这个新列,我会创建另一个具有State 1
,State 2
等的,大概使用相同类型的测试。
我将如何在 Open Refine GREL 中使用正则表达式来编写它?如何将在单元格中找到的多个可能值串在一起?我尝试使用cells
,value.contains
但我不知道如何将这样的倍数串在一起。
所以再次回顾一下,我想编写一种方法来创建一个新列,该列包含基于现有值列的新单元格值,例如
“如果 Street1
, Street2
,Street5,
但不是 Street3
, 或Street4
,那么 County1
”
或者
“如果 Street1
或Street2
或Street5,
然后 County1
AND THEN 如果 Street3
或Street4
然后 County2
”
编辑:这是一些数据:
下面是一个带有两个新列的预期结果示例,比如说“Commune”和“Section”: