问题标签 [openrefine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
288 浏览

openrefine - Grel 应用于所有列或当前列

我有一个转置,我想应用于多个列。生成的 Grel 显示 columnName 或 Base 名称,但这意味着我必须编辑每一列的代码。认为有一种方法可以找到列索引并具有适用于“当前”列、按索引列出的列或所有列的代码。

具体来说,我想修剪空格并拥有 20 多列。

探索了 foreach 和 row.index 但找不到像列索引这样的东西。

0 投票
3 回答
545 浏览

openrefine - 如何在与 3333 不同的端口上运行 Google 优化?

默认情况下,谷歌细化在端口 3333 上侦听。如何在不同的端口上启动它?

[还有其他一些进程占用了 3333,我无法更改]

更新:在 Mac (10.8.x) 上运行

0 投票
1 回答
82 浏览

openrefine - OpenRefine 中的域名到网页标题

我在 Excel 中有一个域名列(如 stackoverflow.com),并希望创建一个带有域标题的相应列(如“堆栈溢出”)。

我将 Excel 文件上传到 OpenRefine。我相信最好的方法是调用“通过获取列上的 URL 添加列”函数。但我不知道该用什么表达方式。

0 投票
1 回答
534 浏览

openrefine - openrefine 在哪里存储项目?

我想知道 openrefine 在哪里存储项目的信息。我已经对 openrefine 的文件夹进行了版本控制,但显然它的内容都没有改变,所以我想肯定还有其他地方。

0 投票
2 回答
11657 浏览

r - How to perform approximate (fuzzy) name matching in R

I have a large data set, dedicated to biological journals, which was being composed for a long time by different people. So, the data are not in a single format. For example, in the column "AUTHOR" I can find John Smith, Smith John, Smith J and so on while it is the same person. I can not perform even the simplest actions. For example, I can't figure out what authors wrote the most articles.

Is there any way in R to determine if the majority of symbols in the different names is the same, take them as the same elements?

0 投票
2 回答
107 浏览

regex - Google Refine 无法识别匹配

使用 Google Refine,我正在尝试添加基于当前列的列。

当前列包含 url 参数,例如

q=how+to+match+google+refine+string&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:en-US:official&client=firefox-a&channel=sb&gfe_rd=cr&ei=wpFCU-PfDZDd8gektIGoAw

如何为q键添加列?

null目前,当我尝试一些基本的东西时,细化只会给我:

value.match('/q/')

更新:

我设法得到了钥匙: '.*?(ip=).*?'

但我现在正在寻找钥匙的价值。直到字符串结尾或下一个'&'

0 投票
1 回答
262 浏览

openrefine - google openrefine 中的多个过滤器

我在 googlerefine 中有一个下表,

我希望输出为具有以下标准的所有entereies。

输出看起来像

我使用过滤器 value.startsWith("KB") 或 value.contains("MS")

但它只选择 KB 的。请帮忙

0 投票
1 回答
51 浏览

whitespace - 在字符串替换操作中添加多个连续的空格

ge 我想在所有出现的字符串“foo”前面加上三个空格:

全部返回

代替

0 投票
1 回答
201 浏览

jython - 使用 jython 在 openrefine 中使用交叉函数

我可以在openrefine(googlerefine 2.5)中使用带有jython语言的交叉函数(https://github.com/OpenRefine/OpenRefine/wiki/GREL-Other-Functions#crosscell-c-string-projectname-string-columnname)吗

0 投票
1 回答
132 浏览

data-cleaning - openrefine 标志更改的行

我正在使用 openrefine 清理 excel 数据集。我有大约 70 次操作,我一直在剪切和粘贴不同的数据集。我维护一个记录 ID 并导出到一个新的 Excel 表。然后我使用记录 ID 重新加载工作表。

它运行良好,但即使只有少数记录发生更改,我也必须重新加载整个数据库。有没有一种简单的方法来标记更改的记录,所以我只将更改的记录导出/导入到应用程序?

我可以轻松地在 70 个操作中添加一个标志来标记仅更改的记录吗?