“openrefine”的相关标签问题

0 投票

2 回答

1951 浏览

date - 如何在 Open Refine 中将纪元时间转换为日期？

我不在乎我使用哪种语言（只要它是 Open Refine 中可用的三种语言之一），但我需要将从 API 返回的时间戳从纪元时间转换为常规日期（请参阅下面屏幕截图中的表达式框）。对输出日期格式不太挑剔，只是将日期保留到秒。谢谢！

可以使用：GREL、Jython 或 Clojure。

在 Open Refine 中将 Epoch 时间转换为日期

2014-09-25T23:33:28.720

0 投票

2 回答

1287 浏览

dataset - 在 Open Refine 中附加两个文件并通过两列向下钻取数据

我有两个关于 Open Refine 的问题

我有多组 Excel 文件形式的数据，但我想将它们全部上传到 Open Refine。如何在 Open Refine 中附加文件 A、文件 B 和文件 C？所有文件都具有相同的列名。请注意，我并不是要在一个共同的、独特的字段之间进行合并或 cell.cross。我只想将这三个文件一起附加到一个项目中。
我有一个数据集，其中包括检查类型和违规字段。检查类型下的一些常见类别是事故、投诉、推荐、计划和其他几个。违规类别/记录包含三种常见类型：严重、重复、故意。我需要分析的是每种类型的检查类型（例如，对于事故）如何对应于哪些违规行为，以及这些违规行为的数量是多少。例如，对于有多少事故检查类型，发现违规是严重的或故意的，并在单独的列中显示该信息。我能够分面检查类型列来计算每种类型下的类别数量，但我无法继续如何完成下一步。

任何帮助都感激不尽！

dataset openrefine

2014-10-03T23:57:06.617

0 投票

1 回答

428 浏览

python - 打开优化文本分面集群

在openrefine中，当我上传数据时，点击text facet然后聚类。它创建集群。喜欢： Aniket Ghodke 和 Ghodke Aniket 它会建议合并它们。但是有什么方法可以存储这些值。就像我将“Aniket Ghodke”和“Ghodke Aniket”合并为“Aniket Ghodke”一样，我可以存储这些值以供进一步参考。我也准备好使用 Python 或 java 库了。但是有没有可能。

python openrefine

2014-10-11T20:52:48.380

0 投票

1 回答

641 浏览

openrefine - 在私人数据上由谷歌打开优化

OpenRefine 可以安全地用于清理私人数据吗？

尝试了公共数据并确定，但我不确定数据安全性。

openrefine

2014-10-13T16:35:53.153

0 投票

1 回答

766 浏览

regex - 是否可以根据现有列中的关键字添加列？

从广义上讲，这就是我想要做的事情：在电子表格的一个单元格中解析一个字符串，然后如果在解析的单元格中找到某些关键字，则将关键字添加到该行中的另一个单元格。

我正在使用 OpenRefine（技术上是 Google Refine 2.5）来尝试执行此操作，使用“基于此列添加列”功能，但我还没有在新列中实际显示任何内容。

这是我正在使用的 GREL 表达式的当前迭代：

它抛出以下错误：

偏移量 77 处的解析错误：缺少数字、字符串、标识符、正则表达式或带括号的表达式

我是这个软件和 GREL 的新手，但我的搜索还没有出现这种字符串函数。（我想我现在对如何引用特定单元格有了更好的了解，但我想这也可能是问题所在。）

A. 这可能吗？
B. 有没有比编写一堆 if(contains()) 语句更有效的方法来做到这一点？

regex string openrefine

2014-10-15T16:00:09.803

0 投票

1 回答

119 浏览

openrefine - Openrefine 未按预期工作

我对 OpenRefine 很陌生，所以如果我犯了一个简单的错误，请多多包涵。我正在解析一个 HTML 网站以收集一些日期。

获取单个页面一切正常，但现在 HTML 解析失败。我正在创建一个新列，基于包含所有页面 HTML 的列。我正在尝试获取特定 DIV[20] 中的数据。

在“基于此列创建列”窗口中，它在使用时为我提供了预览value.parseHtml().select("DIV")[20]，这正是我需要的结果......执行它只给我空白单元格。它甚至告诉我它正在“用 grel:value.parseHtml().select("DIV")[20] 填充 0 行”

任何线索我在这里做错了什么？

openrefine

2014-10-16T11:05:41.640

0 投票

2 回答

316 浏览

latitude-longitude - OpenRefine - 删除每个单词中的第一个点

我正在使用 OpenRefine 并具有以下值：

我想转换为：

所以我想删除每个单词中的第一个点（“。”）。

有人有线索吗？

latitude-longitude openrefine

2014-11-05T22:34:50.370

0 投票

2 回答

1226 浏览

json - 嵌套对象到关系格式

我有关于用户配置文件的 JSON 数据，我想最终用 SPSS 进行分析。目前我在 Google Refine 中导入了数据，以运行一些数据清理。然而，我的问题是原始 JSON 由嵌套对象组成，即例如带有“公司”的“专业体验”部分，其中包括几个子对象/数组（见示例）。Google 优化通过使用该信息创建其他行来处理此问题。然而，这与我需要使用 SPSS 或 Excel 或其他任何东西分析数据的“关系”（就 SQL 而言）视图/表结构不一致，因为还有其他子对象（学校、奖项、等），它们也“愚蠢地”填充在高级“主要”记录下方的行中，但彼此之间没有直接（行/列）关系（考虑分析）。

如我所见，我需要将这些（子对象）列和行提取到自己的表中并创建一些 n:m 关系，或者至少将其规范化为一个表（然后当然接受其他未嵌套属性的冗余当然）。

我想要结束的是一张一致的表来对某些属性进行统计分析/聚类。我认为 map reduce 在这里并不是一个真正的选择。

你们中是否有人知道如何处理这个问题，或者是否有更简单的方法可以直接处理 JSON 数据？

] }

json database-normalization data-analysis openrefine

2014-11-06T15:23:09.387

0 投票

1 回答

316 浏览

csv - 使用 OpenRefine 清理地址 - 集群精确匹配

我正在使用 Open Refine 清理工作表 (.csv) 中的一些地址。如何在列中对完全匹配进行聚类？似乎聚类算法将聚类几乎相似但数量不同的地址。例如：

如何使用 OpenRefine 根据完全匹配对这些地址进行聚类？问题听起来很傻，但我对这件事失去了理智。

谢谢

csv cluster-analysis openrefine data-cleaning

2014-12-04T03:26:49.753

0 投票

1 回答

431 浏览

regex - 使用 XSLT 将复杂的 TSV 转换为 XML

这是上一篇文章的后续问题。我正在使用一组图书馆目录记录（MARC XML格式），我想使用一个名为OpenRefine的工具对其进行清理和增强。OpenRefine 不能很好地处理 XML 数据，因此我需要将 MARC XML 转换为 TSV。

我之前帖子的解决方案帮助我做到了这一点。但是，一旦我从 OpenRefine 导出，我需要将数据往返返回到 MARC XML。OpenRefine 的输出比典型的 TSV 更复杂：单个记录可以跨多行分布，因为某些字段是可重复的：

我正在尝试修改从 TSV 转换为 XML 的 XSLT 2.0 样式表（基于此处提出的解决方案）：

这基本上给了我我需要的东西，但它并不灵活，并且使用这种方法来解释源数据中所有可能的变化将是一项挑战。

相反，我想修改xsl:analyze-string正则表达式，以便预先处理这个更复杂的制表符分隔结构。基本上，每次有“领导者”的价值时，都应该有一个新的记录。出现在后续行中的各个值应被解析为单独的 XML 元素，如下所示：

regex xml xslt xslt-2.0 openrefine

2014-12-09T20:08:59.640

问题标签 [openrefine]

Reference