问题标签 [openrefine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
date - 如何在 Open Refine 中将纪元时间转换为日期?
我不在乎我使用哪种语言(只要它是 Open Refine 中可用的三种语言之一),但我需要将从 API 返回的时间戳从纪元时间转换为常规日期(请参阅下面屏幕截图中的表达式框)。对输出日期格式不太挑剔,只是将日期保留到秒。谢谢!
可以使用:GREL、Jython 或 Clojure。
dataset - 在 Open Refine 中附加两个文件并通过两列向下钻取数据
我有两个关于 Open Refine 的问题
我有多组 Excel 文件形式的数据,但我想将它们全部上传到 Open Refine。如何在 Open Refine 中附加文件 A、文件 B 和文件 C?所有文件都具有相同的列名。请注意,我并不是要在一个共同的、独特的字段之间进行合并或 cell.cross。我只想将这三个文件一起附加到一个项目中。
我有一个数据集,其中包括检查类型和违规字段。检查类型下的一些常见类别是事故、投诉、推荐、计划和其他几个。违规类别/记录包含三种常见类型:严重、重复、故意。我需要分析的是每种类型的检查类型(例如,对于事故)如何对应于哪些违规行为,以及这些违规行为的数量是多少。例如,对于有多少事故检查类型,发现违规是严重的或故意的,并在单独的列中显示该信息。我能够分面检查类型列来计算每种类型下的类别数量,但我无法继续如何完成下一步。
任何帮助都感激不尽!
python - 打开优化文本分面集群
在openrefine中,当我上传数据时,点击text facet然后聚类。它创建集群。喜欢: Aniket Ghodke 和 Ghodke Aniket 它会建议合并它们。但是有什么方法可以存储这些值。就像我将“Aniket Ghodke”和“Ghodke Aniket”合并为“Aniket Ghodke”一样,我可以存储这些值以供进一步参考。我也准备好使用 Python 或 java 库了。但是有没有可能。
openrefine - 在私人数据上由谷歌打开优化
OpenRefine 可以安全地用于清理私人数据吗?
尝试了公共数据并确定,但我不确定数据安全性。
regex - 是否可以根据现有列中的关键字添加列?
从广义上讲,这就是我想要做的事情:在电子表格的一个单元格中解析一个字符串,然后如果在解析的单元格中找到某些关键字,则将关键字添加到该行中的另一个单元格。
我正在使用 OpenRefine(技术上是 Google Refine 2.5)来尝试执行此操作,使用“基于此列添加列”功能,但我还没有在新列中实际显示任何内容。
这是我正在使用的 GREL 表达式的当前迭代:
它抛出以下错误:
偏移量 77 处的解析错误:缺少数字、字符串、标识符、正则表达式或带括号的表达式
我是这个软件和 GREL 的新手,但我的搜索还没有出现这种字符串函数。(我想我现在对如何引用特定单元格有了更好的了解,但我想这也可能是问题所在。)
A. 这可能吗?
B. 有没有比编写一堆 if(contains()) 语句更有效的方法来做到这一点?
openrefine - Openrefine 未按预期工作
我对 OpenRefine 很陌生,所以如果我犯了一个简单的错误,请多多包涵。我正在解析一个 HTML 网站以收集一些日期。
获取单个页面一切正常,但现在 HTML 解析失败。我正在创建一个新列,基于包含所有页面 HTML 的列。我正在尝试获取特定 DIV[20] 中的数据。
在“基于此列创建列”窗口中,它在使用时为我提供了预览value.parseHtml().select("DIV")[20]
,这正是我需要的结果......执行它只给我空白单元格。它甚至告诉我它正在“用 grel:value.parseHtml().select("DIV")[20] 填充 0 行”
任何线索我在这里做错了什么?
latitude-longitude - OpenRefine - 删除每个单词中的第一个点
我正在使用 OpenRefine 并具有以下值:
我想转换为:
所以我想删除每个单词中的第一个点(“。”)。
有人有线索吗?
json - 嵌套对象到关系格式
我有关于用户配置文件的 JSON 数据,我想最终用 SPSS 进行分析。目前我在 Google Refine 中导入了数据,以运行一些数据清理。然而,我的问题是原始 JSON 由嵌套对象组成,即例如带有“公司”的“专业体验”部分,其中包括几个子对象/数组(见示例)。Google 优化通过使用该信息创建其他行来处理此问题。然而,这与我需要使用 SPSS 或 Excel 或其他任何东西分析数据的“关系”(就 SQL 而言)视图/表结构不一致,因为还有其他子对象(学校、奖项、等),它们也“愚蠢地”填充在高级“主要”记录下方的行中,但彼此之间没有直接(行/列)关系(考虑分析)。
如我所见,我需要将这些(子对象)列和行提取到自己的表中并创建一些 n:m 关系,或者至少将其规范化为一个表(然后当然接受其他未嵌套属性的冗余当然)。
我想要结束的是一张一致的表来对某些属性进行统计分析/聚类。我认为 map reduce 在这里并不是一个真正的选择。
你们中是否有人知道如何处理这个问题,或者是否有更简单的方法可以直接处理 JSON 数据?
] }
csv - 使用 OpenRefine 清理地址 - 集群精确匹配
我正在使用 Open Refine 清理工作表 (.csv) 中的一些地址。如何在列中对完全匹配进行聚类?似乎聚类算法将聚类几乎相似但数量不同的地址。例如:
如何使用 OpenRefine 根据完全匹配对这些地址进行聚类?问题听起来很傻,但我对这件事失去了理智。
谢谢
regex - 使用 XSLT 将复杂的 TSV 转换为 XML
这是上一篇文章的后续问题。我正在使用一组图书馆目录记录(MARC XML格式),我想使用一个名为OpenRefine的工具对其进行清理和增强。OpenRefine 不能很好地处理 XML 数据,因此我需要将 MARC XML 转换为 TSV。
我之前帖子的解决方案帮助我做到了这一点。但是,一旦我从 OpenRefine 导出,我需要将数据往返返回到 MARC XML。OpenRefine 的输出比典型的 TSV 更复杂:单个记录可以跨多行分布,因为某些字段是可重复的:
我正在尝试修改从 TSV 转换为 XML 的 XSLT 2.0 样式表(基于此处提出的解决方案):
这基本上给了我我需要的东西,但它并不灵活,并且使用这种方法来解释源数据中所有可能的变化将是一项挑战。
相反,我想修改xsl:analyze-string
正则表达式,以便预先处理这个更复杂的制表符分隔结构。基本上,每次有“领导者”的价值时,都应该有一个新的记录。出现在后续行中的各个值应被解析为单独的 XML 元素,如下所示: