问题标签 [openrefine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
79 浏览

regex - 使用正则表达式从现有列添加新列

我正在尝试从以下数据中提取关注者数量:

text':只有在一个人拒绝放弃之后,努力才会完全释放它的回报。拿破仑山#TruOptikhttp://t.co/pJH19C6CeP', in_reply_to_status_id': None, id': 464714​​440437268481L, favorite_count': 0, source': web', retweeted': False, 坐标': None, entity': {symbols': [], user_mentions': [], hashtags ': [{indices': [84, 93], text': TruOptik'}], urls': [], media': [{expanded_url': , display_url': pic.twitter.com/pJH19C6CeP', url' : , media_url_https': , id_str': 464714​​438142996480', sizes': {large': {h': 194, resize': fit', w': 259}, small': {h': 194, resize': fit ', w': 259}, medium': {h': 194, resize': fit', w': 259}, thumb': {h': 150, resize':crop', w': 150}} ,索引':[94, 116],类型':照片',id':464714​​438142996480L,media_url':,in_reply_to_screen_name':无,id_str':464714​​440437268481',retweet_count':0,in_reply_to_user_id':无,收藏的':False,geo':无,in_reply_to_user_id_str':无,可能敏感':False,lang':en',created_at':5 月 9 日星期五10:32:11 +0000 2014', in_reply_to_status_id_str': None, place': None}, is_translation_enabled': False, utc_offset': None, statuses_count': 19327, description': Tru Optik 命名为 Gartner Cool New Vendor for Info-Innovation在 Big Data 2014'中,friends_count':187,位置':斯坦福德,CT',profile_link_color':B39B00',profile_image_url':,以下':False,geo_enabled':False,profile_banner_url':,profile_background_image_url':,screen_name': TruOptik', lang': en', profile_background_tile': True,favourites_count': 55, name': Tru Optik Data Corp', notification': False, url':, created_at': Wed Mar 27 18:54:41 +0000 2013',contributors_enabled': False, time_zone': None, protected ':假,default_profile':假,is_translator':假}

我试过这个:

上面的代码应该提取 294,但新创建的列包含空值。我的正则表达式有什么问题吗?

0 投票
1 回答
388 浏览

openrefine - 根据多个列保留最新的重复行

我似乎在使用 Open Refine ( Google Refine 2.5 [r2407] ) 进行复杂的重复行清理时遇到了工作流问题。到目前为止,我发现的只是如何删除基于单个列的重复行

我的目标是删除基于多个列的重复行,充其量是在特定层次结构中。

例子

鉴于Refine中的以下虚拟数据

我想根据以下逻辑杀死重复的行。如果

  • title && auther && date && val1 相同,比
  • 保留最新(最少 timeAgo)行,如果有多个,则
  • 保留 id 最高的那个

结果将是:

简单的方法?

如果没有其他解决方案,谢天谢地,我采用了脚本/GREL 解决方案。

但是是否可以通过 Refines 著名的工作流“记录”来实现上述逻辑,从而可以将其提取并应用于其他相同格式的数据集?

我这样做的动机是让员工能够更周到地处理数据(超越 excel),但无需立即使用成熟的脚本语言面对他们。

0 投票
0 回答
101 浏览

spreadsheet - Google Refine / Open Refine:从列到行

恐怕这可能是一个有点简单的问题,但我似乎无法弄清楚。

我有一个包含许多对象的电子表格,每个对象都有许多属性(每列一个),就像这样(对不起,我不能发布图像,所以这是我能做的最好的):

…而且我希望每一列成为单独的行——这意味着每个对象都会被列出多次。像这样:

我没有看到明显的方法来做到这一点,我在这里找不到答案,尽管也许我没有使用正确的搜索词。

谢谢你尽你所能的帮助!

0 投票
1 回答
970 浏览

openrefine - 打开优化错误上传数据?

我正在尝试 google 优化以解决我的数据中的名称消歧问题。但是,每当我上传 CSV 时,我都会收到此错误。

我一直在关注此链接教程中的教程

我也在我的谷歌搜索中遇到了这个,命名了我面临的类似问题。

https://github.com/OpenRefine/OpenRefine/issues/670

但我不知道如何解决这个问题。我应该进入源代码并编辑提到的行吗?如果是这样,有人可以给我一些关于如何做到这一点的指导吗?

0 投票
1 回答
95 浏览

openrefine - Open Refine : 根据组织名称与 Freebase 数据核对

我一直在关注本教程: https ://www.youtube.com/watch?v=5tsyz3ibYzk

我一直在遵循所有步骤,但我注意到,对于我的数据集,freebase 没有建议任何类型,就像示例中的“电影”一样。

我有一列组织名称('Babson College'、'Aspen Institute')就是两个例子。当我单击“开始和解”->“从 Wikipedia 命名空间中选择”时,什么也没有发生。

感谢您的帮助!

我正在使用 Open Refine 2.6。我只看到基于查询的服务

0 投票
1 回答
4620 浏览

openrefine - 仅通过具有空白/空字符串单元格进行过滤

我想调查某一列为空的行。我将根据其他列中的值填充这些单元格,但我想确定哪些尚未完成。

如果我对该列进行过滤,则在我输入某些内容之前它不会做任何事情 - 但我正在寻找的东西什么都没有......

我尝试了一些正则表达式,例如^$^\s*$^.{0}$但没有为任何这些过滤器选择行。

0 投票
1 回答
409 浏览

openrefine - 打开 Refine / Google Refine - 编辑多列中的单元格

有谁知道使用单个命令/操作在 Open Refine 中编辑多列中的单元格的方法?

我有一个包含大约 75 列的项目,我需要对每列中的所有单元格应用相同的操作。

例如,我需要:

在项目的每一列。希望我不必一一为每一列手动执行此操作?

0 投票
1 回答
209 浏览

excel - 在 Google Open Refine(或 Excel)中格式化像“20110822”这样的日期?

我有一个数据集,在同一列中有两种不同的日期格式。有些格式如下:

其他的格式如下:

Google Open Refine 会将第一个类型识别为日期,并将对其进行排序并允许我对其执行其他操作。我不知道如何将第二种类型格式化为日期。一个转变:

抛出一个错误,就像我尝试的大多数其他事情一样。这似乎是一个简单的问题,但谷歌搜索没有帮助。

0 投票
1 回答
88 浏览

openrefine - 无法将超链接导入 Open Refine

我导入了一个.xlsx文件,其中一列填充了hyperlinks,但 OpenRefine 上不显示链接,只显示值。

  1. 它只发生在Linux还是与 相同Windows
  2. 如果没有,还有其他方法可以导入这些hyperlinks吗?
0 投票
2 回答
432 浏览

mod-proxy - Mod_Proxy 未正确显示 OpenRefine 应用程序

我有 OpenRefine(由码头托管的 web 应用程序)运行在:

看起来像这样:

网络OK

一切都很完美。

现在我想通过 Apache2 进行隧道传输(出于安全和重命名原因),所以我更改了我的 http.conf 文件并像这样修改它:

现在,如果我尝试通过代理打开页面,这就是我所看到的:

网络不好

看起来所有动态内容都无法正常工作。我该如何解决这个问题?

笔记:

  • 我确保 mod_proxy 已更新并正常工作。使用来自 Tomcat 的其他 webapps 进行了测试。