问题标签 [openrefine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1126 浏览

openrefine - 打开 Refine - 将另一个文件添加到现有项目

我已将 CSV 文件导入到 OR(打开优化)。由于我拥有的 CSV 文件包含超过 200,000 条记录,因此我决定创建单独的文件,因为上传大文件在我的计算机上不起作用(需要很长时间,甚至不确定它是否真的在导入)。我能够从单个文件(大)中创建三个 .csv 文件。

我已成功导入每个 .csv 文件,但现在我想将所有三个文件导入 OR 中的一个项目。这甚至可能吗?

0 投票
1 回答
1379 浏览

openrefine - 用空格字符替换空单元格

在某个列中,我试图用一个空格替换任何具有空值的单元格。我正在尝试组合多行,其中每行仅包含一个字母。当我加入多值单元格时,Refine 将(可以理解地)丢弃空值,从而产生一大串文本,单词之间没有空格。

我发现几篇文章描述了如何删除带有空单元格的行,但不向空单元格添加空格。

fwiw,下面是我加入多值单元格的文章 http://onlinejournalismblog.com/2014/05/30/how-to-combine-multiple-rows-in-a-dataset-where-text-is-拆分他们打开优化/#more-18955

0 投票
2 回答
213 浏览

html - 使用 OpenRefine / GoogleRefine 进行抓取省略
标签

我想抓取一组简单的页面,并认为我会使用 OpenRefine 来获取每个页面的 HTML,然后对其进行解析。我在寻找特定标签的内容,但奇怪的是,OpenRefine 没有显示该特定标签。这是 OR 第一次省略标签,我不知道为什么。以下是具体情况:

我正在抓取以下博客上分配给每个博客文章的类别:

http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p00-0.html

页面 URL 范围从 p00-0.html 到 p330-0.html。

所以我有一列页面,从 0 到 330,我将它们与 URL 结合起来:

" http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p " + 值 + "-0.html"

当我抓取每个页面的 HTML 内容时,我希望看到以下内容(这是第一个条目的预期结果):

相反,OR 完全省略了标记并产生以下输出:

我是否犯了一些可笑的心不在焉的错误,还是与 OR 有什么关系?

0 投票
2 回答
1674 浏览

beautifulsoup - 使用 Google Refine/OpenRefine & Jsoup/BeautifulSoup 解析和删除 HTML 标签

我使用 Google Refine 处理凌乱的产品数据表,以便使用 Magmi/Dataflow 配置文件对它们进行格式化以上传到 Magento 商店。我仍在使用 Google Refine 2.5,因为它是最新的稳定版本。

供应商数据表中的描述通常充满了二进制字符和凌乱的 HTML,我需要对其进行大量操作和重新格式化。

我知道我可以使用 GREL / Python / Jsoup 的某种组合来完成我的任务,但是我在使用不同语言的语法移动时遇到了麻烦。

我的数据如下所示:

Some product data here. <ul><li>Bullet one <li> Bullet two</ul> <br /> Some other product data here. <span id="product-image><img src="image.png"></span>

使用以下代码段:value.parseHtml().select("img").toString() 我能够解析我想要的图像标签,但我无法使用replace()GREL 中的函数删除/替换这些标签。我试图将表达式添加到替换函数的第一个字符串中,比如:value.replace(/value.parseHtml().select("img").toString()/, "")和其他类似的函数都无济于事。

对于我当前的项目,我需要:1)删除所有<img>, <div>, <p> and <span>标签,加上 2)解析 YouTube 视频链接并将其分离到单独的列中。

有人可以帮我语法/为我编写一个函数来完成这项任务(最好是对语法的解释)?

0 投票
2 回答
194 浏览

twitter - Twitter 与 OpenRefine 的联合标签

我正在使用 OpenRefine 将一些 Twitter 元数据格式化为边缘列表以供 Gephi 读取。如果我想研究用户提及关联或用户标签关联,它很容易工作。但是现在我想研究共同标签,那么标签在推文中共同出现的频率。

在 OpenRefine 中执行此操作(我不太了解)有点棘手,我需要一些帮助。我的数据在 csv 中,有两列:用户的用户名、推文中使用的逗号分隔的主题标签字符串。要使用 OpenRefine 获取用户标签边缘列表,我在标签列上使用“拆分多值单元格”,然后在用户列上使用“填充”(非常简单)。我不知道如何获取 hashtag-hashtag 边缘列表。我可以在主题标签列上使用“拆分多值单元格”来为推文中提到的每个主题标签获取一个新行。但是我如何“填充”这些行以便获得主题标签-主题标签共现的所有组合?

例子:

数据:

期望的结果:

0 投票
2 回答
375 浏览

web-scraping - OpenRefine/google 精炼可以用于登录后的页面吗?

如果没有,是否有类似的替代方案可以?

我查看了文档,但看不到有关此主题的任何内容,尽管它必须是一个常见的要求。

需要明确的是,我的意思是基于 Web 的登录表单,而不是基本的 HTTP 身份验证。

0 投票
1 回答
823 浏览

python - 如何在 Jython 中将整数编码为 Base64 以进行 Open Refine?

我想使用 Base64 将一个整数编码为一个短字符串并将该值返回给 Open Refine (Google Refine)。

我找到了一些例子,但它们总是给我一个错误。

作品返回“MQ==”

但我想对整数 1 进行编码。下面的代码给了我一个错误。

我找到的例子在这里:How to encode integer in to base64 string in python 3

0 投票
2 回答
1667 浏览

xml - 如何在 Google Refine 中解析 XML 以提取数据?

我需要使用 Google Refine 解析 XML 以从中提取一些数据。

XML 是这样的

我想提取关于这个标签的坐标

所以两个不同字段中的单个数字 45.808287 和 9.575815

我试过类似的东西

但我不知道如何继续。

有什么建议么?

0 投票
2 回答
812 浏览

openrefine - 如何使用 Google Refine 在 Nominatim 响应中仅提取节点“osm_type”:“node”的纬度、经度值

我正在使用 Google Refine 对带有 Nominatim API 请求的地址进行地理编码,正如这篇很棒的帖子https://opensas.wordpress.com/2013/06/30/using-openrefine-to-geocode-your-data-using-中所建议的那样google-and-openstreetmap-api/

一切正常:这里有两个样本......

生产

生产

不同之处在于第一个响应具有“osm_type”:“way”类型,而第二个响应具有“osm_type”:“node”类型。

我只对有关“osm_type”:“node”的响应感兴趣,对于这些我想提取 lat 和 lon 值。

我不知道如何在 Google Refine 中使用 GREL 提取它们.....有什么建议吗?

如果有用的话,我还可以获取 XML 中的响应……这是你的请求

0 投票
1 回答
616 浏览

openrefine - 在 GREL 中附加特定字符串

我正在使用 GREL 在 Open Refine 中清理数据。我正在尝试将字符串 OOL 附加到字符串 SCH,前提是 SCH 位于任何单元格的底部。我会很感激任何提示。

Miquel Centelles