“openrefine”的相关标签问题

0 投票

1 回答

1126 浏览

openrefine - 打开 Refine - 将另一个文件添加到现有项目

我已将 CSV 文件导入到 OR（打开优化）。由于我拥有的 CSV 文件包含超过 200,000 条记录，因此我决定创建单独的文件，因为上传大文件在我的计算机上不起作用（需要很长时间，甚至不确定它是否真的在导入）。我能够从单个文件（大）中创建三个 .csv 文件。

我已成功导入每个 .csv 文件，但现在我想将所有三个文件导入 OR 中的一个项目。这甚至可能吗？

openrefine

2014-12-19T06:22:19.980

0 投票

1 回答

1379 浏览

openrefine - 用空格字符替换空单元格

在某个列中，我试图用一个空格替换任何具有空值的单元格。我正在尝试组合多行，其中每行仅包含一个字母。当我加入多值单元格时，Refine 将（可以理解地）丢弃空值，从而产生一大串文本，单词之间没有空格。

我发现几篇文章描述了如何删除带有空单元格的行，但不向空单元格添加空格。

fwiw，下面是我加入多值单元格的文章 http://onlinejournalismblog.com/2014/05/30/how-to-combine-multiple-rows-in-a-dataset-where-text-is-拆分他们打开优化/#more-18955

openrefine

2014-12-23T22:38:44.200

0 投票

2 回答

213 浏览

html - 使用 OpenRefine / GoogleRefine 进行抓取省略
标签

我想抓取一组简单的页面，并认为我会使用 OpenRefine 来获取每个页面的 HTML，然后对其进行解析。我在寻找特定标签的内容，但奇怪的是，OpenRefine 没有显示该特定标签。这是 OR 第一次省略标签，我不知道为什么。以下是具体情况：

我正在抓取以下博客上分配给每个博客文章的类别：

http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p00-0.html

页面 URL 范围从 p00-0.html 到 p330-0.html。

所以我有一列页面，从 0 到 330，我将它们与 URL 结合起来：

" http://stripsjournal.canalblog.com/tag/Les%20Unes%20de%20Charlie%20Hebdo/p " + 值 + "-0.html"

当我抓取每个页面的 HTML 内容时，我希望看到以下内容（这是第一个条目的预期结果）：

相反，OR 完全省略了标记并产生以下输出：

我是否犯了一些可笑的心不在焉的错误，还是与 OR 有什么关系？

2015-01-10T21:26:39.647

0 投票

2 回答

1674 浏览

beautifulsoup - 使用 Google Refine/OpenRefine & Jsoup/BeautifulSoup 解析和删除 HTML 标签

我使用 Google Refine 处理凌乱的产品数据表，以便使用 Magmi/Dataflow 配置文件对它们进行格式化以上传到 Magento 商店。我仍在使用 Google Refine 2.5，因为它是最新的稳定版本。

供应商数据表中的描述通常充满了二进制字符和凌乱的 HTML，我需要对其进行大量操作和重新格式化。

我知道我可以使用 GREL / Python / Jsoup 的某种组合来完成我的任务，但是我在使用不同语言的语法移动时遇到了麻烦。

我的数据如下所示：

Some product data here. <ul><li>Bullet one <li> Bullet two</ul> Some other product data here. <img src="image.png">

使用以下代码段：value.parseHtml().select("img").toString() 我能够解析我想要的图像标签，但我无法使用replace()GREL 中的函数删除/替换这些标签。我试图将表达式添加到替换函数的第一个字符串中，比如：value.replace(/value.parseHtml().select("img").toString()/, "")和其他类似的函数都无济于事。

对于我当前的项目，我需要：1）删除所有<img>, <div>, and 标签，加上 2）解析 YouTube 视频链接并将其分离到单独的列中。

有人可以帮我语法/为我编写一个函数来完成这项任务（最好是对语法的解释）？

beautifulsoup jsoup magmi openrefine

2015-02-09T03:19:39.527

0 投票

2 回答

194 浏览

twitter - Twitter 与 OpenRefine 的联合标签

我正在使用 OpenRefine 将一些 Twitter 元数据格式化为边缘列表以供 Gephi 读取。如果我想研究用户提及关联或用户标签关联，它很容易工作。但是现在我想研究共同标签，那么标签在推文中共同出现的频率。

在 OpenRefine 中执行此操作（我不太了解）有点棘手，我需要一些帮助。我的数据在 csv 中，有两列：用户的用户名、推文中使用的逗号分隔的主题标签字符串。要使用 OpenRefine 获取用户标签边缘列表，我在标签列上使用“拆分多值单元格”，然后在用户列上使用“填充”（非常简单）。我不知道如何获取 hashtag-hashtag 边缘列表。我可以在主题标签列上使用“拆分多值单元格”来为推文中提到的每个主题标签获取一个新行。但是我如何“填充”这些行以便获得主题标签-主题标签共现的所有组合？

例子：

数据：

期望的结果：

twitter openrefine

2015-03-02T11:31:11.000

0 投票

2 回答

375 浏览

web-scraping - OpenRefine/google 精炼可以用于登录后的页面吗？

如果没有，是否有类似的替代方案可以？

我查看了文档，但看不到有关此主题的任何内容，尽管它必须是一个常见的要求。

需要明确的是，我的意思是基于 Web 的登录表单，而不是基本的 HTTP 身份验证。

web-scraping openrefine

2015-04-10T12:14:03.217

0 投票

1 回答

823 浏览

python - 如何在 Jython 中将整数编码为 Base64 以进行 Open Refine？

我想使用 Base64 将一个整数编码为一个短字符串并将该值返回给 Open Refine (Google Refine)。

我找到了一些例子，但它们总是给我一个错误。

作品返回“MQ==”

但我想对整数 1 进行编码。下面的代码给了我一个错误。

我找到的例子在这里：How to encode integer in to base64 string in python 3

python base64 jython openrefine

2015-04-14T16:02:58.500

0 投票

2 回答

1667 浏览

xml - 如何在 Google Refine 中解析 XML 以提取数据？

我需要使用 Google Refine 解析 XML 以从中提取一些数据。

XML 是这样的

我想提取关于这个标签的坐标

所以两个不同字段中的单个数字 45.808287 和 9.575815

我试过类似的东西

但我不知道如何继续。

有什么建议么？

xml parsing openrefine

2015-05-14T09:24:39.073

0 投票

2 回答

812 浏览

openrefine - 如何使用 Google Refine 在 Nominatim 响应中仅提取节点“osm_type”：“node”的纬度、经度值

我正在使用 Google Refine 对带有 Nominatim API 请求的地址进行地理编码，正如这篇很棒的帖子https://opensas.wordpress.com/2013/06/30/using-openrefine-to-geocode-your-data-using-中所建议的那样google-and-openstreetmap-api/。

一切正常：这里有两个样本......

生产

和

生产

不同之处在于第一个响应具有“osm_type”：“way”类型，而第二个响应具有“osm_type”：“node”类型。

我只对有关“osm_type”：“node”的响应感兴趣，对于这些我想提取 lat 和 lon 值。

我不知道如何在 Google Refine 中使用 GREL 提取它们.....有什么建议吗？

如果有用的话，我还可以获取 XML 中的响应……这是你的请求

openrefine nominatim

2015-05-19T11:45:35.483

0 投票

1 回答

616 浏览

openrefine - 在 GREL 中附加特定字符串

我正在使用 GREL 在 Open Refine 中清理数据。我正在尝试将字符串 OOL 附加到字符串 SCH，前提是 SCH 位于任何单元格的底部。我会很感激任何提示。

Miquel Centelles

openrefine

2015-06-07T20:11:31.293

问题标签 [openrefine]

Reference