问题标签 [ropensci]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
106 浏览

r - 为什么 R 中的 textreuse packge 使 LSH 存储桶比原始 minhashes 大得多?

据我了解,LSH 方法的主要功能之一是数据减少,甚至超出了底层哈希(通常是 minhashes)。我一直textreuse在 R 中使用这个包,我对它生成的数据的大小感到惊讶。textreuse是一个经过同行评审的ROpenSci包,所以我认为它可以正确地完成它的工作,但我的问题仍然存在。

假设我分别为我的 minhash 和 LSH 函数使用 256 个排列和 64 个波段 - 通常用于检测相对确定性(~98%) 相似性低至 50% 的实际值。

如果我使用 (256 perms) 散列一个随机文本文件TextReuseTextDocument并将其分配给trtd,我将拥有:

现在让我们为这个对象(64 个波段)创建 LSH 存储桶并将其分配给l,我将拥有:

因此,LSH 存储桶中保留的哈希值是原始 minhashes 的六倍。我理解这是因为textreuse 使用 md5 摘要来创建存储桶哈希。

但这不是太浪费/矫枉过正,我不能改进它吗?我们的数据缩减技术最终膨胀到这种程度是否正常?根据原始哈希(类似于 perms = 256 和bands = 256)匹配文档然后使用阈值清除误报不是更有效吗?

请注意,我已经查看了诸如Mining of Massive Datasets之类的典型文本,但这个问题仍然是关于这个特定实现的。另请注意,这个问题不仅出于好奇,而且出于需要。当您拥有数百万或数十亿个哈希值时,这些差异就会变得很重要。

0 投票
1 回答
61 浏览

r - 从 osm 搜索中仅返回非缺失值

我试图只获取从 osmdata 返回的非 na 值。例如,获取电子邮件地址。但是,以下返回的大多是丢失的电子邮件。如何设置查询以使其仅返回非缺失值...value = "!null"也不起作用。

0 投票
2 回答
309 浏览

r - 是否有任何 R 函数可以从物种分类 ID/物种名称或属名称中提取所有分类名称(门、类、目、科……)?

我有物种的分类 ID,我可以从 NCBI ( https://www.ncbi.nlm.nih.gov/Taxonomy/TaxIdentifier/tax_identifier.cgi ) 获得物种和属名。但我想要这些数据中的门、类、顺序。

我尝试过taxize package,但不适用于大型数据集。

请问有什么建议吗?

0 投票
1 回答
43 浏览

r - 有什么方法可以将字符编码更改为等效的英文 IN R?

在 R 中,我使用 Tabulizer 库从 Pdf 表中提取数据,名称为尼泊尔语,提取后我获取此表 [1]:https ://i.stack.imgur.com/Ltpqv.png

但现在我希望第 2 列的名称更改为英文等效项

有没有办法在 R 中做到这一点

我写的 R 代码是

0 投票
2 回答
168 浏览

r - 下载 NOAA 数据

我正在尝试使用 rnoaa 包下载 NOAA 数据,但遇到了一些麻烦。

我从数据框中获取了一个向量,它看起来像这样:

抓取必要的列

这给了我这样的输出:

实际上,我有大约 22,000 个气象站。这只是显示前 50 个。

核酸编码

这会产生以下错误: Error: Request-URI Too Long (HTTP 414)

但是,当我将 df 子集为前 100 个条目时,我无法获取超过前 25 个的数据。但是,包详细信息表明我应该能够每天运行 10,000 个查询。

循环尝试

但这只是产生单行的数据框,该行是第 125 个气象站。

如果有人可以就下一步尝试什么提供建议,那就太好了:)

此外,交叉链接:https ://discuss.ropensci.org/t/rnoaa-getting-county-level-rain-data/2403

0 投票
2 回答
201 浏览

r - 如何使用 rgbif 一次从多个多边形下载发生数据?

我正在尝试使用 R 包从多个区域下载多个分类群的出现数据rgbif。我更喜欢通过将所有区域组合在一起来进行一次下载(因为我有数千个区域,单独下载会很疯狂)。但是,我没有找到这样做的方法。我可以occ_download为每个查询做一个区域。

这是我的示例代码:

从我的GBIF下载中心,它说“下载请求不成功。”。

有人能帮忙吗?谢谢!

0 投票
0 回答
86 浏览

r - 将扫描的 PDF 转换为可搜索的 PDF(在 R 中)

tesseract我正在尝试使用andpdftools包将一系列扫描的 PDF 转换为可搜索的 PDF 。我已经完成了两个步骤。现在我需要写回可搜索的pdf。

  1. 阅读扫描的 PDF
  2. 运行 OCR
  3. 写回可搜索的 PDF

或者,我可以在 R for Windows 中调用另一个包或命令行工具吗?

0 投票
1 回答
34 浏览

r - 无法在 R 中安装包 rmetadata

我的主要目标是使用标题和期刊名称提取文章的元数据。为此,rmetadata根据博客,包很有用https://ropensci.org/blog/2013/03/15/r-metadata/。但是,我无法使用该install_github()功能安装软件包。有什么帮助吗?谢谢!