问题标签 [ropensci]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

58 问题

0 投票

1 回答

106 浏览

r - 为什么 R 中的 textreuse packge 使 LSH 存储桶比原始 minhashes 大得多？

据我了解，LSH 方法的主要功能之一是数据减少，甚至超出了底层哈希（通常是 minhashes）。我一直textreuse在 R 中使用这个包，我对它生成的数据的大小感到惊讶。textreuse是一个经过同行评审的ROpenSci包，所以我认为它可以正确地完成它的工作，但我的问题仍然存在。

假设我分别为我的 minhash 和 LSH 函数使用 256 个排列和 64 个波段 - 通常用于检测相对确定性(~98%) 相似性低至 50% 的实际值。

如果我使用 (256 perms) 散列一个随机文本文件TextReuseTextDocument并将其分配给trtd，我将拥有：

现在让我们为这个对象（64 个波段）创建 LSH 存储桶并将其分配给l，我将拥有：

因此，LSH 存储桶中保留的哈希值是原始 minhashes 的六倍。我理解这是因为textreuse 使用 md5 摘要来创建存储桶哈希。

但这不是太浪费/矫枉过正，我不能改进它吗？我们的数据缩减技术最终膨胀到这种程度是否正常？根据原始哈希（类似于 perms = 256 和bands = 256）匹配文档然后使用阈值清除误报不是更有效吗？

请注意，我已经查看了诸如Mining of Massive Datasets之类的典型文本，但这个问题仍然是关于这个特定实现的。另请注意，这个问题不仅出于好奇，而且出于需要。当您拥有数百万或数十亿个哈希值时，这些差异就会变得很重要。

2020-08-15T16:43:01.647

0 投票

1 回答

61 浏览

r - 从 osm 搜索中仅返回非缺失值

我试图只获取从 osmdata 返回的非 na 值。例如，获取电子邮件地址。但是，以下返回的大多是丢失的电子邮件。如何设置查询以使其仅返回非缺失值...value = "!null"也不起作用。

r openstreetmap ropensci

2020-09-15T17:24:34.573

0 投票

2 回答

309 浏览

r - 是否有任何 R 函数可以从物种分类 ID/物种名称或属名称中提取所有分类名称（门、类、目、科……）？

我有物种的分类 ID，我可以从 NCBI ( https://www.ncbi.nlm.nih.gov/Taxonomy/TaxIdentifier/tax_identifier.cgi ) 获得物种和属名。但我想要这些数据中的门、类、顺序。

我尝试过taxize package，但不适用于大型数据集。

请问有什么建议吗？

r bioinformatics ncbi ropensci

2020-11-09T07:43:47.767

0 投票

1 回答

43 浏览

r - 有什么方法可以将字符编码更改为等效的英文 IN R？

在 R 中，我使用 Tabulizer 库从 Pdf 表中提取数据，名称为尼泊尔语，提取后我获取此表 [1]：https ://i.stack.imgur.com/Ltpqv.png

但现在我希望第 2 列的名称更改为英文等效项

有没有办法在 R 中做到这一点

我写的 R 代码是

r character-encoding ropensci tabulizer

2021-01-13T07:29:40.613

0 投票

2 回答

168 浏览

r - 下载 NOAA 数据

我正在尝试使用 rnoaa 包下载 NOAA 数据，但遇到了一些麻烦。

我从数据框中获取了一个向量，它看起来像这样：

抓取必要的列

这给了我这样的输出：

实际上，我有大约 22,000 个气象站。这只是显示前 50 个。

核酸编码

这会产生以下错误： Error: Request-URI Too Long (HTTP 414)

但是，当我将 df 子集为前 100 个条目时，我无法获取超过前 25 个的数据。但是，包详细信息表明我应该能够每天运行 10,000 个查询。

循环尝试

但这只是产生单行的数据框，该行是第 125 个气象站。

如果有人可以就下一步尝试什么提供建议，那就太好了:)

此外，交叉链接：https ://discuss.ropensci.org/t/rnoaa-getting-county-level-rain-data/2403

r noaa ropensci rnoaa

2021-03-16T13:36:42.480

0 投票

2 回答

201 浏览

r - 如何使用 rgbif 一次从多个多边形下载发生数据？

我正在尝试使用 R 包从多个区域下载多个分类群的出现数据rgbif。我更喜欢通过将所有区域组合在一起来进行一次下载（因为我有数千个区域，单独下载会很疯狂）。但是，我没有找到这样做的方法。我可以occ_download为每个查询做一个区域。

这是我的示例代码：

从我的GBIF下载中心，它说“下载请求不成功。”。

有人能帮忙吗？谢谢！

r ropensci

2021-04-02T17:12:08.070

0 投票

0 回答

86 浏览

r - 将扫描的 PDF 转换为可搜索的 PDF（在 R 中）

tesseract我正在尝试使用andpdftools包将一系列扫描的 PDF 转换为可搜索的 PDF 。我已经完成了两个步骤。现在我需要写回可搜索的pdf。

阅读扫描的 PDF
运行 OCR
写回可搜索的 PDF

或者，我可以在 R for Windows 中调用另一个包或命令行工具吗？

r pdf tesseract pdftools ropensci

2021-09-01T21:56:42.760

0 投票

1 回答

34 浏览

r - 无法在 R 中安装包 rmetadata

我的主要目标是使用标题和期刊名称提取文章的元数据。为此，rmetadata根据博客，包很有用https://ropensci.org/blog/2013/03/15/r-metadata/。但是，我无法使用该install_github()功能安装软件包。有什么帮助吗？谢谢！

r metadata article ropensci

2022-01-02T23:07:34.133

1 2 3 4 5 6 7 8 9 10

问题标签 [ropensci]

抓取必要的列

核酸编码

循环尝试

Reference