问题标签 [ropensci]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为什么 R 中的 textreuse packge 使 LSH 存储桶比原始 minhashes 大得多?
据我了解,LSH 方法的主要功能之一是数据减少,甚至超出了底层哈希(通常是 minhashes)。我一直textreuse
在 R 中使用这个包,我对它生成的数据的大小感到惊讶。textreuse
是一个经过同行评审的ROpenSci包,所以我认为它可以正确地完成它的工作,但我的问题仍然存在。
假设我分别为我的 minhash 和 LSH 函数使用 256 个排列和 64 个波段 - 通常用于检测相对确定性(~98%) 相似性低至 50% 的实际值。
如果我使用 (256 perms) 散列一个随机文本文件TextReuseTextDocument
并将其分配给trtd
,我将拥有:
现在让我们为这个对象(64 个波段)创建 LSH 存储桶并将其分配给l
,我将拥有:
因此,LSH 存储桶中保留的哈希值是原始 minhashes 的六倍。我理解这是因为textreuse
使用 md5 摘要来创建存储桶哈希。
但这不是太浪费/矫枉过正,我不能改进它吗?我们的数据缩减技术最终膨胀到这种程度是否正常?根据原始哈希(类似于 perms = 256 和bands = 256)匹配文档然后使用阈值清除误报不是更有效吗?
请注意,我已经查看了诸如Mining of Massive Datasets之类的典型文本,但这个问题仍然是关于这个特定实现的。另请注意,这个问题不仅出于好奇,而且出于需要。当您拥有数百万或数十亿个哈希值时,这些差异就会变得很重要。
r - 从 osm 搜索中仅返回非缺失值
我试图只获取从 osmdata 返回的非 na 值。例如,获取电子邮件地址。但是,以下返回的大多是丢失的电子邮件。如何设置查询以使其仅返回非缺失值...value = "!null"
也不起作用。
r - 是否有任何 R 函数可以从物种分类 ID/物种名称或属名称中提取所有分类名称(门、类、目、科……)?
我有物种的分类 ID,我可以从 NCBI ( https://www.ncbi.nlm.nih.gov/Taxonomy/TaxIdentifier/tax_identifier.cgi ) 获得物种和属名。但我想要这些数据中的门、类、顺序。
我尝试过taxize package,但不适用于大型数据集。
请问有什么建议吗?
r - 有什么方法可以将字符编码更改为等效的英文 IN R?
在 R 中,我使用 Tabulizer 库从 Pdf 表中提取数据,名称为尼泊尔语,提取后我获取此表 [1]:https ://i.stack.imgur.com/Ltpqv.png
但现在我希望第 2 列的名称更改为英文等效项
有没有办法在 R 中做到这一点
我写的 R 代码是
r - 下载 NOAA 数据
我正在尝试使用 rnoaa 包下载 NOAA 数据,但遇到了一些麻烦。
我从数据框中获取了一个向量,它看起来像这样:
抓取必要的列
这给了我这样的输出:
实际上,我有大约 22,000 个气象站。这只是显示前 50 个。
核酸编码
这会产生以下错误:
Error: Request-URI Too Long (HTTP 414)
但是,当我将 df 子集为前 100 个条目时,我无法获取超过前 25 个的数据。但是,包详细信息表明我应该能够每天运行 10,000 个查询。
循环尝试
但这只是产生单行的数据框,该行是第 125 个气象站。
如果有人可以就下一步尝试什么提供建议,那就太好了:)
此外,交叉链接:https ://discuss.ropensci.org/t/rnoaa-getting-county-level-rain-data/2403
r - 如何使用 rgbif 一次从多个多边形下载发生数据?
我正在尝试使用 R 包从多个区域下载多个分类群的出现数据rgbif
。我更喜欢通过将所有区域组合在一起来进行一次下载(因为我有数千个区域,单独下载会很疯狂)。但是,我没有找到这样做的方法。我可以occ_download
为每个查询做一个区域。
这是我的示例代码:
从我的GBIF下载中心,它说“下载请求不成功。”。
有人能帮忙吗?谢谢!
r - 将扫描的 PDF 转换为可搜索的 PDF(在 R 中)
tesseract
我正在尝试使用andpdftools
包将一系列扫描的 PDF 转换为可搜索的 PDF 。我已经完成了两个步骤。现在我需要写回可搜索的pdf。
- 阅读扫描的 PDF
- 运行 OCR
- 写回可搜索的 PDF
或者,我可以在 R for Windows 中调用另一个包或命令行工具吗?
r - 无法在 R 中安装包 rmetadata
我的主要目标是使用标题和期刊名称提取文章的元数据。为此,rmetadata
根据博客,包很有用https://ropensci.org/blog/2013/03/15/r-metadata/
。但是,我无法使用该install_github()
功能安装软件包。有什么帮助吗?谢谢!