73

我试图找到一种简单的方法来在 R 中使用类似 Perl 的散列函数(本质上是缓存),因为我打算同时进行 Perl 风格的散列并编写我自己的计算记忆。然而,其他人已经打败了我,并且有用于记忆的包。我挖掘的越多,我发现的越多,例如memoiseR.cache,但区别并不容易清楚。hash此外,除了使用似乎不支持这两个 memoization 包的包之外,还不清楚如何获得 Perl 样式的哈希(或 Python 样式的字典)并编写自己的 memoization 。

由于我找不到关于 CRAN 或其他地方的信息来区分这些选项,也许这应该是关于 SO 的社区 wiki 问题:R 中的记忆和缓存选项是什么,它们有什么区别?


作为比较的基础,这里是我找到的选项列表。另外,在我看来,这一切都依赖于散列,所以我也会注意散列选项。键/值存储有点相关,但打开了大量关于数据库系统的蠕虫(例如 BerkeleyDB、Redis、MemcacheDB 和其他许多)。

看起来选项是:

散列

  • 摘要- 为任意 R 对象提供散列。

记忆

  • memoise - 一个非常简单的函数记忆工具。
  • R.cache - 提供了更多的记忆功能,但似乎有些功能缺少示例。

缓存

  • hash - 提供类似于 Perl 的哈希和 Python 字典的缓存功能。

键/值存储

这些是 R 对象外部存储的基本选项。

检查点

其他

  • Base R 支持:命名向量和列表、数据框的行和列名称以及环境中的项目名称。在我看来,使用列表有点笨拙。(也有pairlist,但已弃用。)
  • data.table包支持快速查找数据表的元素。

用例

尽管我最感兴趣的是了解这些选项,但出现了两个基本用例:

  1. 缓存:简单的字符串计数。[注意:这不是 NLP 的,而是通用的,所以 NLP 库是矫枉过正的;表是不够的,因为我不想等到整个字符串集加载到内存中。Perl 风格的散列在实用程序的正确级别。]
  2. 记忆可怕的计算。

这些确实出现了,因为我正在研究一些 slooooow 代码的分析,我真的很想只计算简单的字符串,看看我是否可以通过记忆来加速一些计算。能够散列输入值,即使我不记忆,也会让我看看记忆是否有帮助。


注 1:CRAN Task View on Reproducible Research列出了几个包(cacherR.cache),但没有详细说明使用选项。

注意 2:为了帮助其他人寻找相关代码,这里对一些作者或包进行了一些注释。一些作者使用 SO。:)

  • Dirk Eddelbuettel:digest- 许多其他软件包都依赖于此。
  • Roger Peng: cacher, filehash, stashR- 这些以不同的方式解决不同的问题;有关更多软件包,请参见Roger 的网站
  • Christopher Brown:hash- 似乎是一个有用的软件包,但不幸的是,与 ODG 的链接已关闭。
  • Henrik Bengtsson:R.cache& Hadley Wickham:memoise——目前还不清楚何时更喜欢一种包装。

注 3:有些人使用 memoise/memoisation 其他人使用 memoize/memoization。如果您正在四处寻找,请注意。Henrik 使用“z”,Hadley 使用“s”。

4

3 回答 3

11

我没有运气,memoise因为它给我尝试过的包的某些功能带来了“递归太深”的问题。有了R.cache更好的运气。R.cache以下是我从文档中改编的更多注释代码。该代码显示了进行缓存的不同选项:

# Workaround to avoid question when loading R.cache library
dir.create(path="~/.Rcache", showWarnings=F) 
library("R.cache")
setCacheRootPath(path="./.Rcache") # Create .Rcache at current working dir
# In case we need the cache path, but not used in this example.
cache.root = getCacheRootPath() 
simulate <- function(mean, sd) {
    # 1. Try to load cached data, if already generated
    key <- list(mean, sd)
    data <- loadCache(key)
    if (!is.null(data)) {
        cat("Loaded cached data\n")
        return(data);
    }
    # 2. If not available, generate it.
    cat("Generating data from scratch...")
    data <- rnorm(1000, mean=mean, sd=sd)
    Sys.sleep(1) # Emulate slow algorithm
    cat("ok\n")
    saveCache(data, key=key, comment="simulate()")
    data;
}
data <- simulate(2.3, 3.0)
data <- simulate(2.3, 3.5)
a = 2.3
b = 3.0
data <- simulate(a, b) # Will load cached data, params are checked by value
# Clean up
file.remove(findCache(key=list(2.3,3.0)))
file.remove(findCache(key=list(2.3,3.5)))

simulate2 <- function(mean, sd) {
    data <- rnorm(1000, mean=mean, sd=sd)
    Sys.sleep(1) # Emulate slow algorithm
    cat("Done generating data from scratch\n")
    data;
}
# Easy step to memoize a function
# aslo possible to resassign function name.
This would work with any functions from external packages. 
mzs <- addMemoization(simulate2)

data <- mzs(2.3, 3.0)
data <- mzs(2.3, 3.5)
data <- mzs(2.3, 3.0) # Will load cached data
# aslo possible to resassign function name.
# but different memoizations of the same 
# function will return the same cache result
# if input params are the same
simulate2 <- addMemoization(simulate2)
data <- simulate2(2.3, 3.0)

# If the expression being evaluated depends on
# "input" objects, then these must be be specified
# explicitly as "key" objects.
for (ii in 1:2) {
    for (kk in 1:3) {
        cat(sprintf("Iteration #%d:\n", kk))
        res <- evalWithMemoization({
            cat("Evaluating expression...")
            a <- kk
            Sys.sleep(1)
            cat("done\n")
            a
        }, key=list(kk=kk))
        # expressions inside 'res' are skipped on the repeated run
        print(res)
        # Sanity checks
        stopifnot(a == kk)
        # Clean up
        rm(a)
    } # for (kk ...)
} # for (ii ...)
于 2014-07-31T10:52:46.000 回答
9

For simple counting of strings (and not using table or similar), a multiset data structure seems like a good fit. The environment object can be used to emulate this.

# Define the insert function for a multiset
msetInsert <- function(mset, s) {
    if (exists(s, mset, inherits=FALSE)) {
        mset[[s]] <- mset[[s]] + 1L
    } else {
        mset[[s]] <- 1L 
    }
}

# First we generate a bunch of strings
n <- 1e5L  # Total number of strings
nus <- 1e3L  # Number of unique strings
ustrs <- paste("Str", seq_len(nus))

set.seed(42)
strs <- sample(ustrs, n, replace=TRUE)


# Now we use an environment as our multiset    
mset <- new.env(TRUE, emptyenv()) # Ensure hashing is enabled

# ...and insert the strings one by one...
for (s in strs) {
    msetInsert(mset, s)
}

# Now we should have nus unique strings in the multiset    
identical(nus, length(mset))

# And the names should be correct
identical(sort(ustrs), sort(names(as.list(mset))))

# ...And an example of getting the count for a specific string
mset[["Str 3"]] # "Str 3" instance count (97)
于 2011-08-31T21:31:06.363 回答
4

@biocyperman 解决方案有关。R.cache 有一个包装函数,用于避免缓存的加载、保存和评估。查看修改后的功能:

R.cache 为加载、评估和保存提供了一个包装器。您可以像这样简化代码:

simulate <- function(mean, sd) {
key <- list(mean, sd)
data <- evalWithMemoization(key = key, expr = {
    cat("Generating data from scratch...")
    data <- rnorm(1000, mean=mean, sd=sd)
    Sys.sleep(1) # Emulate slow algorithm
    cat("ok\n")
    data})
}
于 2017-07-04T00:47:55.943 回答