问题标签 [ff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 ff 对象中组合因子水平
我经常使用cut()
. 因为cut()
不明白时钟时间大约为零,所以我首先将时间分为三组(白天的任一侧的夜晚),然后合并两个“夜晚”因子水平。这可以通过将相同的“夜间”值两次赋予 来完成levels()
。例如
现在我正在尝试对ff
对象中的巨大数据集做同样的事情:
请注意,在这种情况下,levels()
保留了三个因子水平,其中两个具有相同的标签。recodeLevels
看起来很有希望,但并不完全一样:
我也尝试过cut()
(实际上cut.ff()
)内重复的“夜间”标签,但它仍然返回三个级别,加上一个警告,即不推荐使用因子中的重复级别。
谢谢你的建议。
r - 将日期拆分为 R 中 ffdf 数据的日期、月份和年份
我正在使用带有名为,的对象的 Rff
包。我正在尝试将变量 Date 拆分为 Day、Month 和 Year 并将这 3 个变量添加到现有数据中。ffdf
MyData
(dim=c(10819740,16))
ffdf
MyData
例如:我的日期列在我更改SalesReportDate
为.VirtualVmode
PhysicalVmode = double
SalesReportDate
as.date(,format="%m/%d/%Y")
的例子SalesReportDate
如下:
我已经将日期拆分为年、月和日的不同列,并尝试应用它,但不断收到错误警告。
那么,我有什么办法可以做到这一点吗?提前致谢。
r - 在大型数据集上计算多个固定效应
我正在尝试对包含超过 4000000 行的 CSV 数据集中的两个因子变量执行固定效应回归。这些变量可以分别假设大约 140000 和 50000 个不同的整数值。
我最初尝试在具有 8 Gb 内存的 Linux 机器上使用 R 的 biglm 和 ff 包执行回归,如下所示;但是,这似乎需要太多内存,因为 R 抱怨必须分配一个大小大于我机器上最大值的向量。
一些在线研究表明,由于因子是由 ff 加载到内存中的,如果存在许多因子值,后者不会显着提高内存使用率。
有没有人知道其他方法可以在我描述的数量级的数据集上执行上述回归,而不必求助于内存明显更多的机器?
r - R 带有 ff 和 FSelector 包
我有一个 1360x92735 的 csv 数据集,我必须使用 R 的 FSelector 包(information.gain())来降低维数,但它需要大量内存。
我的问题是,我可以将 ff 包与 FSelector 结合使用吗?如果是,如何?
ps 我在 Linux 上有 8GB 的内存和 8GB 的交换空间。
谢谢。
[编辑]
我尝试将 ff 和 FSelector 包与 iris 数据集一起使用。它似乎运作良好,但现在我遇到了 ff 的问题。
我的 csv 数据集是 1303x92735,当我尝试使用 ff 对象使用 as.ffdf() 转换数据帧,或使用 read.csv.ffdf() 直接加载数据集时,R 会因“写入错误”而崩溃。
这里有人有同样的问题,但我不明白是否达到了解决方案。
谢谢。
r - 字符向量作为 R 中的 ff 对象
我正在尝试将标准(RAM)字符向量转换为 ff 对象(向量)。下面的代码返回一个错误:
该线程(https://stackoverflow.com/questions/17744525/r-difficulties-facing-with-read-csv-ffdf-physicalmode-and-virtualmode)表明 ff 对象根本不接受字符,只有因素。不过,以下内容不起作用:
下面的列表不包括“因素”:
那么是否有可能创建一个 ff 字符向量?
r - 在 R 中使用 ffdfwith 的操作
我正在使用 ff 和 R,因为我有一个庞大的数据集(大约 16 GB)可以使用。作为一个测试用例,我让文件读取大约 1M 条记录并将其写为 ff 数据库。
我在这里上传了结果文件(te3):http: //bit.ly/1c8pXqt
我试图做一个简单的计算来创建一个新变量
我收到以下错误(没有丢失的记录),这让我很困惑:
任何见解将不胜感激。此外,与 FF 相关,是否可以在 FF 数据库中使用标准 R 包,例如 MCMC(我需要使用反伽马函数)?
TIA,
克里希南
r - 在 R 中合并 ffdf 数据帧
我需要保存在列表中的 ffdf 数据帧的外连接。已经检查过这个,但它指的是不同的问题。RAM 对象的示例代码:
所需的结果如下所示:
不过,只要我将数据帧转换为 ffdf,我就会收到错误消息
任何已知的解决方法?提前谢谢了。
r - 使用 ff 包进行线性回归
我正在使用 ff 包在 R 中进行线性回归。这里 tt 是 as.ffdf 对象。代码如下:
但是,我收到以下错误:
如何预先创建 fit 作为 ff 对象,以便 fit 可以吸收返回给它的整个数据?谢谢。
r - R bigglm ffdf 返回与大小相关的错误
我正在尝试ffdf
使用bigglm.ffdf
ffbase 运行逻辑回归模型,但出现错误:
关于代码有什么问题的任何见解?提前谢谢了。
编辑: ram 对象按预期运行:
r - R中的FF:'recodeLevels'没有适用的方法
我正在尝试使用 read.csv.ffdf 将一个巨大的(~5GB).csv 文件加载到 R 中。命令如下:
该命令运行了一段时间,然后抛出以下错误:“没有适用于 'recodeLevels' 的方法应用于类“c('double','numeric')的对象。”一些搜索告诉我我需要使用 transFUN选项,但我不知道如何应用它。数据是文本和数字,我认为这可能会导致问题。如果有帮助,我可以上传 csv 的屏幕截图,但在 LibreOffice 中打开需要很长时间。
有谁知道什么技巧?