问题标签 [read.fwf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何解析与 R 具有一致间距的对话行的电影脚本?
'''
''''
我正在抓取一些我想要进行文本分析的脚本。我只想从脚本中提取对话,看起来它有一定的间距。例如,我想要那行“嘿——对不起。”。我知道间距是 20,这在整个脚本中是一致的。所以我怎么才能只读那一行,其余的行间距相等?
我想说我要使用read.fwf,读取一个固定的宽度。
你们有什么感想?
我正在从这样的网址中抓取: https ://imsdb.com/scripts/10-Things-I-Hate-About-You.html
r - R:read.fwf 将整数定义为数字
我有一个 .txt 文件并且正在使用 Rstudio。
我正在尝试使用 read.fwf 读取 .txt 文件:
这可行,并且列的长度正确。然而,“einst”和“bu”应该是整数值,其余的应该是日期。
导入第一列(ID 变量)中的所有值时,如下所示:
我一直在尝试寻找将导入的列更改为整数(或字符?)值的方法,但我没有发现任何不会导致错误的内容。一个例子,我在谷歌之后尝试过:
导致错误:
数据集中有许多超过 100.000 行的缺失值。所以其他导入方式对我不起作用。数据集不是制表符分隔的。
对不起,如果这很明显,我是一个非常新的 R 用户。
编辑:
感谢您的帮助,我将其更改为:
现在看起来不错。
r - R中read.fwf的一些问题
我正在尝试打开一个固定宽度的大型文件,但不幸的是,函数 read.fwf 似乎非常耗时。由于我必须使用大型数据集,我会知道是否有其他解决方案可以节省时间,或者是否没有解决方案。
就我而言,要打开一个大约 60 万的文件,我使用以下代码:
大约需要 12 分钟。
由于我不需要数据库中的所有列,因此我尝试删除其中一些列:
我节省了一些时间(6 分钟),但该过程仍然过于耗时,因为我必须处理超过 200 万行的许多数据集。