问题标签 [read.fwf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:如何读取固定宽度的数据文件,其中数据连接成两组,堆叠在一个文件的顶部
希望标题有意义。
本质上,一个文件中有两个数据集。
第 1 行包含数据集 1 的标题,按 loc 排列。然后第 2-1500 行是这些位置的条目。
第 1501 行是 dataset2 的标题,按 loc 排列。然后第 1502-3001 行是这些位置的条目。
如何读取具有这些属性的固定文件,为每个数据集提供标题间距(以及 dataset2 开始的点)。
r - 使用 R 从存储库导入 .dat 文件
我想将此数据集导入到df
. 我正在尝试使用read.fwf
方法将此 SAS 支持文件转换为 R 代码
如 SAS 文件中所述定义变量名称和长度
从网上检索 DF
可视化 DF
老实说,我不相信这个DF。我得到太多NAs
在@42-启发答案之后更新。更快的方式
我使用库轻松改进了我的代码SAScii
并且它可以工作。但是,我在这里发现了一些更快且系统费用更低的东西。
r - R将行分隔为由开始和结束指定的列
我想将由字符串组成的数据集拆分为由 start 和 end 指定的列。
我的数据集看起来像这样:
我想通过使用数据字典指定我的列来拆分它:
所以它变成:
实际上,数据来自长期运行的调查,一些列之间的空白代表不再收集的变量。它有很多变量,所以我需要一个可以扩展的解决方案。
tidyr::separate
看起来您只能通过指定要拆分的位置来拆分,而不是开始和结束位置。有没有办法使用开始/结束?
我想过这样做,read_fwf
但我似乎无法在我已经加载的数据集上使用它。我只能通过首先导出为 txt 然后从该 .txt 中读取来使其工作:
是否可以read_fwf
在已加载的数据集上使用?
r - 如何正确读取定宽格式文件
R 和 R Studio 相对较新,我正在尝试重新格式化文本文件以对其中的数据进行一些分析。我目前正在尝试使用 read.fwf 来整理数据,但似乎做错了什么,导致各种错误。我试图通过参考资料/指南来解决这些问题,但仍然很困难。有什么建议么?(代码、文本文件中的信息示例以及所需的格式如下)。
当前代码:
文本文件示例:
W02000103311701021610061031206057054056013054096054015053015038 W02000103311701021606055024403039038084005121 W02000103311701021609067028505040038054013065104062012064 W02000103311701021705073004302024043019 W02000103311701021710066045606055070075015088094085018086018067 W02000103311701021710080044706052069075015087096083018085018065 W02000103311701021805076007402034056040 W02000103311701021805076004802025043023 W02000103311701021905077002402010051014 W02000103311701021905072004702026042021 W02000103311701021906044020303068053067015068 W02000103311701022006066014803057045049014042 W02000103311701022006053012903058041038014033 W02000103311701022005060003702020043017 W02000103311701022006063009503046047023014026 W02000103311701022105072006602036060030 W02000103311701022206068017703045050059015073W02000103311701022305065006902033037036 W02000103311701030005066008802032038056 W02000103311701030305066008202037063045
所需的数据格式:
问题:
r - 将固定宽度的数据集加载到 R 中,丢失一半的列
我正在导入一个 .txt 固定宽度数据集,在 R 中有 16 列,并且在读取时丢失了大约一半的列。
难以创建可复制的数据,但下面有一些 ss/snippets:
快速查看下面的数据。第一个屏幕截图显示了数据文件的上半部分。第一列是列名,第二列只是破折号(我用它们的长度来计算列的固定宽度)。
当我查看 .txt 文件时,显示所有列名,但仅显示列中的前半部分值。向下滚动数据的一半,显示列值的后半部分。我认为这是一个显示问题。但是,将数据读入 R 时,我看到了同样的情况。
结果数据仅提取列值的前半部分。
[结果读取数据][1]
任何帮助表示赞赏!很高兴根据需要澄清。
r - R:读取缺少最后一列的 fwf 文件
我正在尝试使用readr
's解析固定宽度的 .txt 文件read_fwf
。大约有 150 万个观测值和大约 150 万个观测值。其中 550 个缺少 60 个变量中的最后 25 个。这种遗漏会导致对这些观察结果所具有的最终变量(下例中的“描述”)的不完美解析,并使数据框没有这些部分填充的列。
例如,
col_types
是一行 60 个'c'
符号的字符串,因此所有列都作为字符读入。fwf_widths
并且fwf_names
是建议的列宽和列标题的适当规范。
我知道,通过在 df 的最后一列中缺少值,我违反了文档的“固定宽度”性质。
有没有办法可以 1)read_fwf
保留这些部分填充的行?2) 如果不是,我如何读取这个 txt 文件,因为它的 99% 可以根据正常的 FWF 进行解析?
r - readr read_fwf 奇怪的解析错误:embedded null
我正在尝试用来readr::read_fwf
读入 .txt 文件。我知道所有的列宽,但我收到了这个解析错误,我不知道如何解决:
我试过添加trim_ws = T
哪个不能消除错误。我查看了实际内容,df[372722, ]
它看起来description
包含正确的内容。有人可以帮我解释什么 embedded null
意思以及我可以如何处理这个问题吗?
r - 如何一次读取多个 txt 文件并使用 R 合并为一个 df?
我有 160 个文本文件,它们都具有相同的数据列,但没有标题。没有分隔符,所以我必须使用 read.fwf,我可以使用以下代码一次读取一个:
但是这样做 160 次并不理想,所以我试图一次将它们全部放入以绑定它们。到目前为止,这是我的代码:
我不断收到错误,并且 fn 没有设置任何内容,应该是吗?任何建议表示赞赏并欢迎提前谢谢您。
r - R中是否有一个函数来分隔没有分隔符的.txt文件?
我获得了一个 .txt 格式的数据集,我需要将其导入 R 进行研究分析。.txt 文件有一列带有数字字符,没有标题,也没有分隔符。以下是 .txt 文件中的几个示例:
4878578572809275874037093859845083594859474905704627402739385785748756 0934893758795493758745846784678576857458708476968983984980985974687586 3989458476857609379087685796847586770493706759787398499485957658968590
我想知道如何根据变量在 R 中分离这些字符。因此,我想将前 3 个数字用于变量 1,接下来的 5 个数字用于变量 2,接下来的 2 个数字用于变量 3,依此类推。
是否有我可以在 R 中使用的表达式,它允许我根据每个变量所需的字符数来分隔 .txt 文件中的观察结果?
我试过 read.fwf 但没有用。或者,也许我尝试不正确。
对此问题的帮助将不胜感激!
python - 解析固定宽度的文件的一部分
我有一个前半部分固定宽度的文件,后半部分用“,”分隔的表格。当我复制文件的一部分并另存为另一个文件时,python 函数 pandas.read_fwf(file_path) 可以完美地工作,因为 read_fwf 可以推断列长度。
但是,当我尝试使用 read_fwf(file_path, skiprows = 2, nrows = 75) 仅读取输入文件的固定宽度部分时,它不能正确推断列,而只是返回一个包含 1 列的 DataFrame。
是否有任何解决方法或解决方案