1

我对 R 相当陌生,需要一些帮助来(提取和)将文件名和属性与从多个 xml 文件(大约 200 个)中提取的数据组合起来,然后将其转换为数据框。

我正在使用以下脚本来选择 xml 文件,提取数据并将其转换为数据框(并且正在正常工作):

library(XML)
library(plyr)

# Select multiple xml files within directory
FileName <- list.files(pattern = "xml$",
                       ignore.case=TRUE,
                       full.names = FALSE)

# Create function to extract data
RI_ID <-function(FileName) {
  doc1 <- xmlParse(FileName) 
  doc <- xmlToDataFrame(doc1["//ObjectList[@ObjectType='pkg']/o"], )
} 

# Convert to dataframe
T1 <- ldply(FileName,RI_ID)

# Rename columns
names(T1)[names(T1) == "a"] <- "UniqueInstallationPackageID"
names(T1)[names(T1) == "b"] <- "PackageVersion_Latest"

# Convert to numeric
FieldToNumeric <- c("UniqueInstallationPackageID", "PackageVersion_Latest")
T1[,FieldToNumeric] <- lapply(T1[,FieldToNumeric], as.numeric)

我想(并且需要一些帮助):

  • 提取 xml 文件的修改日期,因为它出现在 Windows 资源管理器中;
  • 包括文件名以及修改日期作为最终数据框的一部分。

我已经审查了以下两个来源,但在实施它们方面没有任何成功:

由于保密协议,我无法分享 xml 文件的示例,但如果需要,可以重命名节点等并提交。感谢您的帮助。

4

1 回答 1

0

只需调整RI_ID方法以检索这两条信息(使用file.infoFileName变量修改的日期/时间)并将这些值绑定到 xml 数据框的新列中。下面transform()允许使用逗号分隔的分配将列添加到数据框中:

# Create function to extract data
RI_ID <-function(FileName) {
  doc <- xmlParse(FileName) 
  df <- transform(xmlToDataFrame(doc["//ObjectList[@ObjectType='pkg']/o"]),
                  file_name = FileName,
                  file_modified = file.info(FileName)$mtime)
} 
于 2021-02-11T15:35:26.683 回答