1

使用 R Server,我想从Azure Data Lake中简单地读取原始文本(如基中的 readLines) 。我可以像这样连接并获取数据:

library(RevoScaleR)

rxSetComputeContext("local")

oAuth <- rxOAuthParameters(params)
hdFS <- RxHdfsFileSystem(params)

file1 <- RxTextData("/path/to/file.txt", fileSystem = hdFS)

RxTextData一旦执行了该行,它实际上并没有去获取数据,它更像是一个符号链接。当你运行类似的东西时:

rxSummary(~. , data=file1)

然后从数据湖中检索数据。但是,它始终被读入并被视为分隔文件。我想要:

  1. 下载文件并使用 R 代码将其存储在本地(最好不要)。
  2. 使用某种readLines等价物从中获取数据,但以“原始”形式读取数据,以便我可以进行自己的数据质量检查。

这个功能还存在吗?如果是这样,这是如何完成的?

编辑:我也试过:

returnDataFrame = FALSE

里面RxTextData。这将返回一个列表。但正如我所说,数据不会立即从数据湖中读取,直到我运行类似的东西rxSummary,然后尝试将其作为常规文件读取。

上下文:我有一个“坏”的 CSV 文件,其中包含双引号内的换行符。这会导致 RxTextData 中断。但是,我的脚本会检测到这些事件并相应地修复它们。因此,我不希望 RevoScaleR 读取数据并尝试解释分隔符。

4

2 回答 2

1

我通过调用 Azure Data Lake Store REST API 找到了一种方法(改编自 Hadley Wickhamhttr在 GitHub 上的包中的演示):

library(httpuv)
library(httr)

# 1. Insert the app name ----
app_name <- 'Any name'

# 2. Insert the client Id ----
client_id <- 'clientId'

# 3. API resource URI ----
resource_uri <- 'https://management.core.windows.net/'

# 4. Obtain OAuth2 endpoint settings for azure. ----
azure_endpoint <- oauth_endpoint(
    authorize = "https://login.windows.net/<tenandId>/oauth2/authorize",
    access = "https://login.windows.net/<tenandId>/oauth2/token"
    )

# 5. Create the app instance ----
myapp <- oauth_app(
  appname = app_name,
  key = client_id,
  secret = NULL
  )

# 6. Get the token ----
mytoken <- oauth2.0_token(
    azure_endpoint, 
    myapp,
    user_params = list(resource = resource_uri),
    use_oob = FALSE,
    as_header = TRUE,
    cache = FALSE
    )

# 7. Get the file. --------------------------------------------------------
test <- content(GET(
      url = "https://accountName.azuredatalakestore.net/webhdfs/v1/<PATH>?op=OPEN",
      add_headers(
        Authorization = paste("Bearer", mytoken$credentials$access_token),
        `Content-Type` = "application/json"
        )
  )) ## Returns as a binary body.

df <- fread(readBin(test, "character")) ## use readBin to convert to text.
于 2017-02-16T11:04:59.537 回答
1

你可以用这样的 ScaleR 函数来做到这一点。将分隔符设置为数据中未出现的字符,并忽略列名。这将创建一个包含单个字符列的数据框,您可以根据需要对其进行操作。

# assuming that ASCII 0xff/255 won't occur
src <- RxTextData("file", fileSystem="hdfs", delimiter="\x255", firstRowIsColNames=FALSE)

dat <- rxDataStep(src)

尽管 Azure Data Lake 确实是用来存储大数据集的,而且这个似乎足够小以适合内存,但我想知道为什么不能将它复制到本地磁盘....

于 2017-02-16T12:25:25.630 回答