我有一个data.frame
(dim: 100 x 1) 包含 url 链接列表,每个 url 看起来像这样:https:blah-blah-blah.com/item/123/index.do
。
该列表(该列表是一个名为 data.frame的 100 行和一个名为并且采用字符格式my_list
的单列)看起来像这样:col
$ col: chr
1 "https:blah-blah-blah.com/item/123/index.do"
2" https:blah-blah-blah.com/item/124/index.do"
3 "https:blah-blah-blah.com/item/125/index.do"
etc.
我正在尝试将这些 url 中的每一个导入 R 并将对象共同保存为与文本挖掘过程兼容的对象。
我知道如何手动成功转换每个网址(在列表中):
library(pdftools)
library(tidytext)
library(textrank)
library(dplyr)
library(tm)
#1st document
url <- "https:blah-blah-blah.com/item/123/index.do"
article <- pdf_text(url)
成功创建此“文章”文件后,我可以对其进行检查:
str(article)
chr [1:13]
它看起来像这样:
[1] "abc ....."
[2] "def ..."
etc etc
[15] "ghi ...:
从这里,我可以成功地将其保存为 RDS 文件:
saveRDS(article, file = "article_1.rds")
有没有办法同时对所有 100 篇文章执行此操作?也许有一个循环?
就像是 :
for (i in 1:100) {
url_i <- my_list[i,1]
article_i <- pdf_text(url_i)
saveRDS(article_i, file = "article_i.rds")
}
如果编写正确,它会将每篇文章保存为 RDS 文件(例如 article_1.rds、article_2.rds、...article_100.rds)。
那么是否可以将所有这些文章保存到一个rds
文件中?