0

我正在尝试从我从网上抓取的 .txt 文件中的字符行中提取日期;日期总是在同一行,后面跟着相同的 HTML,但是日期本身会随着每个文本而变化。下面演示了来自两个 .txt 文件的代码的两个示例。

"17"        <div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>
"17"    "<div align=\"center\"><br /><font face=\"Times New Roman\" size=\"3\"><b>Tuesday, 10 February 2009</b></font>"

xpathSApply() 不起作用,因为我将它们作为 .txt 文件作为字符读取到 R 中;关于如何最好地提取它的任何想法?谢谢!

4

1 回答 1

0

这有点傻,但如果标签<b></b>在您的数据中出现一次,则可以使用。

如果不是这种情况,您可以尝试更改以下下标:

x <- "<div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>"

strsplit(strsplit(x, "<b>")[[1]][2], "</b>")[[1]][1]

一个向量化的形式如下:

sapply(strsplit(sapply(strsplit(x, "<b>"), function(y) y[2]), "</b>"), function(y) y[1])

如果 x 是字符类型的向量。

于 2013-03-15T21:39:21.030 回答