string - R中的子集HTML字符串以删除日期

Question

我正在尝试从我从网上抓取的 .txt 文件中的字符行中提取日期；日期总是在同一行，后面跟着相同的 HTML，但是日期本身会随着每个文本而变化。下面演示了来自两个 .txt 文件的代码的两个示例。

"17"        <div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>
"17"    "<div align=\"center\"><br /><font face=\"Times New Roman\" size=\"3\"><b>Tuesday, 10 February 2009</b></font>"

xpathSApply() 不起作用，因为我将它们作为 .txt 文件作为字符读取到 R 中；关于如何最好地提取它的任何想法？谢谢！

score 0 · Accepted Answer

这有点傻，但如果标签<b>只</b>在您的数据中出现一次，则可以使用。

如果不是这种情况，您可以尝试更改以下下标：

x <- "<div align=\\center\\><br /><font face=\\Times New Roman\\ size=\\3\\><b>Tuesday, 3 February 2009</b></font>"

strsplit(strsplit(x, "<b>")[[1]][2], "</b>")[[1]][1]

一个向量化的形式如下：

sapply(strsplit(sapply(strsplit(x, "<b>"), function(y) y[2]), "</b>"), function(y) y[1])

如果 x 是字符类型的向量。

string - R中的子集HTML字符串以删除日期

1 回答 1

Related

Reference