url - 如何从 SAS URL 访问方法中删除 HTML？

Question

使用 SAS URL 访问方法读取网页时，去除所有 HTML 标签最方便的方法是什么？

score 4 · Accepted Answer

这应该做你想要的。删除 <> 之间的所有内容，包括 <> 并只留下内容（也称为 innerHTML）。

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;

score 0 · Accepted Answer

我认为方法不是从页面中删除 HTML，而是确定您尝试捕获的数据的标准模式。这是 perl / 正则表达式类型方法。

一个例子可能是一些数据或表格，在徽标图像之后有很多字符。您可以编写一个脚本来仅保留数据。

如果您想发布一些 html，也许我们可以帮助对其进行解码。

url - 如何从 SAS URL 访问方法中删除 HTML？

2 回答 2

Related

Reference