-5

使用 SAS URL 访问方法读取网页时,去除所有 HTML 标签最方便的方法是什么?

4

2 回答 2

4

这应该做你想要的。删除 <> 之间的所有内容,包括 <> 并只留下内容(也称为 innerHTML)。

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;
于 2009-06-08T23:24:31.110 回答
0

我认为方法不是从页面中删除 HTML,而是确定您尝试捕获的数据的标准模式。这是 perl / 正则表达式类型方法。

一个例子可能是一些数据或表格,在徽标图像之后有很多字符。您可以编写一个脚本来仅保留数据。

如果您想发布一些 html,也许我们可以帮助对其进行解码。

于 2009-06-08T22:28:49.460 回答