使用 SAS URL 访问方法读取网页时,去除所有 HTML 标签最方便的方法是什么?
问问题
1590 次
2 回答
4
这应该做你想要的。删除 <> 之间的所有内容,包括 <> 并只留下内容(也称为 innerHTML)。
Data HTMLData;
filename INDEXIN URL "http://www.zug.com/";
input;
textline = _INFILE_;
/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);
run;
于 2009-06-08T23:24:31.110 回答
0
我认为方法不是从页面中删除 HTML,而是确定您尝试捕获的数据的标准模式。这是 perl / 正则表达式类型方法。
一个例子可能是一些数据或表格,在徽标图像之后有很多字符。您可以编写一个脚本来仅保留数据。
如果您想发布一些 html,也许我们可以帮助对其进行解码。
于 2009-06-08T22:28:49.460 回答