我有一堆通过文本挖掘一些 PDF 文档提取的 URL。现在我想测试 URLS 的有效性。某些 url 内部或附加了垃圾字符,或者 URL 被截断。一种方法是通过调用它们中的每一个来过滤它们。
为此,我使用 url.exists()
了 RCurl 包中的函数。该函数使用 curl 向 url 发出 HTTP HEAD 请求并检查状态代码。
从文档?url.exists
If ‘.header’ is ‘FALSE’, this returns ‘TRUE’ or ‘FALSE’ indicating
whether the request was successful (had a status with a value in
the 200 range).
我怎样才能让它为发出重定向的 url 返回 TRUE?重定向状态代码在 300 范围内。它们并不是真正的错误。
或者,还有更好的方法?获取实际状态代码并手动处理它们?我应该在这里使用系统命令吗?