0

首先,作为用户,我是社区的新手,我想说这是一个很棒的社区。

我的问题是,我想从一个<a href=""元素中获取一个 URL,使用<alt="new">该部分中使用的图像的名称,该图像的名称<td>来自一个每天都在变化且不属于我的网页。

到目前为止,我已经编写了一些代码来将页面下载wget到文本文件中,然后搜索图像或 alt 变量。即使它给我带来了搜索项目存在的部分,它也不包括<a href我需要的位于图像之前的部分。

编辑:我设法得到下面的行,我只需要使用批处理获取 url,或者使用 javascript 重定向到它,但是由于标题和 url 发生了变化,这很有挑战性。有什么帮助吗?

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>
4

2 回答 2

0

如果我正确地理解你,你想从包含的 HTML 文件链接中获取<a href=""?我想到的第一个解决方案是下载整个 HTML 并使用 python 和 BeautifulSoup 库来解析这个文件并获取所有'hrefs'。你是这个意思吗?

于 2012-09-25T20:49:42.243 回答
0

使用您提供的代码:

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

注意双引号,它们对于删除 html 标记分隔符<和至关重要>,因为它们是重定向字符,除非被双引号括起来,否则会导致错误。

您可以将上面的代码直接复制粘贴到命令提示符中进行测试。

于 2012-09-27T05:11:28.903 回答