javascript - 批量导出 html 页面的特定部分

Question

首先，作为用户，我是社区的新手，我想说这是一个很棒的社区。

我的问题是，我想从一个<a href=""元素中获取一个 URL，使用<alt="new">该部分中使用的图像的名称，该图像的名称<td>来自一个每天都在变化且不属于我的网页。

到目前为止，我已经编写了一些代码来将页面下载wget到文本文件中，然后搜索图像或 alt 变量。即使它给我带来了搜索项目存在的部分，它也不包括<a href我需要的位于图像之前的部分。

编辑：我设法得到下面的行，我只需要使用批处理获取 url，或者使用 javascript 重定向到它，但是由于标题和 url 发生了变化，这很有挑战性。有什么帮助吗？

<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>

score 0 · Accepted Answer

如果我正确地理解你，你想从包含的 HTML 文件链接中获取<a href=""？我想到的第一个解决方案是下载整个 HTML 并使用 python 和 BeautifulSoup 库来解析这个文件并获取所有'hrefs'。你是这个意思吗？

score 0 · Accepted Answer

使用您提供的代码：

set "x=<td width="150" align="left" valign="top"><a href="SOMEURL" title="SOMETITLE"><b><u>"SOMETEXT"</u></b></a>"

set "x=%x:<=%"              & :: Remove Redirection Character
set "x=%x:>=%"              & :: Remove Redirection Character
set x=%x:*href=%            & :: Remove everything up till href=
set x=%x:~2%                & :: Trim ="
set x=%x:"='%               & :: Replace Double Quotes with Single Quotes
set "x=%x:' =" & rem %      & :: Remove everything after URL

echo %x%

注意双引号，它们对于删除 html 标记分隔符<和至关重要>，因为它们是重定向字符，除非被双引号括起来，否则会导致错误。

您可以将上面的代码直接复制粘贴到命令提示符中进行测试。

javascript - 批量导出 html 页面的特定部分

2 回答 2

Related

Reference