到目前为止,我正在使用并curl
提取网页的某些部分,例如....content .... 我想忽略所有其他标题(例如,,)。除了我现在这样做的方式真的很慢。w3m
sed
<body>
</body>
<a></a>
<div></div>
curl -L "http://www.somewebpage.com" | sed -n -e '\:<article class=:,\:<div id="below">: p' > file.html
w3m -dump file.html > file2.txt
上面这两行真的很慢,因为curl
是首先将整个网页保存到一个文件中并对其进行短语化,然后对其进行w3m
短语化并将其保存到另一个文件中。我只想简单地编写这段代码。我想知道是否有一种方法lynx
可以hmtl2text
让您提取具有指定标题的网页内容。就像我想从网页(www.badexample.com <---实际上不是链接)中提取一些内容一样:
<title>blah......blah...</title>
<body>
Some text I need to extract
</body>
more stuffs
是否有一个程序可以指定提取内容的参数?所以我会指定someprogram <body></body> www.badexample.com
它只会提取那些标题中的内容?