第一次尝试使用 python,经过一天的谷歌搜索,我的老大脑更加难过。
我已经使用 pycurl 通过 ntlm 代理和抓取页面记录,然后使用 beautifulsoup 来美化结果。
我想从美化输出中提取 3 个值并将它们存储为变量。该页面是动态生成的,因此它们在页面上的位置不断变化。这 3 个标签仅在页面上出现一次,并且与它们各自的值相比,它们的位置是恒定的。
如何从美化输出中提取 Value1、Value2 和 Value3 并将它们存储为变量。
这 3 个 oneliners 是我在 python 中需要做的。
grep -A 3 "Label1" prettify.txt | tail -n 1 |awk '{打印 $1}'
grep "Label2" prettify.txt | awk '{打印 $3}'
grep -B 4 "Label3" prettify.txt | awk '{print $1}' RS=[ FS=] | 尾-n 1
提取物 1
<b>
<font color="Red">
Label1
</font>
<font color="blue">
Value1
</font>
</b>
<br />
Label2: Value2
<br />
提取物 2
<li>
<font color="green">
[value3]
</font>
<font color="red">
Label3
</font>
</li>