0

第一次尝试使用 python,经过一天的谷歌搜索,我的老大脑更加难过。

我已经使用 pycurl 通过 ntlm 代理和抓取页面记录,然后使用 beautifulsoup 来美化结果。

我想从美化输出中提取 3 个值并将它们存储为变量。该页面是动态生成的,因此它们在页面上的位置不断变化。这 3 个标签仅在页面上出现一次,并且与它们各自的值相比,它们的位置是恒定的。

如何从美化输出中提取 Value1、Value2 和 Value3 并将它们存储为变量。

这 3 个 oneliners 是我在 python 中需要做的。

grep -A 3 "Label1" prettify.txt | tail -n 1 |awk '{打印 $1}'

grep "Label2" prettify.txt | awk '{打印 $3}'

grep -B 4 "Label3" prettify.txt | awk '{print $1}' RS=[ FS=] | 尾-n 1

提取物 1

   <b>
    <font color="Red">
     Label1
    </font>
    <font color="blue">
     Value1
    </font>
   </b>
   <br />
   Label2: Value2
   <br />

提取物 2

    <li>
     <font color="green">
      [value3]
     </font>
     <font color="red">
      Label3
     </font>
    </li>
4

1 回答 1

0

在卷曲页面之前,我已经完成了一些骇人听闻的编码,然后在元组中使用了 find 函数,以便从其余内容中删除数据。如:

resultant_value = result[result.find(beginning_location):result.find(ending_location)]

变量beginning_locationending_location可以是值的开头和结尾处的某些唯一指示符,以便将其剥离并放入变量resultant_value中。希望我的骇人听闻的方法在某种程度上有所帮助!

于 2012-01-19T04:03:30.503 回答