0

我正在处理 html 文件。我想提取第 2 项之前和第 1a 项之后的文本(感谢您的帮助)。首先,我删除第二项 2 之后的文本。

text= """"""<this is an example this is Item&nbsp;2. A href="#106">Item&nbsp;1a. thanks for helping <B>Item&nbsp;2. Properties</B> this is an example this is Item&nbsp;2.stachoverflow"""

>>> a=re.search ('(?<=<B>)Item&nbsp;2\.',text)
>>> b = a.span()
>>> newText= text[:b[1]]
>>> c=newText.rfind("1a")
>>> (newText[c[1]:])

TypeError: 'int' object is not subscriptable

如何打印 c 之后的文本?

4

1 回答 1

0

如果您只是尝试打印输出,则尝试将 c 作为数组访问 - 它是一个索引。所以要打印 c,它就是 (newText[c:])。

但是,您的搜索也不正确,因为您需要 newText= text[:b[0]],而不是 1。

于 2013-07-31T01:41:23.243 回答