所以我有以下格式的数据:
<Category: XXX -
或者
<Category: XXX</b>
我只想保留 'xxx',但只能保留 ('XXX','') 或 ('') 或其他不受欢迎的变体。
我不想使用漂亮的汤,我无法使用我的 anaconda 包管理器下载它
添加 - 我的尝试
'Category: ([^<]+)</b'
将产生 ['xxx'] 时
<Category: XXX</b>
'Category: ([^<]+) &n'
将产生 ['xxx'] 时
<Category: XXX
我想我做了类似的事情
'Category: ([^<]+)(</b| &n)'
产生了
[('XXX', '</b')]
或者
[('XXX', ' &nb')]