我目前正在使用 Stack Overflow 数据转储,并试图构建(我想象的是)一个简单的正则表达式来从字符内部提取标签<
名称>
。因此,对于每个问题,我都有一个或多个标签的列表,例如<tagone><tag-two>...<tag-n>
,并且试图仅提取标签名称列表。以下是从数据转储中获取的一些示例标记字符串:
<javascript><internet-explorer>
<c#><windows><best-practices><winforms><windows-services>
<c><algorithm><sorting><word>
<java>
作为参考,我不需要将标签名称划分为单词,因此对于<best-practices>
我想返回的示例best-practices
(不是best
and practices
)。此外,对于它的价值,如果它有任何区别,我将使用 Python。有什么建议么?