是否有任何库可以获取文本(如 html 文档)和字符串列表(如某些产品的名称),然后在字符串列表中找到一个模式并生成一个正则表达式来提取所有文本(html 文档)中与找到的模式匹配的字符串?
例如,给定以下 html:
<table>
<tr>
<td>Product 1</td>
<td>Product 2</td>
<td>Product 3</td>
<td>Product 4</td>
<td>Product 5</td>
<td>Product 6</td>
<td>Product 7</td>
<td>Product 8</td>
</tr>
</table>
以及以下字符串列表:
['Product 1', 'Product 2', 'Product 3']
我想要一个可以构建如下正则表达式的函数:
'<td>(.*?)</td>'
然后从 html 中提取与正则表达式匹配的所有信息。在这种情况下,输出将是:
['Product 1', 'Product 2', 'Product 3', 'Product 4', 'Product 5', 'Product 6', 'Product 7', 'Product 8']
澄清:
我希望该功能可以查看样本的周围环境,而不是样本本身。因此,例如,如果 html 是:
<tr>
<td>Word</td>
<td>More words</td>
<td>101</td>
<td>-1-0-1-</td>
</tr>
['Word', 'More words']
以及我希望它提取的样本:
['Word', 'More words', '101', '-1-0-1-']