我在 HTML 文档的表格单元格中有一个逗号分隔的列表,但列表中的一些项目是链接的:
<table>
<tr>
<td>Names</td>
<td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td>
</tr>
</table>
我一直在使用漂亮的汤来解析 html,我可以到达表,但是拆分它并返回大致如下的数据结构的最佳方法是:
[
{'name':'Fred'},
{'name':'John'},
{'name':'Barry'},
{'name':'Roger', 'url':'http://www.example.com/'},
{'name':'James'},
]