我有很多 html 响应代码,在某些部分有这部分:
</td>
</tr>
<input id="hiddenloginurl" type="hidden" name="loginurl" value="/sensor.htm?id=10240">
</table>
如何解析 html 代码并使用 python 获取此 id?问题是,在每次新的 api 调用中,id 都会改变。
Beautiful Soup 提供了一些用于导航、搜索和修改解析树的简单方法和 Pythonic 习惯用法:用于剖析文档和提取所需内容的工具包。编写应用程序不需要太多代码
Beautiful Soup 自动将传入文档转换为 Unicode,将传出文档自动转换为 UTF-8。您不必考虑编码,除非文档未指定编码并且 Beautiful Soup 无法自动检测编码。然后你只需要指定原始编码。
Beautiful Soup 位于流行的 Python 解析器(如 lxml 和 html5lib)之上,允许您尝试不同的解析策略或以速度换取灵活性。
另请参阅此类似问题:Extracting an attribute value with beautifulsoup
inputTag = soup.find(attrs={"name": "stainfo"})
output = inputTag['value']