我正在尝试从各种博客中获取一些 HTML,并注意到不同的提供商以不同的方式使用相同的标签。
例如,这里有两个使用元名称生成器标签不同的主要提供商:
- 博主:(
<meta content='blogger' name='generator'/>
内容在前,名称在后,是的,单引号!) - WordPress:(
<meta name="generator" content="WordPress.com" />
名称在前,内容在后)
有没有办法提取所有情况下的内容值(单/双引号,行中的第一个/最后一个)?
PS虽然我使用的是Java,但如果它通常用于正则表达式,答案可能会帮助更多的人。