我的任务是迁移您将遇到的最糟糕的 HTML 产品描述。它由表格和段落的混合组成。大多数甚至不是 100% 有效的 HTML,并且有很多 Microsoft 标签由 MS Word 提供。它充满了线条样式标签,其中大部分依赖于您将见过的最疯狂的 CSS 规则集。
基本上我已经意识到唯一有用的是文本段落。我不能只抓住<p>
标签,因为有时段落不使用它们,有时标题或单个单词有自己的<p>
标签。
所以我的问题是我可以在html标签之间匹配比x字符长的文本吗?
理想情况下,它也会忽略<br/>
和<br>
这是我正在处理的 html 示例的链接
请注意,这只是我正在处理的描述,而不是整个页面。