我有一个字符串中的 html 标记的 outerHTML,并且想要提取内部 HTML 的 body 标记。该函数在 C# 中使用,因此我无法访问任何 HTML/JavaScript Dom 功能,类似于如何使用 RegEx Asp.net C# 抓取 BODY html 标记(来自字符串)中的所有内容。
由于在进行 LoadHtml 转换时发生的 HTML 文档中的差异,HTML Agility 路由将不起作用。我捕获了原始 HTML 正文和 HTML 正文在实时站点上更新时的差异。我希望将这些差异与原始正文 innerHTML 进行比较。我想从 HTML outerHTML 中提取 body innerHTML 的原因是为了在数据传输上留出空间(一个传输 html、head 和 body,而不是每个传输。
理想情况下,这将处理任何边缘情况,例如 body 标签中的属性,无效的 html 是 body 标签等。