我正在处理一些第 3 方 HTML,它是半结构化的标记文本(粗体、斜体等)。
这是结构的简化示例:
<div>
<strong class="term">one</strong>
-
<b class="defs">
foo
<i class="pos">verb</i>
bar
<i class="pos">noun</i>
baz
<i class="pos">adjective</i>
blah
</b>
<br>
<strong class="term">two</strong>
... etc ...
</div>
事实上,我已经对其进行了一些处理以使其成为这种形状。我可以处理 HTML 元素,但我无法弄清楚如何处理交错的文本和<i>
元素。
我对一个解决方案感到满意,该解决方案要么在<i>
s 周围拆分“defs”,一个迭代各个部分的解决方案等。由于特定于浏览器的怪癖,我不希望混合使用 jQuery 和“原始”DOM API 调用,但是我明白如果我不能避免它。从我的浅薄知识看来,jQuery 对标记文本的支持不如对“结构”HTML 的支持...
我错过了一些明显的东西吗?这似乎很难搜索...
事实证明,在现实世界的数据中,文本运行和<i>
节点总是交错的,但其中的第一件事defs
可能是任何一个,每个文本运行可以包含一个或多个实际文本节点。这意味着<i>
s 和 text 运行不是成对的。
好的解决方案可能是为每个文本运行添加标记,或者进行迭代,为每个文本运行做一件事,<i>
为每个文本运行做另一件事。我在想jQuery.contents()
一些节点类型检查必须是关键......