1

我们有一个包含多达 2000 个术语的词汇表(其中每个词汇表术语可能由一个、两个或三个单词组成(用空格或破折号分隔)。

现在我们正在寻找一种解决方案来突出显示(较长的)HTML 文档(最多 100 KB 的 HTML 标记)中的所有术语,以便生成带有突出显示的术语的静态 HTML 页面。

一个可行的解决方案的限制是:大量的词汇表术语和长的 HTML 文档......什么是有效解决方案的蓝图(在 Python 中)。

现在我正在考虑使用 lxml 解析 HTML 文档,遍历所有文本节点,然后将每个文本节点中的内容与所有词汇表术语进行匹配。

客户端(浏览器)动态突出显示不是一个选项,因为 IE 会抱怨长时间运行的脚本会出现脚本超时......因此无法用于生产用途。

有更好的主意吗?

4

3 回答 3

2

您可以使用解析器以递归方式导航您的树并仅替换由文本组成的标签。
这样做时,您仍然需要考虑几件事:
- 并非所有文本都需要替换(例如内联 javascript)
- 文档的某些元素可能不需要解析(例如标题等)

这是一个快速且非生产就绪的示例,说明如何实现这一目标:

html = """The HTML you need to parse"""
import BeautifulSoup

IGNORE_TAGS = ['script', 'style']

def parse_content(item, replace_what, replace_with, ignore_tags = IGNORE_TAGS):
    for content in item.contents:
        if isinstance(content, BeautifulSoup.NavigableString):
            content.replaceWith(content.replace(replace_what, replace_with, ignore_tags))
        else:
            if content.name not in ignore_tags:
                parse_content(content, replace_what, replace_with, ignore_tags)
    return item

soup = BeautifulSoup.BeautifulSoup(html)
body = soup.html.body
replaced_content = parse_content(body, 'a', 'b')

这应该用“b”替换任何出现的“a”,但留下的内容是:
- 内联 javascript 或 css(尽管内联 JS 或 CSS 不应出现在文档的正文中)。
- 标签中的引用,例如 img, a...
- 标签本身

当然,根据你的词汇表,你需要确保你不会只用其他东西替换单词的一部分;为此,使用 regex insted of content.replace 是有意义的。

于 2011-12-03T11:41:54.040 回答
0

我认为使用客户端 javascript 突出显示是最好的选择。它节省了您的服务器处理时间和带宽,更重要的是,保持 html 的清洁和对那些不需要不必要标记的人可用,例如,在打印或转换为其他格式时。

为避免超时,只需将作业分成块并在 setTimeout 的线程函数中一一处理。这是这种方法的一个示例

function hilite(terms, chunkSize) {

    // prepare stuff

    var terms = new RegExp("\\b(" + terms.join("|") + ")\\b", "gi");

    // collect all text nodes in the document

    var textNodes = [];
    $("body").find("*").contents().each(function() {
        if (this.nodeType == 3)
            textNodes.push(this)
    });

    // process N text nodes at a time, surround terms with text "markers"

    function step() {
        for (var i = 0; i < chunkSize; i++) {
            if (!textNodes.length)
                return done();
            var node = textNodes.shift();
            node.nodeValue = node.nodeValue.replace(terms, "\x1e$&\x1f");
        }
        setTimeout(step, 100);
    }

    // when done, replace "markers" with html

    function done() {
        $("body").html($("body").html().
            replace(/\x1e/g, "<b>").
            replace(/\x1f/g, "</b>")
        );
    }

    // let's go

    step()
}

像这样使用它:

$(function() {
    hilite(["highlight", "these", "words"], 100)
})

如果您有任何问题,请告诉我。

于 2011-12-03T12:39:30.497 回答
-1

如何浏览词汇表中的每个术语,然后对于每个术语,使用正则表达式查找 HTML 中的所有匹配项?您可以将这些事件中的每一个替换为包含在跨度中的术语,该术语具有“突出显示”的类,该类将被设置为具有背景颜色。

于 2011-12-03T10:18:18.437 回答