15

考虑这个 mcve:

import math
import sys
import textwrap
import time
from pathlib import Path
from collections import defaultdict

from PyQt5.Qsci import QsciLexerCustom, QsciScintilla
from PyQt5.Qt import *

from pygments import lexers, styles, highlight, formatters
from pygments.lexer import Error, RegexLexer, Text, _TokenType
from pygments.style import Style


EXTRA_STYLES = {
    "monokai": {
        "background": "#272822",
        "caret": "#F8F8F0",
        "foreground": "#F8F8F2",
        "invisibles": "#F8F8F259",
        "lineHighlight": "#3E3D32",
        "selection": "#49483E",
        "findHighlight": "#FFE792",
        "findHighlightForeground": "#000000",
        "selectionBorder": "#222218",
        "activeGuide": "#9D550FB0",
        "misspelling": "#F92672",
        "bracketsForeground": "#F8F8F2A5",
        "bracketsOptions": "underline",
        "bracketContentsForeground": "#F8F8F2A5",
        "bracketContentsOptions": "underline",
        "tagsOptions": "stippled_underline",
    }
}


def convert_size(size_bytes):
    if size_bytes == 0:
        return "0B"
    size_name = ("B", "KB", "MB", "GB", "TB", "PB", "EB", "ZB", "YB")
    i = int(math.floor(math.log(size_bytes, 1024)))
    p = math.pow(1024, i)
    s = round(size_bytes / p, 2)
    return f"{s} {size_name[i]}"


class ViewLexer(QsciLexerCustom):

    def __init__(self, lexer_name, style_name):
        super().__init__()

        # Lexer + Style
        self.pyg_style = styles.get_style_by_name(style_name)
        self.pyg_lexer = lexers.get_lexer_by_name(lexer_name, stripnl=False)
        self.cache = {
            0: ('root',)
        }
        self.extra_style = EXTRA_STYLES[style_name]

        # Generate QScintilla styles
        self.font = QFont("Consolas", 8, weight=QFont.Bold)
        self.token_styles = {}
        index = 0
        for k, v in self.pyg_style:
            self.token_styles[k] = index
            if v.get("color", None):
                self.setColor(QColor(f"#{v['color']}"), index)
            if v.get("bgcolor", None):
                self.setPaper(QColor(f"#{v['bgcolor']}"), index)

            self.setFont(self.font, index)
            index += 1

    def defaultPaper(self, style):
        return QColor(self.extra_style["background"])

    def language(self):
        return self.pyg_lexer.name

    def get_tokens_unprocessed(self, text, stack=('root',)):
        """
        Split ``text`` into (tokentype, text) pairs.

        ``stack`` is the inital stack (default: ``['root']``)
        """
        lexer = self.pyg_lexer
        pos = 0
        tokendefs = lexer._tokens
        statestack = list(stack)
        statetokens = tokendefs[statestack[-1]]
        while 1:
            for rexmatch, action, new_state in statetokens:
                m = rexmatch(text, pos)
                if m:
                    if action is not None:
                        if type(action) is _TokenType:
                            yield pos, action, m.group()
                        else:
                            for item in action(lexer, m):
                                yield item
                    pos = m.end()
                    if new_state is not None:
                        # state transition
                        if isinstance(new_state, tuple):
                            for state in new_state:
                                if state == '#pop':
                                    statestack.pop()
                                elif state == '#push':
                                    statestack.append(statestack[-1])
                                else:
                                    statestack.append(state)
                        elif isinstance(new_state, int):
                            # pop
                            del statestack[new_state:]
                        elif new_state == '#push':
                            statestack.append(statestack[-1])
                        else:
                            assert False, "wrong state def: %r" % new_state
                        statetokens = tokendefs[statestack[-1]]
                    break
            else:
                # We are here only if all state tokens have been considered
                # and there was not a match on any of them.
                try:
                    if text[pos] == '\n':
                        # at EOL, reset state to "root"
                        statestack = ['root']
                        statetokens = tokendefs['root']
                        yield pos, Text, u'\n'
                        pos += 1
                        continue
                    yield pos, Error, text[pos]
                    pos += 1
                except IndexError:
                    break

    def highlight_slow(self, start, end):
        style = self.pyg_style
        view = self.editor()
        code = view.text()[start:]
        tokensource = self.get_tokens_unprocessed(code)

        self.startStyling(start)
        for _, ttype, value in tokensource:
            self.setStyling(len(value), self.token_styles[ttype])

    def styleText(self, start, end):
        view = self.editor()
        t_start = time.time()
        self.highlight_slow(start, end)
        t_elapsed = time.time() - t_start
        len_text = len(view.text())
        text_size = convert_size(len_text)
        view.setWindowTitle(f"Text size: {len_text} - {text_size} Elapsed: {t_elapsed}s")

    def description(self, style_nr):
        return str(style_nr)


class View(QsciScintilla):

    def __init__(self, lexer_name, style_name):
        super().__init__()
        view = self

        # -------- Lexer --------
        self.setEolMode(QsciScintilla.EolUnix)
        self.lexer = ViewLexer(lexer_name, style_name)
        self.setLexer(self.lexer)

        # -------- Shortcuts --------
        self.text_size = 1
        self.s1 = QShortcut(f"ctrl+1", view, self.reduce_text_size)
        self.s2 = QShortcut(f"ctrl+2", view, self.increase_text_size)
        # self.gen_text()

        # # -------- Multiselection --------
        self.SendScintilla(view.SCI_SETMULTIPLESELECTION, True)
        self.SendScintilla(view.SCI_SETMULTIPASTE, 1)
        self.SendScintilla(view.SCI_SETADDITIONALSELECTIONTYPING, True)

        # -------- Extra settings --------
        self.set_extra_settings(EXTRA_STYLES[style_name])

    def get_line_separator(self):
        m = self.eolMode()
        if m == QsciScintilla.EolWindows:
            eol = '\r\n'
        elif m == QsciScintilla.EolUnix:
            eol = '\n'
        elif m == QsciScintilla.EolMac:
            eol = '\r'
        else:
            eol = ''
        return eol

    def set_extra_settings(self, dct):
        self.setIndentationGuidesBackgroundColor(QColor(0, 0, 255, 0))
        self.setIndentationGuidesForegroundColor(QColor(0, 255, 0, 0))

        if "caret" in dct:
            self.setCaretForegroundColor(QColor(dct["caret"]))

        if "line_highlight" in dct:
            self.setCaretLineBackgroundColor(QColor(dct["line_highlight"]))

        if "brackets_background" in dct:
            self.setMatchedBraceBackgroundColor(QColor(dct["brackets_background"]))

        if "brackets_foreground" in dct:
            self.setMatchedBraceForegroundColor(QColor(dct["brackets_foreground"]))

        if "selection" in dct:
            self.setSelectionBackgroundColor(QColor(dct["selection"]))

        if "background" in dct:
            c = QColor(dct["background"])
            self.resetFoldMarginColors()
            self.setFoldMarginColors(c, c)

    def increase_text_size(self):
        self.text_size *= 2
        self.gen_text()

    def reduce_text_size(self):
        if self.text_size == 1:
            return
        self.text_size //= 2
        self.gen_text()

    def gen_text(self):
        content = Path(__file__).read_text()
        while len(content) < self.text_size:
            content *= 2
        self.setText(content[:self.text_size])


if __name__ == '__main__':
    app = QApplication(sys.argv)
    view = View("python", "monokai")
    view.setText(textwrap.dedent("""\
        '''
        Ctrl+1 = You'll decrease the size of existing text
        Ctrl+2 = You'll increase the size of existing text

        Warning: Check the window title to see how long it takes rehighlighting
        '''
    """))
    view.resize(800, 600)
    view.show()
    app.exec_()

要运行它,您需要安装:

QScintilla==2.10.8
Pygments==2.3.1
PyQt5==5.12

我试图弄清楚如何在 QScintilla 小部件上使用 pygments,现在我需要解决的主要问题是处理非小文档时的性能。

我希望编辑器在处理大型文档(> = 100kb)时变得灵敏且可用,但我不太清楚我应该在这里采取什么方法。为了测试性能,您可以使用Ctrl+1Ctrl+2并且小部件文本将分别减少/增加。

当我说“响应式”时,我的意思是可见屏幕的突出显示计算应该不再需要 [1-2]frame/highglight <=> [17-34]ms/highlight(假设为 60fps),所以在打字时你不会'感觉不到任何减速。

注意:正如您在上面的 mcve 中看到的,我已经包含了 pygments 标记器,因此您可以使用它......感觉就像为了实现“实时突出显示”,我需要使用记忆/缓存以某种聪明的方式,但我正在努力弄清楚我需要缓存什么数据以及缓存它的最佳方式是什么......:/

演示:

在此处输入图像描述

在上面的演示中,您可以看到使用这种幼稚的突出显示编辑器很快就会变得无法使用,在我的笔记本电脑中重新突出显示 32kb 的文本块仍然可以提供交互式帧速率,但高于该值的编辑器变得完全无法使用。

考虑因素:

  • 当您在没有选择的可见屏幕上输入/编码时,最典型的情况会发生
  • 您可能正在编辑遍布整个文档的多个选择,这意味着您将不知道这些选择是否在可见屏幕附近。例如,在 Sublime 中,当您按下Alt+F3时选择光标下的所有出现
  • 在上面的片段中,我使用了一个 python 词法分析器,但算法不应该过多地关注那个。Pygments 支持 ~300 词法分析器
  • 如果可见屏幕位于文件末尾并且其中一个选项恰好位于屏幕开头,则会发生最坏的情况......如果您需要重新突出显示整个文档,您需要找到一个替代方式,即使这意味着“突出显示”在第一遍不正确
  • 最重要的是性能,但也是正确性......也就是说,如果你给了足够的时间,整个文档应该会正确突出显示

参考:

以下文档并非针对此特定问题,但它们讨论了缓存和语法突出显示的可能策略:

4

2 回答 2

20

highlight_slow中,您正在接收startend值,但您忽略了最终值。因此,每当您键入单个字符时,代码都会重新突出显示缓冲区的其余部分。这就是为什么,如果您在长缓冲区的末尾键入,时间会非常快 - 大约 0.1 - .2 毫秒 - 但如果您在开头键入,则非常慢。

仅考虑正确的突出显示,在大多数情况下(至少使用 Python),当您引入一个新字符时,只需要重新设置当前行的样式。有时,如果您开始一个函数定义或打开一个括号,可能需要设置多行样式。只有当您打开或关闭多行"""'''字符串时 - 缓冲区的其余部分才需要重新设置样式。

如果您在日志记录中包含startend,您会发现大多数情况下,当您键入它们时,它们的范围非常小。如果您将highlight_code方法的一行从

code = view.text()[start:]

code = view.text()[start:end]

您会看到该方法现在几乎总是需要亚毫秒级的时间,而且它几乎总是能正确突出显示。

据我所知,这只会在涉及多行引号时出现样式错误。但是,您当前的代码有同样的问题:尝试打开一个多行字符串,输入 enter,然后在下一行继续该字符串。第二行将突出显示为代码。Qscintilla 通过给出一个start不包括多行引号开头的 a 来让你误入歧途。不过,它并没有试图做到完美 - 文档说

事实上,QScintilla 说:“嘿,我认为你应该重新设置从 start 到 end 的字符之间的文本样式”。你完全可以忽略这个建议。

正确处理多行引用会有点棘手!如果是我,并且我想让某些东西快速工作,我可能会通过击键来刷新整个缓冲区的突出显示,并在出现问题时使用它。

于 2019-04-26T18:35:28.060 回答
1

如果您乐于编写自己的语法荧光笔,这里有一种可以显着加快速度的方法。你可以用 Pygments 来做这件事,但要花一点力气;有关执行此操作的一种可能方法,请参见答案的底部。

语法荧光笔很简单。它有一个小的内部数据结构,代表当前的上下文,它会随着它的进行而更新。因此,对于以下 Python 代码:

import time

def sleep_ms(ms):
    """sleeps for a length of time
    given in milliseconds"""

    time.sleep(
        ms / 1000
    )

sleep_ms(1000)
syntax error

它的上下文可能会像这样改变,因为它通过令牌¹:

>>> [nothing]
>>> IMPORT
    IMPORT modulename
>>> [nothing]
>>> DEF
    DEF functionname
    DEF functionname, OPENPAREN
    DEF functionname, OPENPAREN
    DEF functionname ARGLIST
    DEF functionname ARGLIST COLON
>>> FUNCBODY 4s
    FUNCBODY 4s, DOUBLE_MLSTR
>>> FUNCBODY 4s, DOUBLE_MLSTR
    FUNCBODY 4s
>>> FUNCBODY 4s
>>> FUNCBODY 4s, varname
    FUNCBODY 4s, varname ATTR
    FUNCBODY 4s, varname ATTR attrname
    FUNCBODY 4s, varname ATTR attrname, OPENPAREN
>>> FUNCBODY 4s, varname ATTR attrname, OPENPAREN
>>> FUNCBODY 4s, varname ATTR attrname, OPENPAREN, varname
    FUNCBODY 4s, varname ATTR attrname, OPENPAREN, TRUEDIV varname
    FUNCBODY 4s, varname ATTR attrname, OPENPAREN, TRUEDIV varname intliteral
>>> FUNCBODY 4s, FUNCCALL
>>> FUNCBODY 4s
>>> [nothing]
    varname
    varname, OPENPAREN
    varname, OPENPAREN, intliteral
    FUNCCALL
>>> [nothing]
    varname
    ERROR

如果你缓存了每一行的最终上下文,那么你可以在改变的那一行开始语法高亮,直到你到达与缓存的上下文相同的那一行;您不必重新计算整个文件,但如果您添加类似"""的内容,它将重新计算直到结束。如果您到达 an ERRORthen 您可以停在那里;重新计算突出显示语法错误的语法是没有意义的,因为您不知道上下文的含义。(对于打开文件时的初始版本,您可以假设在语法错误之后没有上下文;这种启发式方法似乎工作得很好。)

这个语法荧光笔有可能非常准确,或者只是“足够好”,两者之间几乎没有可察觉的速度差异。特定语言的荧光笔甚至可以是动态链接的插件,而且速度仍然相当快!此外,如果您添加去抖动以突出显示后续行,那么无论文件有多大,键入速度都将与键入或""""""一样快。""42

请注意,此荧光笔是单通道的——例如,它不会以与未知变量名称不同的方式突出显示已知变量名称。如果你想这样做,问题就会变得相当困难。


¹:这个 Python 荧光笔示例是一个“非常准确”的例子;如果我有时间限制,我可能不会选择这样的东西。尽管如此,我已经在脑海中计划好了——至少现在——如果需要的话,可以详细解释一下。


您的代码几乎不需要更改即可使用此技术。

  • 将您的开头更改get_tokens_unprocessed为:

        def get_tokens_unprocessed(self, text, stack=('root',), mutate_stack=False):
            """
            Split ``text`` into (tokentype, text) pairs.
    
            ``stack`` is the inital stack (default: ``['root']``)
            """
            lexer = self.pyg_lexer
            pos = 0
            tokendefs = lexer._tokens
            if not mutate_stack:
                statestack = list(stack)
            statetokens = tokendefs[statestack[-1]]
    
  • 找到某种检测行号的方法。
  • highlight_slow's 循环中,执行以下操作(更好的除外):

            stack = list(self.cache[line_no_of(start)])
            tokensource = self.get_tokens_unprocessed(code, stack, True)
    
            self.startStyling(start)
            pos = start;
            for _, ttype, value in tokensource:
                self.setStyling(len(value), self.token_styles[ttype])
                pos += len(value)
                if is_line_end(pos):
                    if pos >= end and stack == self.cache[line_no_of(start)]:
                        break
                    self.cache[line_no_of(start)] = tuple(stack)
    

    显然,代码必须比这更好,并且您必须找到一些有效的方法来实现is_line_endand line_no_of; 可能有一些 Pygments 方法可以做到这一点。

这个解决方案至少比你的有一个好处:它支持多行注释。

于 2019-04-28T14:33:26.493 回答