python - 初始化 unicode 字体的对象

Question

我编写了一个类对象来访问 unicode 块中的数学字母数字符号，如https://en.wikipedia.org/wiki/Mathematical_Alphanumeric_Symbols上所述

# San-serif
LATIN_SANSERIF_NORMAL_UPPER = (120224, 120250)
LATIN_SANSERIF_NORMAL_LOWER = (120250, 120276)
LATIN_SANSERIF_BOLD_UPPER = (120276, 120302)
LATIN_SANSERIF_BOLD_LOWER = (120302, 120328)
LATIN_SANSERIF_ITALIC_UPPER = (120328, 120354)
LATIN_SANSERIF_ITALIC_LOWER = (120354, 120380)
LATIN_SANSERIF_BOLDITALIC_UPPER = (120380, 120406)
LATIN_SANSERIF_BOLDITALIC_LOWER = (120406, 120432)

class MathAlphanumeric:
    def __init__(self, script, font, style, case):
        self.script = script
        self.font = font
        self.style = style
        self.case = case
        
    def charset(self):
        start, end = eval('_'.join([self.script, self.font, self.style, self.case]).upper())
        for c in range(start, end):
            yield chr(c)
    
    @staticmethod
    def supported_scripts():
        return {'latin', 'greek', 'digits'}
    
    @staticmethod
    def supported_fonts():
        return {'serif', 'sanserif', 'calligraphy', 'fraktor', 'monospace', 'doublestruck'}
    
    @staticmethod
    def supported_style():
        return {'normal', 'bold', 'italic', 'bold-italic'}
    
    @staticmethod
    def supported_case():
        return {'upper', 'lower'}

要使用它，我会这样做：

ma = MathAlphanumeric('latin', 'sanserif', 'bold', 'lower')
print(list(ma.charset()))

[出去]：

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

该代码按预期工作，但要涵盖所有数学字母数字符号，我将不得不从script * fonts * style * case编号枚举所有开始和结束符号。的常数。

我的问题是：

有没有更好的方法来创建所需的MathAlphanumeric对象？
有没有办法避免初始化script * fonts * style * caseno. 常数，为了MathAlphanumeric.charset()按预期工作？
某些 unicode.org 相关库中是否提供了类似的对象或函数？

score 2 · Accepted Answer

您可能对unicodedata标准库感兴趣，特别是：

unicodedata.lookup：

按名称查找字符。如果找到具有给定名称的字符，则返回相应的字符。如果没有找到，KeyError则提出。
unicodedata.name：

以字符串形式返回分配给字符 chr 的名称。

一个简单的例子：

>>> import unicodedata
>>> unicodedata.name(chr(0x1d5a0))
'MATHEMATICAL SANS-SERIF CAPITAL A'
>>> unicodedata.lookup("MATHEMATICAL SANS-SERIF CAPITAL A")
''
>>> unicodedata.name(chr(0x1d504))
'MATHEMATICAL FRAKTUR CAPITAL A'
>>> unicodedata.lookup("MATHEMATICAL FRAKTUR CAPITAL A")
''

现在您必须找到unicodedata您的用例所需的所有名称，从中构造相应的字符串，然后调用lookup.

这是一个迷你概念验证：

import unicodedata
import string


def charset(script: str, font: str, style: str, case: str):
    features = ["MATHEMATICAL"]
    # TODO: use script
    assert font in MathAlphanumeric.supported_fonts(), f"invalid font {font!r}"
    features.append(font.upper())
    assert style in MathAlphanumeric.supported_style(), f"invalid style {style!r}"
    if style != "normal":
        if font == "fraktur":
            features.insert(-1, style.upper())  # "bold" must be before "fraktur"
        elif font in ("monospace", "double-struck"):
            pass  # it has only one style, and it is implicit
        else:
            features.append(style.upper())
    assert case in MathAlphanumeric.supported_case(), f"invalid case {case!r}"
    features.append("CAPITAL" if case == "upper" else "SMALL")
    return tuple(unicodedata.lookup(" ".join(features + [letter]), ) for letter in string.ascii_uppercase)


if __name__ == '__main__':
    print("".join(charset("latin", "sans-serif", "bold", "lower")))
    # 
    print("".join(charset("latin", "fraktur", "bold", "upper")))
    # 
    print("".join(charset("latin", "monospace", "bold", "upper")))
    # 
    print("".join(charset("latin", "double-struck", "bold", "upper")))
    # KeyError: "undefined character name 'MATHEMATICAL DOUBLE-STRUCK CAPITAL C'"

（我改变了一点你的supported_fonts方法return {'serif', 'sans-serif', 'calligraphy', 'fraktur', 'monospace', 'double-struck'}：）

但是 Unicode 有很多警告：它包含您可能想要的所有字形，但没有以连贯的方式组织（由于历史原因）。我的示例中的失败是由以下原因引起的：

>>> unicodedata.name("")  # the letter copied from the Wikipedia page
'MATHEMATICAL FRAKTUR CAPITAL B'
>>> unicodedata.name("ℭ&quot;)  # same, but for C
'BLACK-LETTER CAPITAL C'

因此，您将需要很多特殊情况。

还：

usingeval被认为是一种不好的做法（参见这个问题），如果你可以避免它，你应该这样做。
使用 unicode “ characters ” 的十进制值并不方便，我不得不从十六进制转换为十六进制，以便将您的代码与维基百科页面进行比较。只需加上前缀0x就足以告诉 Python 它是一个十六进制值，但除了看起来“奇怪”之外，它的工作原理完全相同：0x1d5a0 == 120224是 True。
使用只有一个从实例获取其参数的方法的类__init__被认为是一种气味，您可以将其变成一个函数，更简单，更清洁。如果你想要的是一个命名空间，你可以使用 Python 模块。
支持的脚本、字体、样式和大小写是不变的，您可以将它们设为类变量，而不是将它们放在staticmethods 中。

python - 初始化 unicode 字体的对象

1 回答 1

Related

Reference