python - Sapcy 3.0：无法为 Lemmatizer 添加服装查找

Question

我使用下面的代码将自定义添加Lookups到自定义Lanuage类：

def create_lookups():
    lookups = Lookups()
    lookups.add_table("lemma_lookup", LOOKUP)
    lookups.add_table("lemma_rules", json_to_dict('lemma_rules.json'))
    lookups.add_table("lemma_index", json_to_dict('lemma_index.json'))
    lookups.add_table("lemma_exc", json_to_dict('lemma_exc.json'))
    return lookups


def json_to_dict(filename):
    location = os.path.realpath(
        os.path.join(os.getcwd(), os.path.dirname(__file__)))
    with open(os.path.join(location, filename)) as f_in:
        return json.load(f_in)


@CustomeLanguage.factory(
    "lemmatizer",
    assigns=["token.lemma"],
    default_config={"model": None, "mode": "lookup", "overwrite": False},
    default_score_weights={"lemma_acc": 1.0},
)
def make_lemmatizer(
        nlp: Language, model: Optional[Model], name: str, mode: str, overwrite: bool
):
    lemmatizer = Lemmatizer(nlp.vocab, model, name, mode=mode, overwrite=overwrite)
    lemmatizer.lookups = create_lookups()
    return lemmatizer

但是当我实例CustomLanguage化nlp.vocab.lookups. 有什么问题，我该如何解决？

score 3 · Accepted Answer

词形还原器查找不再出现在词汇表中。相反，它们存储在 lemmatizer 组件中nlp.get_pipe("lemmatizer").lookups。

如果您的 lemmatizer 工厂像这样创建 lemmatizer，则加载模型的任何人都需要有这些 JSON 文件可用，否则模型将无法加载。（查找表保存在模型中，但您的make_lemmatizer方法只是没有考虑到这一点。）

相反，创建一个自定义 lemmatizer 类，在其initialize方法中加载这些表，然后您的代码将如下所示添加一个 lemmatizer 并加载其表一次。

nlp = spacy.blank("lg")
nlp.add_pipe("lemmatizer").initialize()
nlp.to_disk("/path/to/model")

为 lemmatizer运行initialize()一次后，表将与模型目录一起保存，并且在重新加载模型时无需再次运行它。

它可能看起来像这样，如果您愿意，也可以将Lookups对象传递给：initialize

class CustomLemmatizer(Lemmatizer):
    def initialize(
        self,
        get_examples: Optional[Callable[[], Iterable[Example]]] = None,
        *,
        nlp: Optional[Language] = None,
        lookups: Optional[Lookups] = None,
    ):
        if lookups is None:
            self.lookups = create_lookups()
        else:
            self.lookups = lookups

python - Sapcy 3.0：无法为 Lemmatizer 添加服装查找

1 回答 1

Related

Reference