1

我已经使用带有 spacy 后端的 FastText 构建了我的印地语模型。我按照本教程使用 FastText 构建我的模型。

这个网址

我还通过以下命令将我的模型与 spacy 链接

python -m spacy link nl_model hi

模型链接成功,您可以查看下图 在此处输入图像描述

现在我没有找到任何使用印地语的帮助,比如我需要使用什么样的配置文件,在哪里导入印地语模型以及现在如何继续?我还有一个问题,比如我们的 data.json 文件在印地语中的外观以及我们将如何使用实体和意图,实体和意图的名称也应该是印地语还是英文?有人可以帮助进一步处理吗?我被困在这里。我必须仅使用 RASA Stack 以印地语构建 ChatBot。

提前致谢....

4

1 回答 1

3

看来您已经成功地学习了hi使用 spaCy 的模型。下一步是编写一个配置文件,如:

language: "hi"

pipeline:
- name: "tokenizer_whitespace"
- name: "ner_crf"
- name: "ner_synonyms"
- name: "intent_featurizer_count_vectors"
- name: "intent_classifier_tensorflow_embedding"

如果hi你刚刚学习的模型也有分词器,你可以tokenizer_whitespacetokenizer_spacy.

我应该提一下,基于 tensorflow 的新意图分类器 rasa 不需要hi模型的词向量,它从头开始提取词向量,请参见此处。对于实体提取,您也不需要hi模型,只需标记器为您做这些事情!因此,总的来说,即使没有hi模型,您也可以拥有您的机器人!

训练数据文件应该可以是 json 或 markdown,如doc中所述。我认为您的意图和实体的名称应该是英文的,但很明显,示例查询可以是任何 utf-8 语言,如印地语。

然后你可以使用文档中解释的不同方法来学习你的模型。例如:

python3 -m rasa_nlu.train \
    --config YOUR_CONFIG_FILE.yml \
    --data YOUR_TRAIN_DATA.json \
    --path PATH_TO_SAVE_MODEL

您可以在doc中找到一个很好的快速入门。

于 2018-10-15T12:11:36.343 回答