看来您已经成功地学习了hi
使用 spaCy 的模型。下一步是编写一个配置文件,如:
language: "hi"
pipeline:
- name: "tokenizer_whitespace"
- name: "ner_crf"
- name: "ner_synonyms"
- name: "intent_featurizer_count_vectors"
- name: "intent_classifier_tensorflow_embedding"
如果hi
你刚刚学习的模型也有分词器,你可以tokenizer_whitespace
用tokenizer_spacy
.
我应该提一下,基于 tensorflow 的新意图分类器 rasa 不需要hi
模型的词向量,它从头开始提取词向量,请参见此处。对于实体提取,您也不需要hi
模型,只需标记器为您做这些事情!因此,总的来说,即使没有hi
模型,您也可以拥有您的机器人!
训练数据文件应该可以是 json 或 markdown,如doc中所述。我认为您的意图和实体的名称应该是英文的,但很明显,示例查询可以是任何 utf-8 语言,如印地语。
然后你可以使用文档中解释的不同方法来学习你的模型。例如:
python3 -m rasa_nlu.train \
--config YOUR_CONFIG_FILE.yml \
--data YOUR_TRAIN_DATA.json \
--path PATH_TO_SAVE_MODEL
您可以在doc中找到一个很好的快速入门。