我正在将我的不和谐服务器消息输入 RNN,以便我可以基于这些消息创建一个聊天机器人。我知道 tensorflowtf.keras.preprocessing.text.Tokenizer
可以在字符级别进行标记,但我想包含特殊标记,因为我希望机器人模拟一个人在不和谐的情况下编写多条消息,并为每个短语多次按 enter。一个句子的例子是,带有特殊标记:
'<START> im a riot <ENTER> ok <ENTER> lets see here <END> '
在这种情况下,如何包含这样的特殊标记?到目前为止,我发现的唯一方法是使用正则表达式方法来re.findall
分隔字符和特殊标记(re.findall(r'(?:(?:<[\w]+?>)|(?:[\w.,?!:]))
在 tf.data 数据集上。