我正在尝试使用 Fairseq 从英语翻译成阿拉伯语。但是interactive.py 脚本会即时翻译文本片段。但我需要将它用作读取输入文本文件并写入输出文本文件写入。我提到了这个 GitHub 问题 - https://github.com/pytorch/fairseq/issues/858但它并没有清楚地解释一般如何做到这一点。有什么建议么 ?
问问题
1332 次
1 回答
4
fairseq-interactive
可以使用参数从文件中读取行--input
,并将翻译输出到标准输出。
所以假设我有这个输入文本文件source.txt
(每个要翻译的句子都在单独的行上):
Hello world!
My name is John
你可以运行:
fairseq-interactive --input=source.txt [all-your-fairseq-parameters] > target.txt
其中的意思是“将由”生成的所有(标准)输出> target.txt
放入文件中。如果该文件尚不存在,则将创建该文件。target.txt
fairseq-interactive
对于英语到法语的模型,它会生成一个target.txt
看起来像这样的文件(实际输出可能会因您的模型、配置和 Fairseq 版本而异):
S-0 Hello world!
W-0 0.080 seconds
H-0 -0.43813419342041016 Bonj@@ our le monde !
D-0 -0.43813419342041016 Bonjour le monde !
P-0 -0.1532 -1.7157 -0.0805 -0.0838 -0.1575
S-1 My name is John
W-1 0.080 seconds
H-1 -0.3272092938423157 Je m' appelle John .
D-1 -0.3272092938423157 Je m'appelle John.
P-2 -0.3580 -0.2207 -0.0398 -0.1649 -1.0216 -0.1583
要仅保留翻译(以 开头的行D-
),您必须过滤此文件的内容。例如,您可以使用此命令:
grep -P "D-[0-9]+" target.txt | cut -f3 > only_translations.txt
但是您可以将所有命令合并到一行中:
fairseq-interactive --input=source.txt [all-your-fairseq-parameters] | grep -P "D-[0-9]+" | cut -f3 > target.txt
(实际命令将取决于 的实际结构target.txt
。)
最后,知道您可以使用--input=-
从标准输入读取输入。
于 2020-12-09T16:08:37.237 回答