我有这行代码:
bitext = [[sentence.strip().split()
for sentence in pair if len(sentence) < 100]
for pair in zip(open(c_data), open(e_data))[:opts.num_sents]]
c_data
是带有中文句子
e_data
的文件 是带有英文句子的文件。
bitext
应该是一个包含成对的英文和中文句子的列表,它们是彼此的翻译。
由于两个数据文件都很大,
我想通过只考虑低于一定长度的句子来降低代码的复杂性。长度以字符为单位。
例如,
我在这里将长度指定为100
. :opts.num_sents
是一个变量,表示应考虑数据文件中的句子数量。
问题/错误
如果一个中文句子是 95 个字符,而一个英文句子是 105 个字符,bitext
则只会用中文句子更新。
但我希望代码只添加一对句子,如果它们都在规定的长度之下。
我该怎么做呢?