我正在使用 conll2003dataset。它包含来自各种新闻来源的文章。它包含句子、这些句子中每个单词的词性标签、这些单词的块 ID 等。
有些句子都是大写的。我只是想从相应的数据框中删除这些行。这是我尝试过的:
import re
df_train = conll2003dataset['train'].to_pandas()
df_test = conll2003dataset['test'].to_pandas()
all_caps_regex = re.compile('^[^a-z]*$')
df_train.drop(df_train[all(map(all_caps_regex.search, df_train['tokens']))].index, inplace=True)
df_test.drop(df_test[all(map(all_caps_regex.search, df_test['tokens']))].index, inplace=True)
但我收到以下错误:
TypeError Traceback (most recent call last)
<ipython-input-17-feda9c78b1c7> in <module>()
9 all_caps_regex = re.compile('^[^a-z]*$')
10
---> 11 df_train.drop(df_train[all(map(all_caps_regex.search, df_train['tokens']))].index, inplace=True)
12 df_test.drop(df_test[all(map(all_caps_regex.search, df_test['tokens']))].index, inplace=True)
13
TypeError: cannot use a string pattern on a bytes-like object
我哪里错了?我该怎么做呢?
这是说明相同内容的 colab 笔记本。