我有一个庞大的新闻文章数据集,准确地说是 48000 篇。我已经为每篇文章制作了 ngrams n = 3
。我的 ngram 看起来像这样:
[[(tikro, enters, into), (enter, into, research), (into, research, and),...]]
现在我需要为每个木瓦和文章制作一个二进制矩阵:
article1 article2 article3
shingle1 1 0 0
shingle2 1 0 1
shingle3 0 1 0
起初,我将所有带状疱疹都保存在一个列表中。之后,我尝试了这个来检查它是否有效。
for art in article:
for sh in ngrams:
if sh in art:
print('found')
因为一个是设置的,另一个是字符串它不起作用。任何建议,如何使它工作?或任何其他方法?
谢谢你