例如,句子是"The corporate balance sheets data are available on an annual basis"
,我需要标记"corporate balance sheets"
从给定句子中找到的子字符串。
所以,我需要找到的模式是:
"corporate balance sheets"
给定字符串:
"The corporate balance sheets data are available on an annual basis".
我想要的输出标签序列将是:
[0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
有一堆句子(超过 2GB),还有一堆我需要找到的模式。我不知道如何在 python 中有效地做到这一点。有人可以给我一个好的算法吗?