我有一个让我们说“禁止句子”的列表(其中 1000 个,每个大约 40 个单词)。我想创建一个工具,可以在给定的文档中找到并标记它们。
问题是,在这样的文件中,这个被禁止的句子可以用不同的方式表达,而不是在这个列表中保持相同的意思,但通过使用同义词、或多或少的几个词、不同的词序、标点符号、语法等来改变。事实上,这个is all in Polish 并不是让每个名词、代词和形容词总共有 14 个格加上修饰词和进一步改变单词的性别来让事情变得更容易。我也在考虑制作它,以便找到的句子按它们被禁止的概率排列,其中一些显示不太相似。
我学了两年 IT,但对 NLP 了解不多。你认为这可以由业余爱好者完成吗?你能给我一些建议,从哪里开始,最好用什么工具把它们放在一起?不需要花哨,只要实用。我希望能找到一些现成的代码,因为我想这是以前制作的。有什么想法可以在哪里找到此类资源或在搜索时使用哪些关键字?我真的很感激一些帮助,因为我对此很陌生,需要从基础开始。
提前致谢,
卡米拉