0

我有很多包含公司和个人姓名的文本文件。我已对齐文本文档,其中上述内容已手动匿名(名称替换为单个唯一字符)。

我想使用这个语料库来训练一个系统来对看不见的文档执行自动匿名化——这只是用一个字符替换单词。首要问题是识别要匿名的单词,次要问题是用唯一字符替换单词。我可以解决次要问题。

Python 是首选,我认为 sklearn 必须包含必要的工具。

我该怎么办?有很多关于监督学习的 stackoverflow 文章,但我不确定它们是否符合我的情况。我怀疑这是一个相当简单的问题要解决,我不一定要寻找一个完整的解决方案,但一些起始指针会很好。此外,非常感谢任何关于哪些算法会更好地工作的见解。

4

0 回答 0