我的问题是过滤掉表中所有的人名,即公司、学校、机构的名称将留在数据库中。
我尝试了一个简单的解决方案,其中给出了公司、学校等名称的列表。我在那里搜索了最常用的术语。(注意:我没有搜索名称中的常用字符串,因为那样会花费很多)。我为这些术语以及最常见的子字符串分配了权重。有了这个,如果字符串中有一个 corp, inc, school, univ,那么它很可能不是一个人的名字。
现在,我的问题是如何将其变成人工智能。此外,我必须使仅公司、仅学校等的分类变得更容易。
例如
XYZ Brewery Corporation -> company
Harvard University -> school
Department of Health -> government agency
我知道的唯一 AI 技术是 Naive-Bayes、K-Means、Hierarchical、FCM、ANN。这些技术通常会得到数值,所以,我不知道如何将其变成人工智能。我所知道的唯一能广泛处理字符串的 AI 技术是 Levenshtein、Stemming、Needleman-Wunch 和 Jaro-Winkler。
我的第一种方法不正确吗?怎样才能融入我所知道的技术?我必须学习一项新技术吗?因为我还是一名学生,所以我基本上是 AI 新手。但是,这不是作业,而是公司项目(实际上我是我们小组中唯一的计算机科学专业,所以对我来说很重)。顺便说一句,如果您对我使用的语言感到好奇,我正在使用 C#,因为我打算将它制作成一个独立的应用程序,并且用户正在使用 Windows。