0

背景:关于序列比对的 维基百科页面说 DNA 序列比对算法也可用于自然语言处理。

问题: 因为命名实体识别器和 DNA 序列库都进行近似字符串匹配 -使用 DNA 测序库(如Bowtie)并构建您的 NER 是否可行?

不使用现有 NER 开源而是使用 DNA 测序库来构建 NER 的一个原因是希望在我的 NER 中自动获得“拼写错误纠正”。

如果我上面的假设是有道理的 - 是否有一些在线 DNA 测序工具,我可以在其中输入我的名人姓名数据库而不是 DNA 序列,并尝试在 DNA 测序工具中搜索拼写错误的“Michale Jacksun”,希望它与来自输入数据库的“迈克尔杰克逊”

4

1 回答 1

0

虽然 DNA 测序还利用了编辑距离算法——与您在 NER 期间用于检测拼写错误的算法相同。但是 DNA 测序开源通常被编程为仅对用于表示 DNA 序列的几个字符进行操作。它们不适用于正常的 az AZ 0-9 范围的 ASCII 字符。引用:https ://groups.google.com/forum/#!category-topic/nvbio-users/how-do-i--/ITjD6KPlEsc

因此,正如 Vihari 所建议的那样 - 最好直接使用一些编辑距离算法。但我真的希望 NLP 爱好者在未来探索此类 DNA 测序开源,并发展它们以利用此类 DNA 测序开源的“大数据能力”,将其带给 NLP 社区的我们

于 2015-12-23T07:17:02.663 回答