python - 快速从句子中提取术语

Question

我在文本挖掘工作，我的工作重点是生物医学实体（基因、蛋白质、药物和疾病）。我想和你分享一些问题。

现在，我的目标是在生物医学文本（来自 Medline）中找到生物医学实体，并通过术语词典，我可以使用其唯一标识符识别找到的每个实体。

为了存储文本、字典和结果，我使用了 MongoDB（一个非 SQL 数据库）。每个摘要都被分成句子，每个句子都存储在一个新记录中（带有标记列表、块和词性标签）。为了查找实体，我获取所有句子，并为每个句子为字典中的每个术语创建一个正则表达式（在 Python 中）：

for term in dicitonary:
     matches = re.finditer(r'(' + term + ')', sentence)
     for m in matches:
          ini = m.start()
          end = m.end()
          result.append(ini, end, dictionary.get_identification[term])

但这真的很慢，我有几个 150,000 个摘要的子集（>1,000,000 个句子）。

对我来说，提取更多术语不完全在我的字典中的实体是非常有趣的软匹配，但它可以增加我的运行时间。

我认为我的问题是为每个句子做很多正则表达式（我有 300,000 个条目的字典），因为我必须在句子中找到术语。如果没有机器学习算法，你怎么能解决这个问题？和机器学习算法？现在，我可以灵活地更改我的编程语言、数据库......

非常感谢！！！

问候，

亚历克斯。

score 4 · Accepted Answer

与其构建一个 RE term，不如构建一个可以捕获所有这些的单独的、分离的：

pattern = re.compile("(%s)" % "|".join(re.escape(term) for term in dictionary))

然后使用pattern.finditer.

至于“如何使用机器学习”，恕我直言，这个问题太笼统了。从谷歌搜索“生物医学命名实体识别”开始——有大量关于该问题的文献和各种工具。

python - 快速从句子中提取术语

1 回答 1

Related

Reference