我在文本挖掘工作,我的工作重点是生物医学实体(基因、蛋白质、药物和疾病)。我想和你分享一些问题。
现在,我的目标是在生物医学文本(来自 Medline)中找到生物医学实体,并通过术语词典,我可以使用其唯一标识符识别找到的每个实体。
为了存储文本、字典和结果,我使用了 MongoDB(一个非 SQL 数据库)。每个摘要都被分成句子,每个句子都存储在一个新记录中(带有标记列表、块和词性标签)。为了查找实体,我获取所有句子,并为每个句子为字典中的每个术语创建一个正则表达式(在 Python 中):
for term in dicitonary:
matches = re.finditer(r'(' + term + ')', sentence)
for m in matches:
ini = m.start()
end = m.end()
result.append(ini, end, dictionary.get_identification[term])
但这真的很慢,我有几个 150,000 个摘要的子集(>1,000,000 个句子)。
对我来说,提取更多术语不完全在我的字典中的实体是非常有趣的软匹配,但它可以增加我的运行时间。
我认为我的问题是为每个句子做很多正则表达式(我有 300,000 个条目的字典),因为我必须在句子中找到术语。如果没有机器学习算法,你怎么能解决这个问题?和机器学习算法?现在,我可以灵活地更改我的编程语言、数据库......
非常感谢!!!
问候,
亚历克斯。