我正在研究 R 中的实体提取。我有一个UniqueID
andText
字段 - 需要从文本字段中提取位置信息。我的文本字段有带有位置名称的描述
text <- c("SERANGOON JC","Blk 4","SHELL TAMPINES AVE 4","SENOKO INDUSTRIAL ESTATE","Senoko Estate","Senoko","senok Est.")
我有一个位置列表;
Loc <- c("SERANGOON JUNIOR COLLEGE","Block 4","SHELL TAMPINES AVENUE 4","SENOKO INDUSTRIAL ESTATE")
需要匹配loc
并从字段中提取这些位置text
。在文本字段SENOKO INDUSTRIAL ESTATE
中以不同方式拼写Senoko Estate
或Senoko
(半名)或拼写错误senok Est.
。对于上述所有拼写错误和半拼写的单词 - 我需要得到确切的名称从loc
即。SENOKO INDUSTRIAL ESTATE
.
我的输出看起来像:(从文本字段中提取位置 - 为半拼和拼写错误的单词获取正确的单词)
ID Location
123 SERANGOON JUNIOR COLLEGE|Block 4|SHELL TAMPINES AVENUE 4|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE