我有一个文本数据列表,我想从中提取某些部分。我目前正在使用正则表达式来提取我想要的数据,但它开始变得非常复杂,因为每条记录都略有不同。有没有办法使用 Rapidminer 根据一些典型示例“学习”正则表达式?
例如,对于以下每条记录,我想将文本提取24
到18
两个新属性中:
word 24 on line 18
Wrd 24 of Ln 18
Line 18, Word 24
Word 24 comes after word 22 on line 18 (not line 19)
我看过所有的文本处理视频,但没有一个显示如何做这种事情,我真的不知道从哪里开始。除了手动创建正则表达式之外,任何人都可以建议一种方法吗?