我有一个大文本文件,每一行都是一个独特的概念。每行可能只有少量模式。
如果我想遍历文本文件并找到行之间的共同模式,以供以后使用该行的每个子部分的正则表达式提取;最好的方法是什么,或者是否有任何现有的工具?我更喜欢 Python。
所以一行可能会遵循以下模式:
(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)
例如,我可能不知道 (!)。
基本上,它应该提取一个正则表达式列表,这些正则表达式总共涵盖了每条可能的行,但具有定义的构建块;像(1 到 5 个字母)(句子)(任何未包含在构建块中的内容)