1

我有一个大文本文件,每一行都是一个独特的概念。每行可能只有少量模式。

如果我想遍历文本文件并找到行之间的共同模式,以供以后使用该行的每个子部分的正则表达式提取;最好的方法是什么,或者是否有任何现有的工具?我更喜欢 Python。

所以一行可能会遵循以下模式:

(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)

例如,我可能不知道 (!)。

基本上,它应该提取一个正则表达式列表,这些正则表达式总共涵盖了每条可能的行,但具有定义的构建块;像(1 到 5 个字母)(句子)(任何未包含在构建块中的内容)

4

1 回答 1

0

您正在寻找的是一种用于模式识别和/或数据挖掘的算法,它们是非常复杂的人工智能子领域。

我建议您要么选择一本关于该主题的书,要么尝试以不同的方式解决您的问题。

于 2012-12-28T16:08:13.773 回答