python - 编写在文本文件中搜索正则表达式小节组合的工具的最佳方法

Question

我有一个大文本文件，每一行都是一个独特的概念。每行可能只有少量模式。

如果我想遍历文本文件并找到行之间的共同模式，以供以后使用该行的每个子部分的正则表达式提取；最好的方法是什么，或者是否有任何现有的工具？我更喜欢 Python。

所以一行可能会遵循以下模式：

(1 to 5 alpha letters)(,)(space)(Sentence)
(word)(.)(space)(Sentence)(Sentence)
(word)(number)(.)(space)(Sentence)(Sentence)
(word)(!)(space)(Sentence)(Sentence)

例如，我可能不知道 (!)。

基本上，它应该提取一个正则表达式列表，这些正则表达式总共涵盖了每条可能的行，但具有定义的构建块；像（1 到 5 个字母）（句子）（任何未包含在构建块中的内容）

score 0 · Accepted Answer

您正在寻找的是一种用于模式识别和/或数据挖掘的算法，它们是非常复杂的人工智能子领域。

我建议您要么选择一本关于该主题的书，要么尝试以不同的方式解决您的问题。

python - 编写在文本文件中搜索正则表达式小节组合的工具的最佳方法

1 回答 1

Related

Reference