背景:
我正在开发一个程序,它遍历存储在我的计算机上的所有电影和电视剧集,对它们进行评分(使用烂番茄)并按评分顺序对它们进行排序。
我通过从文件名中删除所有不必要的文本(例如“.avi”、“720p”等)来提取电影名称。
我正在使用 Java。
问题:
某些文件夹包含电影文件,例如:
第301话热带雨林Schmainforest.avi
第302话自燃.avi
“剧集”这个词和数字是有效的,并且是电影中的常用词,所以我不能简单地删除它们。但是,从名称的重复性中可以清楚地看出“Episode”和“3XX”应该被删除。
另一个文件夹可能是:
720p.S5.E1.cripple Fight.avi
720p.S5.E2.towelie.avi
许多像这样的 任意模式存在于不同的文件组中,我需要一些东西来识别这些任意模式,以便我可以提取关键字。为每种情况编写正则表达式是不可行的。
概括:
是否有工具或 API 可用于查找复杂的重复模式(必须能够匹配数字序列)?[类似于最长的公共序列库]