0

我正在尝试从充满 html 标签的 IMDB 前 250 名列表(来自页面源)中解析电影名称。我有一个正则表达式,但是当我使用 grep 命令运行它时,一段时间后它会转储核心。命令如下: grep -o -P ">[[A-Z]+\w* ([a-zA-Z]+\w* ?)*<" film.xml。这个核心转储的原因是什么?

4

2 回答 2

2

我不完全了解您要做什么,但请尝试:

grep -o -P ">[A-Z]\w*( [a-zA-Z]\w*)* ?<" film.xml
于 2013-08-24T19:14:43.077 回答
1

你的正则表达式太贪心了。这通常发生在您*在组内使用时,该组本身具有*. 减少*and+或使用它们的非贪婪形式的数量:*?and +?,这将有很大帮助。

于 2013-08-24T19:14:41.273 回答