我需要解析文本文件,其中相关信息通常以非线性方式分布在多行中。一个例子:
1234
1 IN THE SUPERIOR COURT OF THE STATE OF SOME STATE
2 IN AND FOR THE COUNTY OF SOME COUNTY
3 UNLIMITED JURISDICTION
4 --o0o--
5
6 JOHN SMITH AND JILL SMITH, )
)
7 Plaintiffs, )
)
8 vs. ) No. 12345
)
9 ACME CO, et al., )
)
10 Defendants. )
___________________________________)
我需要提取原告和被告的身份。
这些成绩单有各种各样的格式,所以我不能总是指望那些漂亮的括号在那里,或者原告和被告的信息被整齐地框起来,例如:
1 SUPREME COURT OF THE STATE OF SOME OTHER STATE
COUNTY OF COUNTYVILLE
2 First Judicial District
Important Litigation
3 --------------------------------------------------X
THIS DOCUMENT APPLIES TO:
4
JOHN SMITH,
5 Plaintiff, Index No.
2000-123
6
DEPOSITION
7 - against - UNDER ORAL
EXAMINATION
8 OF
JOHN SMITH,
9 Volume I
10 ACME CO,
et al,
11 Defendants.
12 --------------------------------------------------X
这两个常数是:
- “原告”将出现在原告姓名之后,但不一定在同一行。
- 原告和被告的姓名将大写。
有任何想法吗?