我正在尝试从从 PDF 中提取的文本中解析出行项目。提取的文本格式很差,每页只有一个长字符串。没有任何有用的分隔符,但行以两个字符串之一开始。我已经使用包含这两个字符串的字符串数组设置了 Split(),但我需要知道元素在哪个分隔符上进行拆分。
我找到了这个链接,但我在 RegEx 方面并不擅长。有人可以协助编写 RegEx 字符串吗?
var lineItems = page.PageText.Split(new string[] { "First String Delimiter", "Second String Delimiter" }, StringSplitOptions.None);
我需要知道的是 element[x] 是“第一个字符串定界符”还是“第二个字符串定界符”的结果。
编辑:我不在乎 Regex 是否是解决方案。Linq 可能同样适合。Linq 是在我获得学位后才出来的,所以我对它同样不熟悉。
想象一个页面,其中大约 15-20 个端到端作为一个没有回车的长字符串返回:由于它们都以“公司贸易支付信用”或“预授权 ACH 信用”开头,我可以拆分这些,但我需要知道它是什么类型。
Preauthorized ACH Credit (165) 10,000.00 489546541 0000000000 Text 一些关于交易的详细描述 - Preauthorized ACH Credit (165) 5,310.99 8465498461 0000000000 Text 另一个详细描述 Corporate Trade Payment Credit (165) 4,933.17 840780000000075