1

我有一个包含专利信息的 130k 行文本文件,我只想保留日期(正则表达式"[0-9]{4}-[0-9]{2}-[0-9]{2} ")以便在 Excel 中进行后续工作。为此,我需要保持行结构完整(也是空行)。我的主要问题是我似乎无法找到一种方法来识别并在同一行中保留多次出现的日期信息,同时删除所有其他信息。

原始文件结构:

US20110228428A1 | 美国 | | 7 | 2010-03-19 | 希捷科技有限责任公司
US20120026629A1 | 美国 | | 7 | 2010-07-28 | TDK公司| US20120127612A1 | 美国 | | 考官 | 2010-11-24 | | US20120147501A1 | 美国 | | 2 | 2010-12-09 | SAE MAGNETICS HK LTD,HEADWAY TECHNOLOGIES INC

所需的文件结构:

2010-03-19
2010-07-28 2010-11-24 2010-12-09

谢谢您的帮助!

4

1 回答 1

3

搜索

.*?(?:([0-9]{4}-[0-9]{2}-[0-9]{2})|$)

并替换为

" $1"

不要加引号,只是为了表明 . 之前有一个空格$1。这也会在连续的第一场比赛之前放置一个空格。

.*?此正则表达式将在找到日期或行尾( )之前尽可能少地匹配$。如果找到日期,则将其存储在$1括号中。因此,作为替换,只需放置一个空格来分隔找到的日期,然后将找到的日期与$1.

于 2013-04-29T08:35:55.477 回答