我有一个包含专利信息的 130k 行文本文件,我只想保留日期(正则表达式"[0-9]{4}-[0-9]{2}-[0-9]{2} "
)以便在 Excel 中进行后续工作。为此,我需要保持行结构完整(也是空行)。我的主要问题是我似乎无法找到一种方法来识别并在同一行中保留多次出现的日期信息,同时删除所有其他信息。
原始文件结构:
US20110228428A1 | 美国 | | 7 | 2010-03-19 | 希捷科技有限责任公司 US20120026629A1 | 美国 | | 7 | 2010-07-28 | TDK公司| US20120127612A1 | 美国 | | 考官 | 2010-11-24 | | US20120147501A1 | 美国 | | 2 | 2010-12-09 | SAE MAGNETICS HK LTD,HEADWAY TECHNOLOGIES INC
所需的文件结构:
2010-03-19 2010-07-28 2010-11-24 2010-12-09
谢谢您的帮助!