我在维基百科编辑历史上有一个以文本分隔的文件。每一行都包含一个不同的维基百科编辑。该文件按页面标题排序,这样每个页面的每个编辑都是它自己的行(该行由制表符分隔,有 7 个不同的变量)。我需要的只是每个页面的第一次和最后一次编辑。我想要的是一个与此类似的文件,其中每个维基百科页面只有一行,这样每一行都包含该页面第一次和最后一次编辑的所有信息。本质上是文件中第一行和最后一个编辑行的组合。
我想知道是否有一个简单的 bash 脚本或简短的 python 代码(我可以在 mac osx 终端中运行的东西)可以通过 txt 文件并输出我想要的内容。
感谢您的任何帮助!
以下是文件的前几行,以了解它的外观:
6 233188 AmericanSamoa 2001-01-19T01:12:51Z ip:office.bomis.com ip:office.bomis.com 1516
6 133180191 AmericanSamoa 2007-05-24T14:41:33Z Ngaiklin 4477979 5
8 233189 AppliedEthics 2001-01-20T15:01:12Z ip:pD950754B.dip.t-dialin.net ip:pD950754B.dip.t-dialin.net 9
8 133180238 AppliedEthics 2007-05-24T14:41:48Z Ngaiklin 4477979 6
10 233192 AccessibleComputing 2001-01-21T02:12:21Z RoseParks 99 8
10 133180268 AccessibleComputing 2007-05-24T14:41:58Z Ngaiklin 4477979 6
12 18201 Anarchism 2002-02-25T15:00:22Z ip:Conversion_script ip:Conversion_script 1214
12 19746 Anarchism 2002-02-25T15:43:11Z ip:140.232.153.45 ip:140.232.153.45 1460
12 19749 Anarchism 2002-02-27T17:34:09Z ip:24.188.31.147 ip:24.188.31.147 1474
给定上述行的输出示例如下所示:(请记住,每个页面都有不同数量的编辑,从两个到数百个不等,我只想要每个页面的第一个和最后一个编辑。我想要输出类似于以下示例,其中每个页面都有一行包含第一个和最后一个编辑信息。
6 233188 AmericanSamoa 2001-01-19T01:12:51Z ip:office.bomis.com ip:office.bomis.com 1516 2007-05-24T14:41:33Z Ngaiklin 4477979 5
8 233189 AppliedEthics 2001-01-20T15:01:12Z ip:pD950754B.dip.t-dialin.net ip:pD950754B.dip.t-dialin.net 9 2007-05-24T14:41:48Z Ngaiklin 4477979 6
10 233192 AccessibleComputing 2001-01-21T02:12:21Z RoseParks 99 8 2007-05-24T14:41:58Z Ngaiklin 4477979 6
12 18201 Anarchism 2002-02-25T15:00:22Z ip:Conversion_script ip:Conversion_script 1214 2002-02-27T17:34:09Z ip:24.188.31.147 ip:24.188.31.147 1474