我有 30 个站点地图文件,如下所示:
<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.A.com/a</loc>
<lastmod>2013-08-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
<url>
<loc>http://www.A.com/b</loc>
<lastmod>2013-08-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.6</priority>
</url>
...
</urlset>
我想要每个 url 标签每行四列的输出,打印到屏幕上
http://www.A.com/a 2013-08-01 weekly 0.6
http://www.A.com/b 2013-08-01 weekly 0.6
我使用的方法是 Python BeautifulSoup 来解析标签,但是,性能非常慢,因为那里有 30 多个文件,每个文件有 300,000 行。我想知道是否有可能使用一些 shell AWK 或 SED 来做到这一点,或者......我只是使用了错误的工具来做到这一点。
由于站点地图的格式非常好,可能有一些正则表达式技巧可以绕过它。
任何人都有将 AWK 或 SED 中的记录/行划分为多行而不是换行符的经验?
非常感谢!