0

我正在尝试从http://rss.slashdot.org/Slashdot/slashdot<title><description>的压缩 XML 提要中进行解析。我正在尝试执行以下操作

curl --silent "http://rss.slashdot.org/Slashdot/slashdot" | awk '/\btitle\b(.*?)\bdescription\b/' 

等等grep -E,但我无法得到我想要的子字符串。它总是返回整个 XML,因为它被压缩并且数据在一行中。

我能够通过在文本编辑器中运行它来测试我的正则表达式字符串。

感谢你的帮助!!谢谢!

4

2 回答 2

1

使用 XML 解析器会有所帮助,这里使用perland进行测试XML::Twig。使其适应您的需求。

内容script.pl

#!/usr/bin/env perl

use warnings;
use strict;
use XML::Twig;

my $twig = XML::Twig->new(
    twig_handlers => {
        'title' => \&extract_text,
        'description' => \&extract_text,
    },  
)->parsefile( shift );

sub extract_text {
    my ($t, $e) = @_; 
    printf qq|%s\n=================\n|, $e->tag;
    printf qq|%s\n\n|, $e->text;
}

像这样运行它:

curl --silent "http://rss.slashdot.org/Slashdot/slashdot" | perl script.pl -

对于每对标题和描述,这会产生类似以下内容:

title
=================
Proof-of-Concept Port of XBMC to SDL 2.0 and Wayland

description
=================
hypnosec wrote in with news that XBMC has  ...
于 2013-03-09T22:07:27.907 回答
0

这是一个 XSLT 解决方案:

curl -s -o- http://rss.slashdot.org/Slashdot/slashdot | xsltproc slashdot.xsl -

slashdot.xsl在哪里

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" />

<xsl:variable name="newline">
<xsl:text>
</xsl:text>
</xsl:variable>

<xsl:template match="/">
    <xsl:apply-templates select='//item' />
</xsl:template>

<xsl:template match='//item'>
    <xsl:value-of select='title' /><xsl:value-of select='$newline' />
    <xsl:text>====</xsl:text><xsl:value-of select='$newline' />
    <xsl:value-of select='description' /><xsl:value-of select='$newline' />
    <xsl:value-of select='$newline' />
</xsl:template>

</xsl:stylesheet>
于 2013-03-10T00:22:54.253 回答