0

我正在尝试解析文本文件并使用 lua 将其转换为表(或 JSON)。示例测试文件如下:

ipv4     2 tcp      6 3598 ESTABLISHED src=192.168.1.117 dst=137.194.2.78 sport=59078 dport=80 packets=4 bytes=298 src=137.194.2.78 dst=132.227.127.212 sport=80 dport=59078 packets=3 bytes=567 [ASSURED] mark=0 use=2
ipv4     2 udp      17 55 src=192.168.1.117 dst=157.56.149.60 sport=49991 dport=3544 packets=5 bytes=445 [UNREPLIED] src=157.56.149.60 dst=132.227.127.212 sport=3544 dport=49991 packets=0 bytes=0 mark=0 use=2
ipv4     2 tcp      6 3420 ESTABLISHED src=192.168.1.104 dst=193.51.224.187 sport=35918 dport=443 packets=19 bytes=2521 src=193.51.224.187 dst=132.227.127.212 sport=443 dport=35918 packets=16 bytes=9895 [ASSURED] mark=0 use=2
ipv4     2 udp      17 59 src=192.168.1.117 dst=192.168.1.255 sport=17500 dport=17500 packets=139 bytes=23908 [UNREPLIED] src=192.168.1.255 dst=192.168.1.117 sport=17500 dport=17500 packets=0 bytes=0 mark=0 use=2
...

请注意,每行中的数据可以根据方向(正向和反向路径流)分为两部分。如果您有一个 linux 系统/openwrt 路由器,您可以使用该conntrack命令或通过阅读/proc/net/nf_conntrack.

我希望检索的是以下信息:

{ 1:
    {
    "bytes":    298,
    "src":      "192.168.1.117",
    "sport":    59078,
    "layer4":   "tcp",
    "dst":      "137.194.2.78",
    "dport":    80,
    "layer3":   "ipv4",
    "packets":  4,
    "rbytes":   567,
    "rpackets": 3
    },
{ 2: ...

其中 rbytes, rpackets 用于反向的字节和数据包(在我的示例文本文件中的第 1 行的后半部分)。

我的解析器如下:*

function conntrack(callback)
local connt = {}
if io.open("conntrack.temp", "r") then

    for line in io.lines("conntrack.temp") do
            line = line:match("^(.-( [^ =]+=).-)%2")
        local entry, flags = _parse_mixed_record(line, " +")

            if flags[6] ~= "TIME_WAIT" then
                entry.layer3 = flags[1]
                entry.layer4 = flags[3]
                for i=1, #entry do
                    entry[i] = nil
                end
                if callback then
                    callback(entry)
                else
                    connt[#connt+1] = entry
                end
            end
    end   
else
    return nil
end
return connt
end

function _parse_mixed_record(cnt, delimiter)
delimiter = delimiter or "  "
local data = {}
local flags = {}

for i, l in pairs(cnt:split("\n")) do
    for j, f in pairs(l:split(delimiter)) do
        local k, x, v = f:match('([^%s][^:=]*) *([:=]*) *"*([^\n"]*)"*')
        if k then
            if x == "" then
                table.insert(flags, k)
            else
                data[k] = v
            end
        end
    end
end

return data, flags
end

调用上面的函数(在split代码中包含一个简单的方法之后),我只能解析文件到每行的前半部分。所以基本上,没有rbytes或被rpackets解析。我知道负责这个的代码是

line = line:match("^(.-( [^ =]+=).-)%2")

代码中此行之后的print(line)语句向我显示:

ipv4 2 tcp 6 3598 已建立 src=192.168.1.117 dst=137.194.2.78 运动=59078 dport=80 数据包=4 字节=298

因此,该语句使用一种令人困惑的模式匹配来分割文件的每一行,我在玩了一下之后就明白了。我仍然没有得到的部分是%2在捕获模式之后发生的。我知道它用于以某种方式访问​​捕获的模式,但是我应该如何更改此语句以便line包含正向路径字节和数据包计数以及反向路径?我的主要问题是:这个陈述中的模式到底是什么?我可能会删除这一行来解析整个语句,但我想了解原始编码人员为什么这样做。

我已经阅读了 lua 模式匹配手册,但我仍然对使用%<some_number>. 为什么不起作用%1%3不起作用?

我发现了两个相关的 stackoverflow 问题:Q1Q2。更深入的解释将不胜感激。

此外,目前我无法使用我在此处提供的代码恢复超时值( line1 中的第 5 个字3598)或连接状态(ESTABLISHED, )。[ASSURED]我仍然是 lua 的初学者,希望能尽快解决这个问题。

*注意:这个解析器是我在 openwrt 路由器上的 luci sys 模块中可用的解析器的固定版本。有关详细信息,请参阅原始 luci.sys 源代码

在使用姿态调整 12.09 时,我注意到他们的 net.conntrack() 由于无法将对象解析为正确的 JSON 格式而无法正常工作。使用此模式的相关函数在 sys.lua 文件中给出,称为函数 conntrack(callback) 和内部函数 _parse_mixed_record(cnt, delimiter)。我的路由器使用了 luci-0.11 和 lua 5.1.4。

4

1 回答 1

0

该模式旨在仅保留每行的前部。这是它如何做到的。第二个括号 ,( [^ =]+=)捕获表单的第一个子字符串" stuff="。然后%2模式末尾的 仅当相同的字符串" stuff="再次出现时才会匹配。所以在一条线上

ipv4     2 tcp      6 3598 ESTABLISHED src=192.168.1.117 dst=137.194.2.78 sport=59078 dport=80 packets=4 bytes=298 src=137.194.2.78 dst=132.227.127.212 sport=80 dport=59078 packets=3 bytes=567 [ASSURED] mark=0 use=2

第二次捕获将是" src=",因此分配给 的第一次捕获line将是行的整个初始部分,直到第二src=出现之前,即这个初始部分:

ipv4     2 tcp      6 3598 ESTABLISHED src=192.168.1.117 dst=137.194.2.78 sport=59078 dport=80 packets=4 bytes=298

如果您也想获得后半部分,并将其分配给不同的变量,则可以将line = ...语句替换为

line1, _, line2 = line:match("^(.-( [^ =]+=).-)(%2.*)$")

这会将 line1 的前半部分分配给 line1(就像之前分配给 line 一样),并将 line2 的剩余部分分配给 line2,从" src=". 对于上面的示例行,您会得到

line1 = "ipv4     2 tcp      6 3598 ESTABLISHED src=192.168.1.117 dst=137.194.2.78 sport=59078 dport=80 packets=4 bytes=298"
line2 = " src=137.194.2.78 dst=132.227.127.212 sport=80 dport=59078 packets=3 bytes=567 [ASSURED] mark=0 use=2"

注意:_中间的line1andline2是为了捕获第二次捕获(这里是 string " src="),记住 match 按顺序返回所有捕获,无论您是否想要它们。

于 2013-07-25T18:26:41.323 回答