1

我正在开发一个简单的 Pandoc 阅读器,它可以处理论坛中使用的一些基本的类似 html 的语法(例如[b]bold[/b][h1]Header[/h1])。

我设法让一个基本的读者使用 LPEG(如 pandoc 文档中所述),但我找到的解决方案感觉很笨拙。有没有更好的方法来定义围绕开始和结束标签的语法(使用诸如优先级或负前瞻或 LPEG 分组之类的东西)?

这是我能够得到的工作:

local P, S, R, Cf, Cc, Ct, V, Cs, Cg, Cb, B, C, Cmt =
  lpeg.P, lpeg.S, lpeg.R, lpeg.Cf, lpeg.Cc, lpeg.Ct, lpeg.V,
  lpeg.Cs, lpeg.Cg, lpeg.Cb, lpeg.B, lpeg.C, lpeg.Cmt

local whitespacechar = S(" \t\r\n")
local wordchar = (1 - whitespacechar)
local spacechar = S(" \t")
local newline = P"\r"^-1 * P"\n"
local blanklines = newline * (spacechar^0 * newline)^1
local endline = newline - blanklines
local emph_start = P"[i]"
local emph_end = P"[/i]"
local strong_start = P"[b]"
local strong_end = P"[/b]"
local header_start = P"[h" * (R"17" / tonumber) * "]" 
local header_end = P"[/h" * R"17" * "]"
local tag_start = emph_start + strong_start + header_start
local tag_end = emph_end + strong_end + header_end

-- Grammar
G = P{ "Pandoc",
  Pandoc = Ct(V"Block"^0) / pandoc.Pandoc;
  Block = blanklines^0 * (V"Header" + V"Para") ;
  Para = Ct(V"Inline"^1) / pandoc.Para;
  Inline = V"Emph" + V"Strong" + V"Str" + V"Space" + V"SoftBreak" ;
  Str = (1 - (whitespacechar + tag_end + tag_start))^1 / pandoc.Str;
  Space = spacechar^1 / pandoc.Space;
  SoftBreak = endline / pandoc.SoftBreak;
  Emph = emph_start * Ct(V"Inline"^1) * emph_end / pandoc.Emph;
  Strong = strong_start * Ct(V"Inline"^1) * strong_end / pandoc.Strong;
  Header = header_start * Ct(V"Inline"^1) * header_end / pandoc.Header;
}

function Reader(input)
  return lpeg.match(G, input)
end

这是我想转换的那种文本:

[h1]A Test[/h1]
The [i]quick[/i] dog jumped over the lazy stream!
Tags should be able to be applied [b]mid[/b]word.
4

0 回答 0