我无法弄清楚用于解析文本文件和识别段落的正确正则表达式。
我目前拥有的:
[\n\n]+
示例文本:
Das Pensionat Klinger war bereits etwas zusammengeschmolzen, als das junge Ehepaar daselbst eintrat。Es war ein unfreundlicher, regnerischer Sommer gewesen。Klagen überall ... aus der Schweiz -- vom Salzkammergut her, wo der berüchtigte »Schnürlregen« tagaus tagein herabgoß -- Klagen vom Ostseestrande und aus dem Engadin ... Klagen endlich auch aus dem lieblichen Gebirgsnest in Süd-Bayern, in welchem man durch schönes Wetter sonst arg verwöhnt 战争。
Ein so reizendes Stück Erde!Tief gelegen -- hoch gelegen, wie man's eben nehmen wollte, denn die zierlichen, wie aus der Spielzeugschachtel genommenen Häuschen kletterten hier waghalsig die Berge empor, versteckten sich dorteigenwillig unter breitästigen Obstbäumen tief drunten im Thal。Aber die Sonne fand sie alle und übergoß sie mit breiten Strahlenfluten hellen Goldes, und der Bergwind, wie er frisch und kühl vom Gebirge herunterfuhr, strich darüber hin -- und ringsumher griffen die Berge wie die Glieder einer gewaltigen Kette ineinander ... einige grün , dicht bewaldet, die anderen kahl und schroff, hoch oben nur mit kümmerlichem Fichtenwuchs bestanden, und etwelche unter ihnen stolz zu den Wolken aufragend, ewigen Schnee auf dem Haupt, und in den Falten des Obergewandes blauschimmerndes Gletschereis!
我不断收到反馈,在行尾我收到了一个令牌,说 TokenParagraph。
例如:
....还有一个[这是它错过步骤的地方]
编辑:
尝试的时候(\n|^).*?(?=\n|$)
我明白了,
为 lexing-0.1.0.0 预处理可执行文件“Main”.. Tokens.x:22:8: 解析错误
%wrapper "basic"
$whiteSpace = [\ \t \f \v \r]
$digit = 0-9
$alpha = [a-zA-Z]
tokens :-
$whiteSpace+ ;
$digit+ ;
(\n|^).*\?(\?=\n|$) { \s -> TokenParagraph }