string - JavaCC 中的非英语标记

Question

我已经尝试过这个链接：Print in JavaCC。但是由于某种未知的原因，该答案对我不起作用。我将文本复制并粘贴到文件中并运行它，但是当我输入时µ，例如，它没有打印任何内容。

我希望能够在我的字符串标记中使用非英语。仅出于测试目的，现在我有：

options 
{
    UNICODE_INPUT = true;
    JAVA_UNICODE_ESCAPE = false;
}

PARSER_BEGIN(Unicode)

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;

public class Unicode
{
    public static void main(String[] args)
    {
        if(args.length == 0)
        {
            System.out.println("File name not specified!");
            return;
        }

        System.out.println("-----Start-----\n\n");
        try
        {
            FileInputStream fis = new FileInputStream(args[0]);
            InputStreamReader isr = new InputStreamReader(fis, "UTF8");

            Unicode parser = new Unicode(isr);
            parser.start();
        }
        catch(FileNotFoundException ex){
            System.out.println(ex);
        }
        catch(UnsupportedEncodingException ex){
            System.out.println(ex);
        }
        catch(ParseException ex){
            System.out.println(ex);
        }
        catch(TokenMgrError ex){
            System.out.println(ex);
        }
        System.out.println("\n\n------End-------");
    }
}

PARSER_END(Unicode)

TOKEN:{
    //         á          é          í          ó          ú
    <STR: ("\u00e1" | "\u00e9" | "\u00ed" | "\u00f3" | "\u00fa")>
}

void start():
{
    Token found;
}
{
    (
        found = <STR>
        {System.out.println("Input: " + found.image);}
    )+

    <EOF>
}

当我运行解析器并为其提供一个包含的文件á, é, í, ó, ú时，我得到的只是一堆问号。

Input: ?
Input: ?
Input: ?
Input: ?
Input: ?

我读过一些关于必须修改自动生成的字符流文件的内容，但我不太明白。

score 1 · Accepted Answer

这是用于 Java PrintStream 的默认编码与影响标准输出的命令 shell 中的设置之间的编码问题。

由于明确指定了 InputStream 编码，并且输入显然可以解析，因此问题与 JavaCC 无关。因此，它也应该可以通过以下方式重现：

  System.out.println("\u00e1\u00e9\u00ed\u00f3\u00fa");

System.out PrintStream 使用的编码取自系统属性“file.encoding”，在我的 Windows 系统上默认为“Cp1252”（即 Windows-1252）。它可以通过设置“file.encoding”来强制使用不同的东西，例如

  java -dfile.encoding=UTF-8 Unicode

标准的 PrintStream 也可以替换为使用不同编码的标准：

  System.setOut(new PrintStream(System.out, true, "UTF-8"));

以上任何一种都将强制以指定的编码生成输出。但是，在控制台上显示结果时，重要的是要了解 shell 使用什么编码。我的windows默认是cp850，可以通过chcp命令修改编码。上面的 println 将使用 Java 中的“Windows-1252”和chcp 1250.

string - JavaCC 中的非英语标记

1 回答 1

Related

Reference