java - 在java中读取乌尔都语文件

Question

我正在尝试读取具有 urdu 数据的文件。当我在记事本++中查看文件时，它有乌尔都语中的数据。但是当我在 Eclipse 中查看它时，它会显示某种类型的编码（可能是它有一些默认值）。

原始乌尔都语数据（记事本++）：

"10","کراچی میں ٹماٹر کی قیمت میں کمی،25روپے فی کلو ہوگیا","Entertainment"

在日食中：

"10","Ú©Ø±Ø§Ú†ÛŒ Ù…ÛŒÚº Ù¹Ù…Ø§Ù¹Ø± Ú©ÛŒ Ù‚ÛŒÙ…Øª Ù…ÛŒÚº Ú©Ù…ÛŒØŒ25Ø±ÙˆÙ¾Û’ Ù�ÛŒ Ú©Ù„Ùˆ Û�ÙˆÚ¯ÛŒØ§","Entertainment"

现在这很奇怪，默认情况下会发生一些编码。有什么方法可以获取原始形式的数据，这样当我对其进行一些处理并将其写入文件时，我希望以原始乌尔都语形式而不是任何编码处理数据。

这是代码。

public class DataProcessing {

    /**
     * @param args
     */
    public static void main(String[] args) {
        // TODO Auto-generated method stub
        DataProcessing dataProcessingObj = new DataProcessing();
        dataProcessingObj.readDataFromFile("small_dataset.txt");
    }

    private void readDataFromFile(String fileName)
    {
        BufferedReader  br = null;
        try{
            br = new BufferedReader(new FileReader(fileName));
            String line = "";
            while( (line = br.readLine()) != null )
            {
                System.out.println(line);
            }
        }
        catch(Exception ex){
            ex.printStackTrace();
        }
    }
}

如果你能帮助我，我会很感激你。

score 1 · Accepted Answer

不要使用 FileReader/FileWriter，因为它们是使用默认平台编码的旧实用程序类。您要指定编码， UTF-8或Windows-1256。（Notepad++ 将显示正确的编码。）

private void readDataFromFile(String fileName)
{
    Path path = Paths.get(fileName);
    Charset charset = StandardCharsets.UTF_8;
    try (BufferedReader br = Files.newBufferedReader(path, charset)) {
        String line;
        while( (line = br.readLine()) != null )
        {
            System.out.println(line);
        }
    }
    catch(Exception ex) {
        ex.printStackTrace();
    }
}

或者在 java 8 中：

private void readDataFromFile(String fileName) throws IOException
{
    Path path = Paths.get(fileName);
    Charset charset = Charset.forName("Window-1256");
    Files.lines(path, charset).forEach(System.out::println);
}

java - 在java中读取乌尔都语文件

1 回答 1

Related

Reference