我在解析包含非法字符(二进制标记)的文本文件时遇到问题。答案如下:
测试.csv
^000000^id1,text1,text2,text3
这里^000000^
是源文件中非法字符的文本表示。
我正在考虑在处理之前使用 java.nio 来验证该行。所以,我正在考虑引入一个 Validator trait,如下所示:
import java.nio.charset._
trait Validator{
private def encoder = Charset.forName("UTF-8").newEncoder
def isValidEncoding(line:String):Boolean = {
encoder.canEncode(line)
}
}
你们认为这是处理这种情况的正确方法吗?
谢谢