11

可能重复:
如何从文件内容创建 Java 字符串

我有一个 html 文件,我想用它来提取信息。为此,我正在使用 Jsoup。现在要使用 Jsoup,我需要将 html 文件转换为字符串。我怎样才能做到这一点?

File myhtml = new File("D:\\path\\report.html")';

现在,我想要一个包含 html 文件中内容的 String 对象。

4

7 回答 7

31

我使用apache common IO将文本文件读入单个字符串

String str = FileUtils.readFileToString(file);

简单而“干净”。您甚至可以轻松设置文本文件的编码。

String str = FileUtils.readFileToString(file, "UTF-8");
于 2012-09-24T06:35:57.587 回答
13

使用像GuavaCommons / IO这样的库。他们有oneliner方法。

番石榴:

Files.toString(file, charset);

公地/ IO:

FileUtils.readFileToString(file, charset);

如果没有这样的库,我会编写一个辅助方法,如下所示:

public String readFile(File file, Charset charset) throws IOException {
    return new String(Files.readAllBytes(file.toPath()), charset);
}
于 2012-09-24T06:37:34.320 回答
8

使用 Java 7,它很简单:

final String EoL = System.getProperty("line.separator");
List<String> lines = Files.readAllLines(Paths.get(fileName),
        Charset.defaultCharset());

StringBuilder sb = new StringBuilder();
for (String line : lines) {
    sb.append(line).append(EoL);
}
final String content = sb.toString();

但是,它确实有一些小注意事项(例如处理不适合内存的文件)。

我建议您查看官方 Java 教程中的相应部分(如果您有以前的 Java,情况也是如此)。

正如其他人指出的那样,您可能会发现 sime 3rd 方库很有用(例如 Apache commons I/O 或 Guava)。

于 2012-09-24T06:35:29.780 回答
4

使用文件输入流读取文件并将文件内容附加到字符串。

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class CopyOffileInputStream {

    public static void main(String[] args) {

        //File file = new File("./store/robots.txt");
        File file = new File("swingloggingsscce.log");

        FileInputStream fis = null;
        String str = "";

        try {
            fis = new FileInputStream(file);
            int content;
            while ((content = fis.read()) != -1) {
                // convert to char and display it
                str += (char) content;
            }

            System.out.println("After reading file");
            System.out.println(str);

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                if (fis != null)
                    fis.close();
            } catch (IOException ex) {
                ex.printStackTrace();
            }
        }
    }
}
于 2012-09-24T06:47:18.830 回答
0

myhtml您可以将to的所有内容复制String如下:

Scanner myScanner = null;
try
{
    myScanner = new Scanner(myhtml);
    String contents = myScanner.useDelimiter("\\Z").next(); 
}
finally
{
    if(myScanner != null)
    {
        myScanner.close(); 
    }
}

当然,您可以添加一个catch块来正确处理异常。

于 2012-09-24T06:36:17.127 回答
0

顺便说一句,Jsoup 有获取文件的方法:http://jsoup.org/apidocs/org/jsoup/Jsoup.html#parse(java.io.File,% 20java.lang.String )

于 2012-09-24T06:36:31.860 回答
-1

为什么您不逐行读取文件并将其添加到 StringBuffer 中?

到达文件末尾后,您可以从 StringBuffer 中获取字符串。

于 2012-09-24T06:35:59.833 回答