0

基本上,我编写了一个从收件箱中读取电子邮件的应用程序。我一直使用从 Gmail 发送的电子邮件来测试该应用程序。但是现在当我尝试阅读从 Outlook 发送的电子邮件时,我没有收到任何内容。

我记录了两封电子邮件的内容类型: Gmail 返回:multipart/alternative; boundary=047d7b342bf2b6847f04d11df78a Outlook 返回:text/html; charset=iso-8859-1 注意:这些是相同的电子邮件,只是从不同的邮件客户端发送的。

来自 Gmail 的邮件将是 Multipart 的一个实例。而 Outlook 电子邮件将是 String 的一个实例。

我的代码:

检查消息是多部分的实例还是字符串的方法。

public void getContent(Message msg) throws IOException, Exception {

    Object contt = msg.getContent();
    System.out.println("Contenttype: " + msg.getContentType());

    if (contt instanceof Multipart) {
        checkDisposition = true;
        handleMultipart((Multipart) contt);
    } else if (contt instanceof String) {   
       handlePart((Part) msg);
    }
    prepareEmail(mpMessage);
}

如果消息是多部分的,则将调用此方法:

public void handleMultipart(Multipart multipart)
        throws MessagingException, IOException, Exception {
    mpMessage = getText(multipart.getBodyPart(0));

    for (int z = 1, n = multipart.getCount(); z < n; z++) {
        handlePart(multipart.getBodyPart(z));

    }
}

如果消息不是,这将直接调用:

public void handlePart(Part part)
        throws MessagingException, IOException, Exception {



    Object con = messageCopy.getContent();

    String disposition = part.getDisposition();
    String contentType = part.getContentType();

    if (checkDisposition) {


        if (disposition == null) {

            System.out.println("Disposition is null");

        } else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) {
            System.out.println("Attachment: " + part.getFileName()
                    + " : " + contentType);
            input = part.getInputStream();
            bytes = IOUtils.toByteArray(input);
        } else if (disposition.equalsIgnoreCase(Part.INLINE)) {
            System.out.println("Inline: "
                    + part.getFileName()
                    + " : " + contentType);
        } else {
            System.out.println("Other: " + disposition);
        }
    }else{
        mpMessage = part.getContent().toString(); //returns nothing



        System.out.println("mpMessage handlePart "+mpMessage); //returns nothing
        System.out.println("mpMessage handlePart "+part.getLineCount()); //returns 0
        System.out.println("mpMessage handlePart "+part.getContentType()); //returns text/html chartset=iso-8859-1
        System.out.println("mpMessage handlePart "+part.getSize()); // returns 22334
        part.writeTo(System.out); //See below

    }

}

从部件返回文本的方法:

private String getText(Part p) throws
        MessagingException, IOException {

    System.out.println("getText contentType "+p.getContentType());

//This part gets called if trying to read an Outlook mail, its not clear for me how to  retrieve the text from the part. Since `p.getContent()` returns nothing
    if (p.isMimeType("text/*")) {
        String s = (String) p.getContent();
        System.out.println();
        return String.valueOf(s);
    }

    if (p.isMimeType("multipart/alternative")) {
        Multipart mp = (Multipart) p.getContent();
        String text = null;
        for (int i = 0; i < mp.getCount(); i++) {
            Part bp = mp.getBodyPart(i);
            if (bp.isMimeType("text/plain")) {
                String s = getText(bp);
                if (s != null) {
                    return s;
                }
            }
        }
        return text;
    }
    return null;
}

part.writeTo(System.out)返回:

收到:来自 AMSPRD0710HT005.eurprd07.prod.outlook.com 服务器 (TLS) id 00000;2012 年 12 月 20 日星期四 09:28:23 +0000 收到:来自 AMSPRD0710MB354.eurprd07.prod.outlook.com ([00.000.0000]) 由 AMSPRD0710HT005.eurprd07.prod.outlook.com ([00.000.0000]) 与 mapi编号 14.16.0245.002;2012 年 12 月 20 日星期四 09:28:05 +0000 从:测试到:支持主题:Verwerkingsverslag Kenmerk:0824496 主题:Verwerkingsverslag Kenmerk:0824496 主题索引:Ac3elFC2qYsSo+SOT2ii4HnbCCqgVw== 日期:2012 年 12 月 20 日星期四 10: 28:05 +0100 消息 ID:...

等等。

消息本身的内容作为 HTML 代码返回,而不仅仅是普通文本。

如何从 Outlook 电子邮件中检索纯文本,而不是 HTML 代码?或者如何在handlePart 中检索零件的内容?

任何帮助表示赞赏,

谢谢!

4

1 回答 1

2

您似乎假设 Outlook 将纯文本与 HTML 版本一起发送,但事实并非如此。您从 Outlook 记录的电子邮件的 MIME 类型是text/html,这表明它只是一个 HTML 格式的文档。另一方面,Gmail 版本发送了 的文档multipart/alternative,这可能表明同一文档中有电子邮件的多个版本(纯文本和 HTML——我相信这是 Gmail 的默认行为)。因此,如果您获得的是 HTML 编码版本,您将获得电子邮件的“文本”,就像它发送时一样。

不要求使用纯文本版本或任何其他格式发送电子邮件。您可以确保邮件客户端以您的消费程序可以处理的格式发送电子邮件,或者更改消费程序以处理正在发送的格式。

除了上述之外,您可能还需要重新考虑这一行:

mpMessage = getText(multipart.getBodyPart(0));

这似乎假设多部分消息的第一部分将是纯文本文档和消息的文本。这可能是一个糟糕的假设。


因此,假设您实际上已收到带有 HTML 内容的邮件消息,则getContent()不应返回null或为空字符串。它应该根据InputStream文档返回MimeBodyPart#getContent()一个. 阅读InputStream应该使您能够生成带有 HTML 标记的字符串。

由于您似乎并不关心 HTML,而只关心内容,因此只需使用 Java HTML 解析库(例如Jsoup )就可以大大简化该过程。基本上,您可以通过更改为以下内容将其集成到您当前的代码getText()中:

private String getText(Part p) throws MessagingException, IOException {
    System.out.println("getText contentType "+p.getContentType());
    if (p.isMimeType("text/plain")) {
        String s = (String) p.getContent();
        System.out.println(s);
        return s;
    } else if (p.isMimeType("text/html")) {
        // the last two parameters of this may need to be modified
        String s = Jsoup.parse(p.getInputStream(), null, null).text();
        System.out.println(s);
        return s;
    } else if (p.isMimeType("multipart/alternative")) {
        Multipart mp = (Multipart) p.getContent();
        String text = "";
        for (int i = 0; i < mp.getCount(); i++) {
            Part bp = mp.getBodyPart(i);
            if (bp.isMimeType("text/*")) {
                String s = getText(bp);
                if (s != null) {
                    text += s;
                }
            }
        }
        return text;
    }
    return null;
}

请注意,这假设电子邮件足够小,可以完全在内存中读取和解析。

于 2012-12-20T11:54:09.010 回答