13

我编写了一个应用程序,它从收件箱中获取所有电子邮件,过滤包含特定字符串的电子邮件,然后将这些电子邮件放入 ArrayList 中。

将电子邮件放入列表后,我正在对所述电子邮件的主题和内容做一些事情。这适用于没有附件的电子邮件。但是当我开始使用带有附件的电子邮件时,一切都不再按预期工作了。

这是我的代码:

public void getInhoud(Message msg) throws IOException {
    try {
        cont = msg.getContent();
    } catch (MessagingException ex) {
        Logger.getLogger(ReadMailNew.class.getName()).log(Level.SEVERE, null, ex);
    }
    if (cont instanceof String) {
        String body = (String) cont;


    } else if (cont instanceof Multipart) {
        try {
            Multipart mp = (Multipart) msg.getContent();
            int mp_count = mp.getCount();
            for (int b = 0; b < 1; b++) {
                    dumpPart(mp.getBodyPart(b));
            }
        } catch (Exception ex) {
            System.out.println("Exception arise at get Content");
            ex.printStackTrace();
        }
    }
}

public void dumpPart(Part p) throws Exception {
    email = null;
    String contentType = p.getContentType();
    System.out.println("dumpPart" + contentType);
    InputStream is = p.getInputStream();
    if (!(is instanceof BufferedInputStream)) {
        is = new BufferedInputStream(is);
    }
    int c;
    final StringWriter sw = new StringWriter();
    while ((c = is.read()) != -1) {
        sw.write(c);
    }

    if (!sw.toString().contains("<div>")) {
        mpMessage = sw.toString();
        getReferentie(mpMessage);
    }
}

电子邮件中的内容存储在字符串中。

当我尝试阅读没有附件的邮件时,此代码工作正常。但是,如果我使用带有附件的电子邮件,则字符串还包含 HTML 代码甚至附件编码。最终我想存储电子邮件的附件和内容,但我的首要任务是只获取没有任何 HTML 或附件编码的文本。

现在我尝试了一种不同的方法来处理不同的部分:

public void getInhoud(Message msg) throws IOException {
    try {
        Object contt = msg.getContent();

        if (contt instanceof Multipart) {
            System.out.println("Met attachment");
            handleMultipart((Multipart) contt);
        } else {
            handlePart(msg);
            System.out.println("Zonder attachment");

        }
    } catch (MessagingException ex) {
        ex.printStackTrace();
    }
}

public static void handleMultipart(Multipart multipart)
        throws MessagingException, IOException {
    for (int i = 0, n = multipart.getCount(); i < n; i++) {
        handlePart(multipart.getBodyPart(i));
        System.out.println("Count "+n);
    }
}

 public static void handlePart(Part part)
        throws MessagingException, IOException {

    String disposition = part.getDisposition();
    String contentType = part.getContentType();
    if (disposition == null) { // When just body
        System.out.println("Null: " + contentType);
        // Check if plain
        if ((contentType.length() >= 10)
                && (contentType.toLowerCase().substring(
                0, 10).equals("text/plain"))) {
            part.writeTo(System.out);
        } else if ((contentType.length() >= 9)
                && (contentType.toLowerCase().substring(
                0, 9).equals("text/html"))) {
            part.writeTo(System.out);
        } else if ((contentType.length() >= 9)
                && (contentType.toLowerCase().substring(
                0, 9).equals("text/html"))) {
            System.out.println("Ook html gevonden");
            part.writeTo(System.out);
        }else{
            System.out.println("Other body: " + contentType);
            part.writeTo(System.out);
        }
    } else if (disposition.equalsIgnoreCase(Part.ATTACHMENT)) {
        System.out.println("Attachment: " + part.getFileName()
                + " : " + contentType);
    } else if (disposition.equalsIgnoreCase(Part.INLINE)) {
        System.out.println("Inline: "
                + part.getFileName()
                + " : " + contentType);
    } else {
        System.out.println("Other: " + disposition);
    }
}

这是从System.out.printlns

Null: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Other body: multipart/alternative; boundary=047d7b6220720b499504ce3786d7
Content-Type: multipart/alternative; boundary="047d7b6220720b499504ce3786d7"

--047d7b6220720b499504ce3786d7
Content-Type: text/plain; charset="ISO-8859-1"

'Text of the message here in normal text'

--047d7b6220720b499504ce3786d7
Content-Type: text/html; charset="ISO-8859-1"
Content-Transfer-Encoding: quoted-printable

'HTML code of the message'

这种方法返回电子邮件的正常文本,但也返回邮件的 HTML 编码。我真的不明白为什么会发生这种情况,我用谷歌搜索了它,但似乎没有其他人有这个问题。

任何帮助表示赞赏,

谢谢!

4

3 回答 3

27

我发现使用 JavaMail 库阅读电子邮件比预期的要困难得多。我不责怪 JavaMail API,而是责怪我对RFC-5322的理解不佳——互联网电子邮件的官方定义。

作为一个思想实验:考虑一封电子邮件在现实世界中会变得多么复杂。可以在消息中“无限”地嵌入消息。每条消息本身可能有多个附件(二进制或人类可读的文本)。现在想象一下这个结构在解析后在 JavaMail API 中变得多么复杂。

使用 JavaMail 遍历电子邮件时可能会有所帮助的一些提示:

  • Message并且BodyPart都实现了Part.
  • MimeMessage并且MimeBodyPart都实现了MimePart.
  • 在可能的情况下,将所有内容视为Partor MimePart。这将允许更容易地构建通用遍历方法。

这些Part方法将有助于遍历:

  • String getContentType(): 以 MIME 类型开头。您可能很想将其视为 MIME 类型(带有一些 hacking/cutting/matching),但不要这样做。最好只在调试器内部使用此方法进行检查。
    • 奇怪的是,不能直接提取 MIME 类型。而是使用boolean isMimeType(String)匹配。仔细阅读文档以了解强大的通配符,例如"multipart/*".
  • Object getContent(): 可能是instanceof:
    • MultipartPart-- 更多的 容器
      • 转换为,然后使用andMultipart迭代为从零开始的索引int getCount()BodyPart getBodyPart(int)
        • 注意:BodyPart实现Part
      • 根据我的经验,Microsoft Exchange 服务器会定期提供正文文本的两个副本:纯文本和 HTML。
        • 要匹配纯文本,请尝试:Part.isMimeType("text/plain")
        • 要匹配 HTML,请尝试:Part.isMimeType("text/html")
    • Message(implements Part) -- 嵌入或附加的电子邮件
    • String(只是正文——纯文本或 HTML)
      • 请参阅上面有关 Microsoft Exchange 服务器的说明。
    • InputStream(可能是 BASE64 编码的附件)
  • String getDisposition(): 值可能是null
    • 如果Part.ATTACHMENT.equalsIgnoreCase(getDisposition()),则调用getInputStream()以获取附件的原始字节。

最后,我发现官方 Javadocs排除了com.sun.mail包中的所有内容(可能还有更多)。如果你需要这些,直接阅读代码,或者通过下载源码mvn javadoc:javadoc并在项目的mail项目模块中运行生成未经过滤的Javadocs。

于 2013-06-05T04:51:11.867 回答
9

您找到这些 JavaMail FAQ 条目了吗?

于 2012-11-11T19:17:24.683 回答
1

遵循 Kevin 的有用建议,根据规范名称(或简单名称)分析您的电子邮件内容 Java 对象类型也会很有帮助。例如,查看我现在收到的一个收件箱,在 486 条消息中,399 条是字符串,87 条是 MimeMultipart。这表明 - 对于我的典型电子邮件 - 使用instanceof首先剥离字符串的策略是最好的。

在字符串中,394 个是 text/plain,5 个是 text/html。对于大多数人来说,情况并非如此。它反映了我在这个特定收件箱中的电子邮件提要。

但是等等 - 还有更多!!!:-) HTML 仍然潜入其中:在 87 个 Multipart 中,70 个是 multipart/alternative。不能保证,但大多数(如果不是全部)都是 TEXT + HTML。

在其他 17 个 multipart 中,顺便提一下,15 个是 multipart/mixed,2 个是 multipart/signed。

我使用这个收件箱(和另一个)的用例主要是汇总和分析已知的邮件列表内容。我不能忽略任何消息,但这种分析有助于我提高处理效率。

于 2014-05-17T15:29:02.893 回答