问题标签 [email-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
8325 浏览

node.js - 如何在 Node js 中使用 npm-imap 包读取和解析电子邮件

我浏览了许多链接,但在任何地方都找不到完整的解决方案来实现这一点。

0 投票
1 回答
375 浏览

exception-handling - 解析电子邮件时出现异常“媒体类型必须是格式类型”/“子类型参数名称:mediaType”

我的项目通过OpenPop library. 每次来自特定发件人的邮件都没有解析并得到以下异常

消息:媒体类型必须是格式类型“/”子类型参数名称:mediaType 源:OpenPop 目标站点:System.String cleanMediaType(System.String) StackTrace:在 OpenPop.Mime.Header.HeaderFieldParser.cleanMediaType(String mediaType) 在 OpenPop .Mime.Header.HeaderFieldParser.ParseContentType(String headerValue) 在 OpenPop.Mime.Header.MessageHeader.ParseHeader(String headerName, String headerValue) 在 OpenPop.Mime.Header.MessageHeader.ParseHeaders(NameValueCollection headers) 在 OpenPop.Mime.Header。在 OpenPop.Mime.Header.HeaderExtractor.ExtractHeadersAndBody(Byte[] fullRawMessage, MessageHeader& headers, Byte[]& body, IParsingErrorHandler parsingErrorHandler) 在 OpenPop.Mime.Header.Header.ctor(NameValueCollection headers, IParsingErrorHandler parsingErrorHandler) 在 OpenPop.Mime.MessagePart。ParseMultiPartBody(Byte[] rawBody) 在 OpenPop.Mime.MessagePart.ParseBody(Byte[] rawBody) 在 OpenPop.Mime.MessagePart..ctor(Byte[] rawBody, MessageHeader headers, IParsingErrorHandler parsingErrorHandler) 在

Openpop 代码在这里

下一个类抛出异常 在此处输入图像描述

问题是

我该如何处理这个异常?

或者是否有任何带有此修复程序的新版本的 OpenPop?

0 投票
0 回答
122 浏览

javascript - 使用“imap”从电子邮件中读取收件箱时无法跳过附件处理

我正在使用 npm 库imap来获取电子邮件的收件箱,如下所示:

这提供了所需的输出,但加载时间太长,因为它也处理其附件。

我想知道是否有任何方法可以跳过附件下载和处理,这会在服务器上节省太多时间。

0 投票
0 回答
41 浏览

webhooks - 如何将文件从 mailparser 站点自动推送到 pythonanywhere 服务器目录

我是 Web 开发新手,对 Python 编码比较陌生。我有一个邮件解析器 (mailparser.io),它每天将纯文本数据模式从电子邮件转换为 JSON 文件。将此文件自动推送到 pythonanywhere 服务器目录的最简单方法是什么。我有一个 Pythonanywhere 付费帐户。

0 投票
1 回答
1786 浏览

node.js - 使用 Node Lambda 函数解析由 SES 存储在 AWS S3 存储桶中的电子邮件

这是获取存储在 S3 中的电子邮件的 Node Lambda 函数部分。如何从返回的数据对象中获取“文本/纯文本”内容?

我是否需要在 lambda 函数中包含 NPM 电子邮件解析依赖项(以 .zip 格式上传),还是应该在 lambda 中使用一些正则表达式来获取我想要的部分?如果是这样,那会是什么样子?

0 投票
2 回答
553 浏览

email - 电子邮件解析测试数据集

我正在评估 Elixir/Erlang 项目的电子邮件解析库,并试图找出哪个是“最好的”,或者我是否应该构建自己的。我用于“最佳”的标准是:哪个库最符合 RFC。

我面临的问题是(不出所料)每个库都有自己的测试,所以如果我想比较苹果与苹果,我需要针对相同的测试运行它们。

是否有可用于评估的测试电子邮件集合?还是我最好从更活跃的 Java/Ruby/Python 库中复制测试?

0 投票
3 回答
1409 浏览

python - 在python中解码'quoted-printable'

我想在 Python 中解码'quoted-printable' 编码的字符串,但我似乎被困在一个点上。

我根据以下代码从我的 gmail 帐户中获取某些邮件:

'to'例如,如果我打印,如果 'to' 具有 é、á、ó 等字符,则结果是这样的:

我可以使用quopribody成功解码 ' ' 带引号的可打印编码字符串,如下所示:

但是相同的逻辑不适用于电子邮件的其他部分,例如收件人、发件人、主题。

有人知道提示吗?

0 投票
0 回答
286 浏览

python-3.x - Azure 机器学习工作室中 CSV 文件中包含逗号的字符串数据的列分隔不准确

我在 Azure ML Studio 中的实验中使用了Enron 电子邮件数据集中的前 100 行,但是保存的数据集对象填充了奇数的 4.8K 行而不是 100 行。这一定是由于“字符串数据上的列分隔不准确包含逗号”的问题,我理解。

但是,在本地的 Python 项目和/或 Azure ML Jupyter 笔记本中使用相同的数据集(从 ML Studio 导入的相同数据集 - 未单独导入到 Jupyter 笔记本),可以正确读取行数,并且进一步的逻辑也可以正常工作。

Jupyter 示例:

本地示例:

这是 Azure ML Studio 中数据集可视化的样子 在此处输入图像描述

很明显,从保存的数据集转移到实验后它会变得一团糟,但我的问题是 - 解决它的最佳方法是什么?也许在我的 Python 代码中从 Azure BLOB 存储调用数据集?

编辑 1:从 CSV 文件中删除逗号也没有帮助。该数据集在 Jupyter 和本地运行良好,但在添加到实验时显得混乱。

编辑 2:删除回车导致数据集在实验中被正确可视化,但是这破坏了 Python 代码 ( email.parser )中的进一步文本预处理逻辑。我可以修改它以使其在不同的环境中工作。这可能是最好的。 在此处输入图像描述

0 投票
0 回答
190 浏览

python-3.x - Python电子邮件正文阅读获取编码数据

在 python 中解析电子邮件内容时,我正在获取正文,就像在某些时间编码格式代码一样

请找到代码片段:

请在下面找到输出:

无论如何要在python中解码这个邮件正文内容吗?

0 投票
0 回答
2404 浏览

python - Python电子邮件正文内容Base64无法解码

在尝试解析电子邮件正文时,正文将变为

当我尝试单独解码时,它可以成功

输出:

但是,虽然我在我的邮件解析脚本中尝试了同样的方法,但它不起作用

输出如下:

有什么办法可以解码吗?