我几乎完全是编程的局外人,只是对它感兴趣。我在一家船舶经纪公司工作,需要在职位(哪艘船将在何时何地开放)和订单(在何时何地需要什么样的船进行什么样的工作)之间进行匹配。我们通过电子邮件向我们的委托人和联合经纪人发送和接收此类信息(头寸和订单)。每天有数千封这样的电子邮件。我们通过手动阅读电子邮件来进行匹配。
我想构建一个应用程序来为我们进行匹配。
这个应用程序的一个重要部分是从电子邮件文本中提取信息。
==> 我的问题是如何使用 Python 将非结构化信息提取到结构化数据中。
订单邮件示例[括号内有注释,但不包含在邮件中]:
Email Subject: 20k dwt requirement, 20-30/mar, Santos-Conti
Content:
Acct ABC [Account Name]
Abt 20,000 MT Deadweight [Size of Ship Needed]
Delivery to make Santos [Delivery Point/Range, Owners will deliver the ship to Charterers here]
Laycan 20-30/Mar [Laycan (the time spread in which delivery can be accepted]
1 time charter with grains [What kind of Empolyment/Trade, Cargo]
Duration about 35 days [Duration]
Redelivery 1 safe port Continent [Redelivery Point/Range, Charterers will redeliver the ship back to Owners here.]
Broker name/email/phone...
End Email
上面相同的电子邮件可以用许多不同的方式编写——有些写在一行中,有些使用 l/c 而不是laycan ......还有一些包含船舶名称、开放港口、日期范围、船舶载重和其他规格的职位的电子邮件。
如何使用 Python 提取信息并将其放入结构化数据中?假设我已将所有电子邮件内容放入文本文件中。谢谢。