我希望从大量非结构化文档中提取特定项目。这些文档可以是 1-5 页的文本,由用户以各种方式格式化,但在大多数情况下至少包含:
- 姓名
- 地址(物理)
- 电子邮件地址
- 电话号码
- 网址
我正在寻找可以尝试从文档中提取这些元素的语义解析器,以便我可以将该信息加载到关系数据库中并将这些记录作为联系人处理。
我寻找的其他服务虽然对其他目的很有价值,但并没有解决这个特定的需求。
有什么想法、建议或线索吗?
我希望从大量非结构化文档中提取特定项目。这些文档可以是 1-5 页的文本,由用户以各种方式格式化,但在大多数情况下至少包含:
我正在寻找可以尝试从文档中提取这些元素的语义解析器,以便我可以将该信息加载到关系数据库中并将这些记录作为联系人处理。
我寻找的其他服务虽然对其他目的很有价值,但并没有解决这个特定的需求。
有什么想法、建议或线索吗?
你找到问题的线索了吗?我找到了一些研究文章:
www.cis.upenn.edu/~pereira/papers/crf.pdf
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf
www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf
但是没有具体的代码示例来实现这些想法。
也看看这个:stackoverflow.com/questions/953150/general-address-parser-for-freeform-text
(对不起,我排除了 http,这个系统不允许我发布多个 url/链接)