问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1273 浏览

java - 任何用于从电子邮件中提取地址的 Java 库?

我正在寻找一个能够从(德语)电子邮件(签名)中提取地址信息的 Java 开源库。图书馆应该找到

  • 姓名
  • 街道
  • 城市,城市代码/邮政编码
  • 电子邮件
  • 电话/传真

address-parser.com 是一个商业产品,但是一个免费的(虽然很简单)库会很棒。

stackoverflow.com/questions/16413/parse-usable-street-address-city-state-zip-from-a-string 要求类似的东西,但我的问题更广泛,因为地址信息隐藏在完整的电子邮件中。而且也没有解决办法...

有任何想法吗?

0 投票
1 回答
332 浏览

information-extraction - 信息提取工具包

我正在寻找信息提取库,我可以在其中拥有可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。

我正在构建一个可以在浏览器中选择文本的工具,它将生成(通过一些 Web 服务调用)一个分类器,该分类器可用于其他文档以提取文本。

我主要研究如何使用文档的结构来指示内容是什么。

0 投票
1 回答
455 浏览

text - 从非结构化文本文件中提取人口统计和联系信息

我希望从大量非结构化文档中提取特定项目。这些文档可以是 1-5 页的文本,由用户以各种方式格式化,但在大多数情况下至少包含:

  • 姓名
  • 地址(物理)
  • 电子邮件地址
  • 电话号码
  • 网址

我正在寻找可以尝试从文档中提取这些元素的语义解析器,以便我可以将该信息加载到关系数据库中并将这些记录作为联系人处理。

我寻找的其他服务虽然对其他目的很有价值,但并没有解决这个特定的需求。

有什么想法、建议或线索吗?

0 投票
1 回答
176 浏览

web-crawler - 从抓取的站点(ARC 文件)中提取图形

我正在使用由 Heritrix 爬网生成的 ARC 文件。当我在 Wayback Machine 中查看这些页面时,看起来大部分图形都是从我的本地计算机加载的,所以我假设这些图形存储在 ARC 文件中。那是对的吗?如果是这样,提取图像的最佳方法是什么?

0 投票
1 回答
2728 浏览

nlp - 如何开始信息提取?

在信息提取方面,我是新手。这几天,看了很多学术论文,订了一本关于NLP的书。我想弄清楚如何构建一个类似于 FlipDog.com 的系统(希望不是从头开始)。他们从 60,000 多个公司网站中提取职位空缺。我该如何开始?

我愿意学习任何编程语言。有人用过 Mallet/GATE/MinorThird 或 RoadRunner 吗?理想情况下,我希望能够使用特定于我的领域的数据集训练一个系统,并让它基于此提取信息。为此,您会推荐哪个平台?

谢谢!

0 投票
4 回答
5768 浏览

python - 使用 Python 提取医学信息

我是一名护士,我知道 python,但我不是专家,只是用它来处理 DNA 序列
我们有用人类语言编写的医院记录,我应该将这些数据插入到数据库或 csv 文件中,但它们超过 5000线条,这可能很难。所有数据都以一致的格式写入让我给你看一个例子

我应该得到以下数据

另一个例子

我得到

当我说 in ....... 时顺序不一致,所以 in 是一个关键字,之后的所有文本都是一个地方,直到我找到另一个关键字
在开始时他或她确定性别,得到...... ...接下来是一组症状,我应该根据分隔符进行拆分,分隔符可以是逗号、连字符或其他任何东西,但对于同一行
死亡是一致的.....小时后也应该得到多少小时,有时病人还活着并且出院了....等等
也就是说我们有很多约定,我认为如果我可以用关键字和模式标记文本,我就可以完成工作。因此,如果您知道一个有用的函数/模块/教程/工具,最好在 python 中执行此操作(如果不是 python,那么 gui 工具会很好)

一些信息:

0 投票
1 回答
763 浏览

php - DBpedia 信息提取框架

有人用过维基百科数据提取吗?我需要用它来工作。

您能否提供其他用于提取网页信息的工具?

谢谢!

0 投票
1 回答
1464 浏览

lucene - Lucene 实体提取

给定实体术语的有限字典,我正在寻找一种使用 Lucene 进行智能标记的实体提取方法。目前我已经能够将 Lucene 用于:
- 搜索具有一些模糊性的复杂短语
- 突出显示结果

但是,我不知道如何:
- 获得匹配短语的准确偏移量
- 每次匹配执行特定于实体的注释(不仅仅是每次点击的标签)

我尝试过使用 explain() 方法——但这只会给出查询中获得命中的术语——而不是原始文本中命中的偏移量。

有没有人遇到过类似的问题并愿意分享潜在的解决方案?

提前感谢您的帮助!

0 投票
1 回答
256 浏览

python - pgp算法特定数据提取

这是从 pgp 密钥中提取算法特定值的正确方法吗?我有一个奇怪的问题,除了 DSA 和 ElGamal 的最后一个值之外的所有值都可以正确提取,这会弄乱我程序的其余部分

例如:我有一个从网上某处获得的密钥,其中的数据(从 pgpdump.net 转储)为:

我会得到除了 y 之外的所有东西,这会弄乱我的程序的其余部分。我得到的 y 长度是 2079,这是没有意义的,因为其他一切都是正确的,但是当我查看二进制数据时,程序并没有读错,所以我不知道我的编程哪里出错了。

有任何想法吗?

0 投票
1 回答
662 浏览

nlp - 了解 OpenCalais 的相关性分数

我试图了解 opencalais 返回的与每个实体相关联的相关性分数是多少?它意味着什么以及如何解释它?我将感谢您对此的见解。