问题标签 [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 任何用于从电子邮件中提取地址的 Java 库?
我正在寻找一个能够从(德语)电子邮件(签名)中提取地址信息的 Java 开源库。图书馆应该找到
- 姓名
- 街道
- 城市,城市代码/邮政编码
- 电子邮件
- 电话/传真
address-parser.com 是一个商业产品,但是一个免费的(虽然很简单)库会很棒。
stackoverflow.com/questions/16413/parse-usable-street-address-city-state-zip-from-a-string 要求类似的东西,但我的问题更广泛,因为地址信息隐藏在完整的电子邮件中。而且也没有解决办法...
有任何想法吗?
information-extraction - 信息提取工具包
我正在寻找信息提取库,我可以在其中拥有可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。
我正在构建一个可以在浏览器中选择文本的工具,它将生成(通过一些 Web 服务调用)一个分类器,该分类器可用于其他文档以提取文本。
我主要研究如何使用文档的结构来指示内容是什么。
web-crawler - 从抓取的站点(ARC 文件)中提取图形
我正在使用由 Heritrix 爬网生成的 ARC 文件。当我在 Wayback Machine 中查看这些页面时,看起来大部分图形都是从我的本地计算机加载的,所以我假设这些图形存储在 ARC 文件中。那是对的吗?如果是这样,提取图像的最佳方法是什么?
nlp - 如何开始信息提取?
在信息提取方面,我是新手。这几天,看了很多学术论文,订了一本关于NLP的书。我想弄清楚如何构建一个类似于 FlipDog.com 的系统(希望不是从头开始)。他们从 60,000 多个公司网站中提取职位空缺。我该如何开始?
我愿意学习任何编程语言。有人用过 Mallet/GATE/MinorThird 或 RoadRunner 吗?理想情况下,我希望能够使用特定于我的领域的数据集训练一个系统,并让它基于此提取信息。为此,您会推荐哪个平台?
谢谢!
python - 使用 Python 提取医学信息
我是一名护士,我知道 python,但我不是专家,只是用它来处理 DNA 序列
我们有用人类语言编写的医院记录,我应该将这些数据插入到数据库或 csv 文件中,但它们超过 5000线条,这可能很难。所有数据都以一致的格式写入让我给你看一个例子
我应该得到以下数据
另一个例子
我得到
当我说 in ....... 时顺序不一致,所以 in 是一个关键字,之后的所有文本都是一个地方,直到我找到另一个关键字
在开始时他或她确定性别,得到...... ...接下来是一组症状,我应该根据分隔符进行拆分,分隔符可以是逗号、连字符或其他任何东西,但对于同一行
死亡是一致的.....小时后也应该得到多少小时,有时病人还活着并且出院了....等等
也就是说我们有很多约定,我认为如果我可以用关键字和模式标记文本,我就可以完成工作。因此,如果您知道一个有用的函数/模块/教程/工具,最好在 python 中执行此操作(如果不是 python,那么 gui 工具会很好)
一些信息:
php - DBpedia 信息提取框架
有人用过维基百科数据提取吗?我需要用它来工作。
您能否提供其他用于提取网页信息的工具?
谢谢!
lucene - Lucene 实体提取
给定实体术语的有限字典,我正在寻找一种使用 Lucene 进行智能标记的实体提取方法。目前我已经能够将 Lucene 用于:
- 搜索具有一些模糊性的复杂短语
- 突出显示结果
但是,我不知道如何:
- 获得匹配短语的准确偏移量
- 每次匹配执行特定于实体的注释(不仅仅是每次点击的标签)
我尝试过使用 explain() 方法——但这只会给出查询中获得命中的术语——而不是原始文本中命中的偏移量。
有没有人遇到过类似的问题并愿意分享潜在的解决方案?
提前感谢您的帮助!
python - pgp算法特定数据提取
这是从 pgp 密钥中提取算法特定值的正确方法吗?我有一个奇怪的问题,除了 DSA 和 ElGamal 的最后一个值之外的所有值都可以正确提取,这会弄乱我程序的其余部分
例如:我有一个从网上某处获得的密钥,其中的数据(从 pgpdump.net 转储)为:
我会得到除了 y 之外的所有东西,这会弄乱我的程序的其余部分。我得到的 y 长度是 2079,这是没有意义的,因为其他一切都是正确的,但是当我查看二进制数据时,程序并没有读错,所以我不知道我的编程哪里出错了。
有任何想法吗?
nlp - 了解 OpenCalais 的相关性分数
我试图了解 opencalais 返回的与每个实体相关联的相关性分数是多少?它意味着什么以及如何解释它?我将感谢您对此的见解。