问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
281 浏览

algorithm - 算法:按数据库从字符串中提取关键字

例如我们有以下字符串。“披头士乐队 - 想象一下” 另外,我们在 PostgreSQL 中有一个庞大的艺术家姓名列表。

鉴于该字符串,我想使用我的数据库识别艺术家。

我正在寻找最优化、最快速的算法/技术来做到这一点。因此遍历数据库中的所有记录并查找子字符串是不适用的。

字符串可以是“想象 - 披头士”、“想象,披头士”。就像 Youtube 视频中的歌曲名称一样。

Solr、ElasticSearch 或其他技术在这里会有所帮助吗?会喜欢一些极客的建议。

0 投票
1 回答
244 浏览

text - 从电子邮件中提取相关信息的最佳方法是什么?

我的朋友有一家小型企业,客户使用电子邮件订购服务。他每天会收到几封电子邮件,整理邮件变得很麻烦。

客户可以请求大约 10 种不同类型的任务,每个任务都有一两个词来指定它。电子邮件中的其他信息是服务的交付地点、时间和相关人员的姓名。该电子邮件还包含一个 ID,一个具有相当标准格式的长数字。

这些电子邮件非常非结构化,但都包含上面的关键信息。我的问题是:扫描这些电子邮件并提取关键信息(例如服务类型、地点、人名、ID 等)的最佳方法是什么?

我考虑过某种预处理,然后通过 AlchemyAPI 传递它,然后使用神经网络为每个功能(关键信息)测试 Alchemy 输出。这可以是监督学习,因为我可以一直做一个反馈循环,因为一旦输入了信息,我就可以有人来验证。

有任何想法吗?谢谢

0 投票
1 回答
670 浏览

itext - 使用 iText 库提取目录、章节和索引的内容

谁能建议我如何使用 iText 库以编程方式从电子书 (PDF) 中提取目录、章节和索引的内容?

0 投票
3 回答
2534 浏览

java - 使用 java 从 cisco/juniper 路由器获取信息

我可以使用什么方法登录 Cisco 或 Juniper 路由器?我知道我可以使用 telnet 连接到路由器本身,但我不知道 API 或任何允许我以非交互方式登录的东西。那么我该怎么做呢?

有没有我可以用来实现这一目标的库?

我见过人们使用脚本来实现诸如expect知道何时发送用户名和密码之类的事情。但这是针对 shell 脚本的。我怎样才能在java中做到这一点?我也希望严格保留在 java 中。

这样做的目的是允许 java 程序登录到路由器,这样我就可以查询路由器的接口状态并在路由器上执行命令。

有任何想法吗?

0 投票
2 回答
68 浏览

html - 提取DOM元素的渲染信息

有没有办法提取 DOM 元素的渲染信息,例如位置、字体、颜色等?例如,一个 HTML 文件可能不指定标签的坐标,但 Web 浏览器引擎会以某种方式计算它们的位置和相对大小。我想知道如何让程序访问信息

我知道我可以手动访问渲染信息,例如,在 Google chrome 中使用“检查元素”,但我想知道是否有任何可编程方式。

谢谢

附言。我想我必须提供这个任务的上下文。我目前正在对 HTML 网页中的结构化数据(例如表格)进行信息提取,并且正在考虑使用视觉信息(例如表格元素的位置)来提取结构化信息。

0 投票
2 回答
11299 浏览

python - 非英语单词的词形还原?

我想应用词形还原来减少单词的屈折形式。我知道 WordNet 为英语提供了这样的功能,但我也有兴趣对荷兰语、法语、西班牙语和意大利语单词应用词形还原。有没有任何值得信赖和确认的方法来解决这个问题?谢谢!

0 投票
2 回答
1431 浏览

java - 在java中嵌入jape规则(门)

我正在尝试编写自己的规则,在我的 java 代码中注释作者(来自作者,jape)我已经初始化了我的新处理资源。代码运行正常但没有注释 ma text:输入:谁是 xyz 输出的作者:它应该被注释为作者和 shd 将书名保存在一些临时变量中。我的Java代码:

在输出中它只给出令牌,空间令牌任何人都可以帮助我解决这个问题。?

0 投票
1 回答
3507 浏览

python - 使用 Python 从文本中提取信息到结构化数据

我几乎完全是编程的局外人,只是对它感兴趣。我在一家船舶经纪公司工作,需要在职位(哪艘船将在何时何地开放)和订单(在何时何地需要什么样的船进行什么样的工作)之间进行匹配。我们通过电子邮件向我们的委托人和联合经纪人发送和接收此类信息(头寸和订单)。每天有数千封这样的电子邮件。我们通过手动阅读电子邮件来进行匹配。

我想构建一个应用程序来为我们进行匹配。

这个应用程序的一个重要部分是从电子邮件文本中提取信息。

==> 我的问题是如何使用 Python 将非结构化信息提取到结构化数据中。

订单邮件示例[括号内有注释,但不包含在邮件中]:

上面相同的电子邮件可以用许多不同的方式编写——有些写在一行中,有些使用 l/c 而不是laycan ......还有一些包含船舶名称、开放港口、日期范围、船舶载重和其他规格的职位的电子邮件。

如何使用 Python 提取信息并将其放入结构化数据中?假设我已将所有电子邮件内容放入文本文件中。谢谢。

0 投票
1 回答
588 浏览

java - 在java中使用Lucene计算MAP


我是 lucene 新手(在 java 大学项目中使用 lucene jar),我想知道,
开箱即用的 lucene 是否意味着平均精度?
假设它进行索引并确实提供了一些其他功能(遗憾的是,
poorley 记录了这些功能......)。
任何帮助将不胜感激。


只是要明确一点 -
这是一个大学项目,但我可以使用 lucene 提供的任何功能
......

0 投票
1 回答
222 浏览

java - 从 Java 代码中的 CSV/XML 文件中提取附加信息

我有一个问题问你。

我有一个 XML 文件(或 CSV 文件):

我想在 Java 代码中从中提取附加信息(例如,作者、描述、创建者、评论、格式、内容类型等)。

我读了这个类似的问题,但提取是从 Excel 文件到 Java 代码:如何使用 poi 将作者名称设置为 excel 文件

如果我输入文件名(例如 test.csv 或 test.xml),我想输出附加信息(例如 System.out.println(getAuthor))。

谁能帮我?