问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1299 浏览

java - Java 正则表达式从字符串中提取测量值

我正在尝试从简短的、不统一的产品描述中提取数据,以便部分自动化地为我公司的在线商店制作产品网页。不幸的是,描述并不统一。多亏了这个网站,我对正则表达式有了足够的了解,可以对它进行公平的尝试。

在产品测量方法中,这里有一个失败的测试。

w. This product is 68 cm by 22 cm by 73 cm -- Length: 68 cm Width: 73 cm Height:

但是这个非常相似的测试并没有失败。为什么?

x. This product is 68 cm x 22 cm x 73 cm -- Length: 68 cm Width: 22 cm Height: 73 cm

这里是测试类。作为一个正则表达式菜鸟,我确信我做得不是很有效,所以关于效率的建议会很棒。如果您能想到任何其他失败的测试用例,请告诉我。

0 投票
1 回答
263 浏览

ruby - 查找网站管理员联系方式的脚本

作为我目前正在进行的暑期项目的一部分,我有兴趣编写一个脚本来自动检索特定站点的网站管理员的联系电子邮件地址。有没有人可以指导我开始的任何信息?诸如研究论文、类似应用程序的源代码之类的东西。我目前正在阅读 Manning、Raghavan 和 Schutz 的“Introduction to Information Retrieval”,因为这项工作是一个更大的信息提取项目的一部分,我最终希望在这个项目中培养一个人搜索系统。哦,是的,我打算用 Ruby 编写这些系统,如果这有任何帮助的话。谢谢。

0 投票
1 回答
270 浏览

flash - 使用 perl 从 Flash 视频中检索变量

我正在用 Perl 下载一个 flash 视频。有没有办法与 Flash 视频进行交互,比如从 Flash 视频中检索变量,就像在 C# 中一样?

例如,在 C# 中,您可以将 aShockwave Flash Object放在表单上,​​然后您可以在该对象上执行GetVariable/ 。SetVariable我不想/不在乎我是否能看到视频,我只想要C# Shockwave Flash 对象的Get/之类的东西。SetVariable

0 投票
3 回答
478 浏览

algorithm - 解析器解析搜索词并提取有价值的信息

我想了解用户的 serarh 术语。想想有人正在搜索“纽约的订书钉” - 我想了解它是一个位置搜索,其中关键字是订书钉,位置是纽约。类似地,如果有人键入“cat in hat”,解析器不应将其标记为位置搜索,这里整个关键字是“cat in hat”。是否有任何算法或开源库可用于解析搜索词并理解其比较(如 A 与 B)或基于位置的搜索(如 X 中的 A)?

0 投票
2 回答
9255 浏览

python - 使用 DBPedia 的示例 python 脚本?

我正在编写一个 python 脚本来从来自几个国家和语言的数千篇新闻文章中提取“实体名称”。

我想利用惊人的DBPedia结构化知识,例如查找“埃及艺术家”的名称和“加拿大公司”的名称。

(如果这些信息是 SQL 形式的,我就没有问题了。)

我更愿意下载 DBPedia 内容并离线使用。关于这样做需要什么以及如何从 python 在本地查询它的任何想法?

0 投票
3 回答
1460 浏览

nlp - 主题发现/发现的最佳模型

在简短的非结构化文档中发现主题的最佳模型是什么,例如。短信或推特信息?潜在狄利克雷分配?

0 投票
4 回答
848 浏览

c# - 算法:分析网页的标签

最近几天我一直在做一个项目,这个项目中有一个我实际上不知道该怎么做的任务,该项目包括分析网页以找到表征页面的标签。

嘿伙计,你说的标签是什么意思?我所说的标签是指总结网页内容的关键字。例如,在这里,您写下您自己的标签,以便人们可以更好地发现您的问题。我所说的是构建一种算法来分析网页,以通过页面中的文本找到它的标签。

我开始从页面获取文本->完成

通常我正在寻找一种方法来找到总结网页内容的关键字

但是,我真的不知道下一步该做什么。有人有建议吗?

0 投票
1 回答
152 浏览

annotations - Frameworks for semantic annotation for user defined domain model

I have some documents and an ontology for some concepts. Are there any frameworks that automatically extracts those concepts from the given documents and creates triples? The ontology must contain special properties?

I found UIMA, but as far as I understood with UIMA I can do only something like this:

  • create some dictionaries which keep associations with the ontology
  • use this dictionary with ConceptMapper
  • write a CAS consumer that creates the triples and persists them -

I don't like this approach because I have to keep in sync the concepts from the ontology and the dictionary.

Can be UIMA used differently, or are there any advanced frameworks that can use directly my ontology with lets say some custom properties as input and based on it annotate the documents?

I want to use ontologies as domain model because I want to create further a knowledge base and ontologies seem more flexible than for example relational model. Thanks.

0 投票
1 回答
1084 浏览

c# - 使用模板从文本中提取数据

我正在构建一个网络服务,它接收来自多个 CRM 系统的电子邮件。电子邮件通常包含文本状态,例如“已接收”或“已完成”以及自由文本评论。

传入电子邮件的格式不同,例如,一些系统调用状态“状态:ZZZZZ”和一些“操作:ZZZZZ”。自由文本有时出现在状态之前和之后。状态代码将映射到我的系统解释,并且注释也是必需的。

此外,我希望格式会随着时间而改变,因此可配置的解决方案(可能由客户通过 Web 界面提供自己的模板)将是理想的。

该服务是使用 .NET C# MVC 3 构建的,但我会对一般策略以及任何特定的库/工具/方法感兴趣。

我从来没有完全了解过 RegExp。如果这确实是要走的路,我会做出新的努力。:)

0 投票
2 回答
3799 浏览

machine-learning - NLP 从文本中提取动作

我希望有人能指出正确的方向来学习如何从一堆文本中分离出动作。

假设我有这个文本

我正在尝试将其拆分为

我无法在我的搜索中找到任何具体基于操作的内容。它需要比仅仅挑选动词更聪明,因为有时会有多个动词与一个动作相关联,例如第二个项目有“go”、“pick-up”和“get”,但这只是一部分的单一动作。当然,“Tim's flight”只是暗示带有现在分词的动作,动词出现在片段的末尾。

关于在哪里寻找做这种事情的任何建议?需要注意的事项,推荐的阅读材料等。