问题标签 [information-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2397 浏览

python - 使用 Amazon BrowseNodes API 做一些有意义的事情

我有一个网站(www.7bks.com),人们可以在其中创建书单。目前它相当简单。我已经在使用 Amazon API 将书籍信息、图像等拉到网站上。

我想做的是以某种方式使用亚马逊 API 来拉回类别和/或标签数据,以在我的网站上创建某种浏览列表的方式。不幸的是,tag api 方法已停止使用。

最有可能的候选者是 Amazon API 的 BrowseNodes 方法(http://docs.amazonwebservices.com/AWSEcommerceService/2005-10-05/ApiReference/BrowseNodesResponseGroup.html),但是从这个调用返回的数据非常荒谬,我是希望我们能够齐心协力,弄清楚如何理解它。

这是一个谷歌电子表格,向您展示我得到的数据类型。我选择了一个示例列表(http://www.7bks.com/list/549002)并通过 BrowseNodes API 运行了这三本书:

https://spreadsheets.google.com/ccc?key=0ApVjkgehRamudHd5SlNhYllPQkZDSDY1cllfQVBQM1E&hl=en&authkey=CN_MxoAO

以人类的身份查看列表,您无需知道这些书是什么,就可以看出该列表很可能是关于科幻和幻想的。这主要是因为眼睛擅长丢弃无意义的类别,例如“定制商店”和“小说完成”。

我尝试对类别列表进行重复数据删除,或者只查看所有 3 本书出现的类别,但它仍然是相当垃圾的数据。我希望您能想到如何将这些数据转化为对用户有意义的东西。

到目前为止,我最好的想法就是扫描数据并匹配一个硬编码列表。所以像:

if Count("scientific & Fantasy") > 3 then list is sci fi if Count("business Finance & law") > 3 then list is business

等等

虽然这是非常严格的,理想情况下我想构建一些更灵活/强大的东西。

欢迎所有建议。

我认为这是一个高级问题,因此不应受到我如何调用 API 的影响,但作为参考,我使用的是 Python/Appengine/Webapp。

谢谢

汤姆

在多次撞到桌子后进行更新,我已经成功地解决了这个问题,令我满意。这并不复杂,但我已经编写了一些 python 代码来满足我的需求。我欢迎任何人改进我的代码或提供建议。

基本上,代码背后的逻辑是这样的: 1) 在 XML 树中,开始的节点的底部节点(书籍 > 主题)是对这本书实际内容的最佳猜测。例如:http ://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/它返回“科幻小说”。答对了。2) 通常,通过将自己限制在那些开始的结果(书籍>主题)中,会丢弃很多好的信息。因此,3)我尝试获取类似书籍的列表并将类别从它们中拉出,如果失败,那么我只获得分配给原始书籍的类别。

也许最好的解释是给你下面的代码:

给你一个输出的味道:

书: http ://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/

标签:当代小说产品太空歌剧科幻小说

http://www.amazon.co.uk/Godel-Escher-Bach-Eternal-anniversary/dp/0140289208/ 心理学 数学史 数学逻辑 通用 AAS 流行数学 科学、技术与医学 艺术与音乐 心灵哲学 亚马逊数学架构& 逻辑当代哲学:1900-逻辑经典物理玄学物理哲学通用技术代数数论人工智能科学史

http://www.amazon.co.uk/Flatland-Romance-Dimensions-Dover-Thrift/dp/048627263X/ 当代小说数学哲学 通用 AAS 流行数学哲学 科学、技术和医学心理哲学 科幻数学当代哲学: 1900- 代数数论 产品 经典 形而上学与远见 神话与童话 拓扑学 一般主题 一般理论方法 形而上学 人工智能 科学史

http://www.amazon.co.uk/Victoria-Condor-Books-Knut-Hamsun/dp/0285647598/ 当代小说 文学小说 心理学 一般 AAS 经典 短篇小说

0 投票
2 回答
220 浏览

nlp - 最好的交钥匙关系检测库?

什么是最好的交钥匙(即用型、工业级)关系检测库?

我一直在玩 NLTK,我得到的结果不是很令人满意。

理想情况下,我想要一个可以接受以下句子的库:

“莎拉杀死了一只正在吃孩子的狼”

并将其转换为一种数据结构,其含义类似于:

杀死(莎拉,狼)和吃(狼,孩子)

我知道这是大量研究的主题,而且这不是一件容易的事。也就是说,是否有人知道用于检测关系的相当健壮的即用型库?

0 投票
4 回答
735 浏览

image - 图像特征识别

我正在寻找执行以下操作的解决方案:

(我的问题的重点是第 2 步。)

  1. 一张房子的照片,包括前院

  2. 从图片中提取信息,例如房屋、树木、人行道和汽车的尺寸和位置。此外,房子、汽车、树木和人行道的纹理和颜色。

  3. 使用提取的信息生成模型

我怎样才能提取这些信息?

0 投票
2 回答
1167 浏览

r - R:本体和网络提取的数据结构

我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西。

对于提取的 html 数据,建议采用什么数据结构?

我的想法还没有:
- 使用数据框、表结构
- 集合和关系(集合包和良好的关系)
- 图表

.

最后,我想导出数据并计划使用另一种编程语言使用谓词逻辑(或描述逻辑)对其进行处理。

我想使用 R 从 html 页面中提取信息。但据我了解,R(或包)中没有直接支持谓词逻辑或 RDF/OWL。

所以我需要进行提取,在过程中使用一些数据结构并导出数据。

示例数据:

其中实例数据是“SomeDocument”、“DepartmentA”和“PersonA”。

.

如果有意义,某种推理(但可能不在 R 中):

0 投票
1 回答
157 浏览

nlp - 信息提取。计数提及以衡量相关性

是否可以计算一个实体在一篇文章中被提及的次数?例如

ABC Company是世界上最大的汽车制造商之一。It也是年产量最大的公司。 It也是仅次于XYZ公司的第二大豪华车出口商。两家ABC公司和 XYZ 共同生产了该国汽车总产量的 n% 以上。

提到 ABC 公司 4 次。

0 投票
1 回答
149 浏览

extraction - 是否有帮助 AutoCAD 结构提取的库?

我需要查询 AutoCAD 模型以提取它们之间的结构和连接(例如电源、数据),以便存储在数据库中。我从经验和研究中了解到,由于格式的专有性质,处理原生 AutoCAD .dwg 是有问题的。我看到 AutoCAD 具有.NET API,但问题仍然看起来令人生畏,因为我对模型的内容基本上一无所知。这个问题看起来像是一篇博士论文,因为我最初的谷歌搜索在工具支持或示例方面并没有产生多少成果。

是否有可用的工具/库/示例来帮助以小预算在压缩的计划中进行 AutoCAD 提取?

0 投票
1 回答
813 浏览

html - 从html中提取基本信息?

我有一个项目,用户提交许多指向外部站点的链接,我需要解析这些提交链接的 HTML 并从页面中提取基本信息,就像 Digg 和 Facebook 在提交链接时所做的那样。

我想检索:

  1. 主标题或标题(可以在标题h1、、、h2p...)
  2. 介绍或描述文本(可能在divp...)
  3. 主图

我的主要问题是,这里似乎有太多可供探索的选择,而且我至少坐下来有点困惑。到目前为止,我看过的许多解决方案似乎都不够充分或过度矫枉过正。

0 投票
0 回答
469 浏览

forum - 论坛数据分析

我正在开发一个专家系统,该系统分析来自论坛的数据并获得一些可靠的信息,然后我正在使用这些信息来学习我的专家系统。

问题是如果论坛上只有大约 50% 的现有数据是真实的,如何提取给我 90% 可信数据的数据?!关于论坛数据提取的最佳资源是什么?

我搜索了很多关于这个主题但我什么都没有,主要是因为它的关键字“论坛”不好!

谢谢你

0 投票
2 回答
1057 浏览

data-mining - 有哪些技术可以从网页中提取导航菜单?

我正在寻找一种方法来从带有大量链接(可能还有文本)的网页中提取用于导航的菜单。我感兴趣的页面是非常简单、有效的 XHTML,并且可以安全地假设菜单位于页面的开头或结尾。但是到目前为止,我一直没有找到一个好的、通用的方法来找到它的确切位置——我希望你能帮助我解决这个问题。

快速说明:我不是在寻找诸如可读性之类的东西 - 找到主要文章并删除其他所有内容,而是寻找专门找到菜单的东西。此外,“找到一个有很多链接作为继任者的元素”的幼稚方法也不能很好地工作——因为我倾向于包含相当长的链接列表的页面。

编辑:我需要菜单来获取其中链接的页面的内容(我为信息提取项目构建了一个网络抓取工具)。我使用的一些示例页面:

0 投票
5 回答
211 浏览

data-modeling - 从数百万个简单但不一致的文本文件中提取信息

我们有数百万个简单的 txt 文档,其中包含我们从 pdf 中提取的各种数据结构,文本逐行打印,因此所有格式都丢失了(因为当我们尝试使用工具来维护格式时,它们只是把它搞砸了)。我们需要从这个文本文档中提取字段和值,但是这些文件的结构有一些变化(这里和那里的新行,一些纸上的噪音,所以拼写不正确)。

我在想我们会创建某种模板结构,其中包含有关关键字和值的坐标(行、字/字数)的信息,并使用这些信息来定位和收集关键字值,例如使用各种算法来弥补不一致的格式。

有没有这样做的标准方法,任何可能有帮助的链接?还有其他想法吗?