“information-extraction”的相关标签问题

0 投票

2 回答

2397 浏览

python - 使用 Amazon BrowseNodes API 做一些有意义的事情

我有一个网站（www.7bks.com），人们可以在其中创建书单。目前它相当简单。我已经在使用 Amazon API 将书籍信息、图像等拉到网站上。

我想做的是以某种方式使用亚马逊 API 来拉回类别和/或标签数据，以在我的网站上创建某种浏览列表的方式。不幸的是，tag api 方法已停止使用。

最有可能的候选者是 Amazon API 的 BrowseNodes 方法（http://docs.amazonwebservices.com/AWSEcommerceService/2005-10-05/ApiReference/BrowseNodesResponseGroup.html），但是从这个调用返回的数据非常荒谬，我是希望我们能够齐心协力，弄清楚如何理解它。

这是一个谷歌电子表格，向您展示我得到的数据类型。我选择了一个示例列表（http://www.7bks.com/list/549002）并通过 BrowseNodes API 运行了这三本书：

https://spreadsheets.google.com/ccc?key=0ApVjkgehRamudHd5SlNhYllPQkZDSDY1cllfQVBQM1E&hl=en&authkey=CN_MxoAO

以人类的身份查看列表，您无需知道这些书是什么，就可以看出该列表很可能是关于科幻和幻想的。这主要是因为眼睛擅长丢弃无意义的类别，例如“定制商店”和“小说完成”。

我尝试对类别列表进行重复数据删除，或者只查看所有 3 本书出现的类别，但它仍然是相当垃圾的数据。我希望您能想到如何将这些数据转化为对用户有意义的东西。

到目前为止，我最好的想法就是扫描数据并匹配一个硬编码列表。所以像：

if Count("scientific & Fantasy") > 3 then list is sci fi if Count("business Finance & law") > 3 then list is business

等等

虽然这是非常严格的，理想情况下我想构建一些更灵活/强大的东西。

欢迎所有建议。

我认为这是一个高级问题，因此不应受到我如何调用 API 的影响，但作为参考，我使用的是 Python/Appengine/Webapp。

谢谢

汤姆

在多次撞到桌子后进行更新，我已经成功地解决了这个问题，令我满意。这并不复杂，但我已经编写了一些 python 代码来满足我的需求。我欢迎任何人改进我的代码或提供建议。

基本上，代码背后的逻辑是这样的： 1) 在 XML 树中，开始的节点的底部节点（书籍 > 主题）是对这本书实际内容的最佳猜测。例如：http ://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/它返回“科幻小说”。答对了。2) 通常，通过将自己限制在那些开始的结果（书籍>主题）中，会丢弃很多好的信息。因此，3）我尝试获取类似书籍的列表并将类别从它们中拉出，如果失败，那么我只获得分配给原始书籍的类别。

也许最好的解释是给你下面的代码：

给你一个输出的味道：

书： http ://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/

标签：当代小说产品太空歌剧科幻小说

http://www.amazon.co.uk/Godel-Escher-Bach-Eternal-anniversary/dp/0140289208/ 心理学数学史数学逻辑通用 AAS 流行数学科学、技术与医学艺术与音乐心灵哲学亚马逊数学架构& 逻辑当代哲学：1900-逻辑经典物理玄学物理哲学通用技术代数数论人工智能科学史

http://www.amazon.co.uk/Flatland-Romance-Dimensions-Dover-Thrift/dp/048627263X/ 当代小说数学哲学通用 AAS 流行数学哲学科学、技术和医学心理哲学科幻数学当代哲学： 1900- 代数数论产品经典形而上学与远见神话与童话拓扑学一般主题一般理论方法形而上学人工智能科学史

http://www.amazon.co.uk/Victoria-Condor-Books-Knut-Hamsun/dp/0285647598/ 当代小说文学小说心理学一般 AAS 经典短篇小说

2011-01-09T08:34:02.080

0 投票

2 回答

220 浏览

nlp - 最好的交钥匙关系检测库？

什么是最好的交钥匙（即用型、工业级）关系检测库？

我一直在玩 NLTK，我得到的结果不是很令人满意。

理想情况下，我想要一个可以接受以下句子的库：

“莎拉杀死了一只正在吃孩子的狼”

并将其转换为一种数据结构，其含义类似于：

杀死（莎拉，狼）和吃（狼，孩子）

我知道这是大量研究的主题，而且这不是一件容易的事。也就是说，是否有人知道用于检测关系的相当健壮的即用型库？

nlp chunking information-extraction

2011-01-19T07:18:45.170

0 投票

4 回答

735 浏览

image - 图像特征识别

我正在寻找执行以下操作的解决方案：

（我的问题的重点是第 2 步。）

一张房子的照片，包括前院
从图片中提取信息，例如房屋、树木、人行道和汽车的尺寸和位置。此外，房子、汽车、树木和人行道的纹理和颜色。
使用提取的信息生成模型

我怎样才能提取这些信息？

image image-processing identification information-extraction feature-detection

2011-02-07T09:46:44.017

0 投票

2 回答

1167 浏览

r - R：本体和网络提取的数据结构

我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西。

对于提取的 html 数据，建议采用什么数据结构？

我的想法还没有：
- 使用数据框、表结构
- 集合和关系（集合包和良好的关系）
- 图表

.

最后，我想导出数据并计划使用另一种编程语言使用谓词逻辑（或描述逻辑）对其进行处理。

我想使用 R 从 html 页面中提取信息。但据我了解，R（或包）中没有直接支持谓词逻辑或 RDF/OWL。

所以我需要进行提取，在过程中使用一些数据结构并导出数据。

示例数据：

其中实例数据是“SomeDocument”、“DepartmentA”和“PersonA”。

.

如果有意义，某种推理（但可能不在 R 中）：

r data-structures semantic-web ontology information-extraction

2011-03-22T16:15:30.363

0 投票

1 回答

157 浏览

nlp - 信息提取。计数提及以衡量相关性

是否可以计算一个实体在一篇文章中被提及的次数？例如

ABC Company是世界上最大的汽车制造商之一。It也是年产量最大的公司。 It也是仅次于XYZ公司的第二大豪华车出口商。两家ABC公司和 XYZ 共同生产了该国汽车总产量的 n% 以上。

提到 ABC 公司 4 次。

nlp information-extraction named-entity-recognition

2011-04-19T05:56:14.673

0 投票

1 回答

149 浏览

extraction - 是否有帮助 AutoCAD 结构提取的库？

我需要查询 AutoCAD 模型以提取它们之间的结构和连接（例如电源、数据），以便存储在数据库中。我从经验和研究中了解到，由于格式的专有性质，处理原生 AutoCAD .dwg 是有问题的。我看到 AutoCAD 具有.NET API，但问题仍然看起来令人生畏，因为我对模型的内容基本上一无所知。这个问题看起来像是一篇博士论文，因为我最初的谷歌搜索在工具支持或示例方面并没有产生多少成果。

是否有可用的工具/库/示例来帮助以小预算在压缩的计划中进行 AutoCAD 提取？

extraction autocad information-extraction

2011-04-19T21:49:25.967

0 投票

1 回答

813 浏览

html - 从html中提取基本信息？

我有一个项目，用户提交许多指向外部站点的链接，我需要解析这些提交链接的 HTML 并从页面中提取基本信息，就像 Digg 和 Facebook 在提交链接时所做的那样。

我想检索：

主标题或标题（可以在标题h1、、、h2等p...）
介绍或描述文本（可能在div等p...）
主图

我的主要问题是，这里似乎有太多可供探索的选择，而且我至少坐下来有点困惑。到目前为止，我看过的许多解决方案似乎都不够充分或过度矫枉过正。

html parsing extraction information-extraction

2011-04-24T05:48:33.423

0 投票

0 回答

469 浏览

forum - 论坛数据分析

我正在开发一个专家系统，该系统分析来自论坛的数据并获得一些可靠的信息，然后我正在使用这些信息来学习我的专家系统。

问题是如果论坛上只有大约 50% 的现有数据是真实的，如何提取给我 90% 可信数据的数据？！关于论坛数据提取的最佳资源是什么？

我搜索了很多关于这个主题但我什么都没有，主要是因为它的关键字“论坛”不好！

谢谢你

forum expert-system information-extraction

2011-04-24T10:47:00.087

0 投票

2 回答

1057 浏览

data-mining - 有哪些技术可以从网页中提取导航菜单？

我正在寻找一种方法来从带有大量链接（可能还有文本）的网页中提取用于导航的菜单。我感兴趣的页面是非常简单、有效的 XHTML，并且可以安全地假设菜单位于页面的开头或结尾。但是到目前为止，我一直没有找到一个好的、通用的方法来找到它的确切位置——我希望你能帮助我解决这个问题。

快速说明：我不是在寻找诸如可读性之类的东西 - 找到主要文章并删除其他所有内容，而是寻找专门找到菜单的东西。此外，“找到一个有很多链接作为继任者的元素”的幼稚方法也不能很好地工作——因为我倾向于包含相当长的链接列表的页面。

编辑：我需要菜单来获取其中链接的页面的内容（我为信息提取项目构建了一个网络抓取工具）。我使用的一些示例页面：

http://p2.cs.berkeley.edu/
http://www.cs.cornell.edu/bigreddata/maybms/（注意：这里我需要指向出版物/下载的菜单而不是侧边栏导航，但是使用诸如可读性之类的东西更容易摆脱侧边栏导航） .

data-mining text-mining information-extraction web-scraping

2011-04-30T23:06:58.730

0 投票

5 回答

211 浏览

data-modeling - 从数百万个简单但不一致的文本文件中提取信息

我们有数百万个简单的 txt 文档，其中包含我们从 pdf 中提取的各种数据结构，文本逐行打印，因此所有格式都丢失了（因为当我们尝试使用工具来维护格式时，它们只是把它搞砸了）。我们需要从这个文本文档中提取字段和值，但是这些文件的结构有一些变化（这里和那里的新行，一些纸上的噪音，所以拼写不正确）。

我在想我们会创建某种模板结构，其中包含有关关键字和值的坐标（行、字/字数）的信息，并使用这些信息来定位和收集关键字值，例如使用各种算法来弥补不一致的格式。

有没有这样做的标准方法，任何可能有帮助的链接？还有其他想法吗？

data-modeling data-mining information-extraction

2011-05-06T20:53:06.780

问题标签 [information-extraction]

Reference