问题标签 [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Amazon BrowseNodes API 做一些有意义的事情
我有一个网站(www.7bks.com),人们可以在其中创建书单。目前它相当简单。我已经在使用 Amazon API 将书籍信息、图像等拉到网站上。
我想做的是以某种方式使用亚马逊 API 来拉回类别和/或标签数据,以在我的网站上创建某种浏览列表的方式。不幸的是,tag api 方法已停止使用。
最有可能的候选者是 Amazon API 的 BrowseNodes 方法(http://docs.amazonwebservices.com/AWSEcommerceService/2005-10-05/ApiReference/BrowseNodesResponseGroup.html),但是从这个调用返回的数据非常荒谬,我是希望我们能够齐心协力,弄清楚如何理解它。
这是一个谷歌电子表格,向您展示我得到的数据类型。我选择了一个示例列表(http://www.7bks.com/list/549002)并通过 BrowseNodes API 运行了这三本书:
以人类的身份查看列表,您无需知道这些书是什么,就可以看出该列表很可能是关于科幻和幻想的。这主要是因为眼睛擅长丢弃无意义的类别,例如“定制商店”和“小说完成”。
我尝试对类别列表进行重复数据删除,或者只查看所有 3 本书出现的类别,但它仍然是相当垃圾的数据。我希望您能想到如何将这些数据转化为对用户有意义的东西。
到目前为止,我最好的想法就是扫描数据并匹配一个硬编码列表。所以像:
if Count("scientific & Fantasy") > 3 then list is sci fi if Count("business Finance & law") > 3 then list is business
等等
虽然这是非常严格的,理想情况下我想构建一些更灵活/强大的东西。
欢迎所有建议。
我认为这是一个高级问题,因此不应受到我如何调用 API 的影响,但作为参考,我使用的是 Python/Appengine/Webapp。
谢谢
汤姆
在多次撞到桌子后进行更新,我已经成功地解决了这个问题,令我满意。这并不复杂,但我已经编写了一些 python 代码来满足我的需求。我欢迎任何人改进我的代码或提供建议。
基本上,代码背后的逻辑是这样的: 1) 在 XML 树中,开始的节点的底部节点(书籍 > 主题)是对这本书实际内容的最佳猜测。例如:http ://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/它返回“科幻小说”。答对了。2) 通常,通过将自己限制在那些开始的结果(书籍>主题)中,会丢弃很多好的信息。因此,3)我尝试获取类似书籍的列表并将类别从它们中拉出,如果失败,那么我只获得分配给原始书籍的类别。
也许最好的解释是给你下面的代码:
给你一个输出的味道:
书: http ://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/
标签:当代小说产品太空歌剧科幻小说
http://www.amazon.co.uk/Godel-Escher-Bach-Eternal-anniversary/dp/0140289208/ 心理学 数学史 数学逻辑 通用 AAS 流行数学 科学、技术与医学 艺术与音乐 心灵哲学 亚马逊数学架构& 逻辑当代哲学:1900-逻辑经典物理玄学物理哲学通用技术代数数论人工智能科学史
http://www.amazon.co.uk/Flatland-Romance-Dimensions-Dover-Thrift/dp/048627263X/ 当代小说数学哲学 通用 AAS 流行数学哲学 科学、技术和医学心理哲学 科幻数学当代哲学: 1900- 代数数论 产品 经典 形而上学与远见 神话与童话 拓扑学 一般主题 一般理论方法 形而上学 人工智能 科学史
http://www.amazon.co.uk/Victoria-Condor-Books-Knut-Hamsun/dp/0285647598/ 当代小说 文学小说 心理学 一般 AAS 经典 短篇小说
nlp - 最好的交钥匙关系检测库?
什么是最好的交钥匙(即用型、工业级)关系检测库?
我一直在玩 NLTK,我得到的结果不是很令人满意。
- http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html
- http://nltk.googlecode.com/svn/trunk/doc/howto/relextract.html
理想情况下,我想要一个可以接受以下句子的库:
“莎拉杀死了一只正在吃孩子的狼”
并将其转换为一种数据结构,其含义类似于:
杀死(莎拉,狼)和吃(狼,孩子)
我知道这是大量研究的主题,而且这不是一件容易的事。也就是说,是否有人知道用于检测关系的相当健壮的即用型库?
image - 图像特征识别
我正在寻找执行以下操作的解决方案:
(我的问题的重点是第 2 步。)
一张房子的照片,包括前院
从图片中提取信息,例如房屋、树木、人行道和汽车的尺寸和位置。此外,房子、汽车、树木和人行道的纹理和颜色。
使用提取的信息生成模型
我怎样才能提取这些信息?
r - R:本体和网络提取的数据结构
我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西。
对于提取的 html 数据,建议采用什么数据结构?
我的想法还没有:
- 使用数据框、表结构
- 集合和关系(集合包和良好的关系)
- 图表
.
最后,我想导出数据并计划使用另一种编程语言使用谓词逻辑(或描述逻辑)对其进行处理。
我想使用 R 从 html 页面中提取信息。但据我了解,R(或包)中没有直接支持谓词逻辑或 RDF/OWL。
所以我需要进行提取,在过程中使用一些数据结构并导出数据。
示例数据:
其中实例数据是“SomeDocument”、“DepartmentA”和“PersonA”。
.
如果有意义,某种推理(但可能不在 R 中):
nlp - 信息提取。计数提及以衡量相关性
是否可以计算一个实体在一篇文章中被提及的次数?例如
ABC Company
是世界上最大的汽车制造商之一。It
也是年产量最大的公司。It
也是仅次于XYZ公司的第二大豪华车出口商。两家ABC
公司和 XYZ 共同生产了该国汽车总产量的 n% 以上。
提到 ABC 公司 4 次。
extraction - 是否有帮助 AutoCAD 结构提取的库?
我需要查询 AutoCAD 模型以提取它们之间的结构和连接(例如电源、数据),以便存储在数据库中。我从经验和研究中了解到,由于格式的专有性质,处理原生 AutoCAD .dwg 是有问题的。我看到 AutoCAD 具有.NET API,但问题仍然看起来令人生畏,因为我对模型的内容基本上一无所知。这个问题看起来像是一篇博士论文,因为我最初的谷歌搜索在工具支持或示例方面并没有产生多少成果。
是否有可用的工具/库/示例来帮助以小预算在压缩的计划中进行 AutoCAD 提取?
html - 从html中提取基本信息?
我有一个项目,用户提交许多指向外部站点的链接,我需要解析这些提交链接的 HTML 并从页面中提取基本信息,就像 Digg 和 Facebook 在提交链接时所做的那样。
我想检索:
- 主标题或标题(可以在标题
h1
、、、h2
等p
...) - 介绍或描述文本(可能在
div
等p
...) - 主图
我的主要问题是,这里似乎有太多可供探索的选择,而且我至少坐下来有点困惑。到目前为止,我看过的许多解决方案似乎都不够充分或过度矫枉过正。
forum - 论坛数据分析
我正在开发一个专家系统,该系统分析来自论坛的数据并获得一些可靠的信息,然后我正在使用这些信息来学习我的专家系统。
问题是如果论坛上只有大约 50% 的现有数据是真实的,如何提取给我 90% 可信数据的数据?!关于论坛数据提取的最佳资源是什么?
我搜索了很多关于这个主题但我什么都没有,主要是因为它的关键字“论坛”不好!
谢谢你
data-mining - 有哪些技术可以从网页中提取导航菜单?
我正在寻找一种方法来从带有大量链接(可能还有文本)的网页中提取用于导航的菜单。我感兴趣的页面是非常简单、有效的 XHTML,并且可以安全地假设菜单位于页面的开头或结尾。但是到目前为止,我一直没有找到一个好的、通用的方法来找到它的确切位置——我希望你能帮助我解决这个问题。
快速说明:我不是在寻找诸如可读性之类的东西 - 找到主要文章并删除其他所有内容,而是寻找专门找到菜单的东西。此外,“找到一个有很多链接作为继任者的元素”的幼稚方法也不能很好地工作——因为我倾向于包含相当长的链接列表的页面。
编辑:我需要菜单来获取其中链接的页面的内容(我为信息提取项目构建了一个网络抓取工具)。我使用的一些示例页面:
- http://p2.cs.berkeley.edu/
- http://www.cs.cornell.edu/bigreddata/maybms/(注意:这里我需要指向出版物/下载的菜单而不是侧边栏导航,但是使用诸如可读性之类的东西更容易摆脱侧边栏导航) .
data-modeling - 从数百万个简单但不一致的文本文件中提取信息
我们有数百万个简单的 txt 文档,其中包含我们从 pdf 中提取的各种数据结构,文本逐行打印,因此所有格式都丢失了(因为当我们尝试使用工具来维护格式时,它们只是把它搞砸了)。我们需要从这个文本文档中提取字段和值,但是这些文件的结构有一些变化(这里和那里的新行,一些纸上的噪音,所以拼写不正确)。
我在想我们会创建某种模板结构,其中包含有关关键字和值的坐标(行、字/字数)的信息,并使用这些信息来定位和收集关键字值,例如使用各种算法来弥补不一致的格式。
有没有这样做的标准方法,任何可能有帮助的链接?还有其他想法吗?