问题标签 [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 现在哪个短语提取工具是最先进的?
我知道以下开源工具,但我没有发现它们分别有多好。准备使用短语提取的工具:
- 凯亚
- MAUI (http://code.google.com/p/maui-indexer/)
- 龙,xTract (http://dragon.ischool.drexel.edu/xtract.asp)
- Lingpipe (http://alias-i.com/lingpipe/demos/tutorial/interestingPhrases/read-me.html)
- Mahout (https://cwiki.apache.org/MAHOUT/collocations.html)
- 还要别的吗
有没有人见过这样的比较?
nlp - 从复杂(混合)句子中提取简单句子的算法?
有没有一种算法可以用来从段落中提取简单的句子?
我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪。
我从 Chae-Deug Park 等来源对此进行了研究,但没有人讨论将简单的句子作为训练数据。
提前致谢
perl - Perl,使用两个不同的哈希表生成新数据(新哈希)
我遇到了一个非常复杂的问题(从我作为新手的角度来看),我不知道如何解决它。我能想到工作流程,但不能想到脚本。
我的文件 A 如下所示:Teacher (tab) Student1(space)Student2(space)..
当有两个同名(例如,John1、John2)时,他们有时会在他们的名字旁边有数字。如果他们有两个以上的顾问,学生也可能重叠。
文件 B 是一个将教师组放在一起的文件。它看起来很相似,但值是用逗号分隔的。
文件 B 的趋势是一个键有多个值,每个值也成为一个键,以便轻松找到谁与谁分组。
我想要的输出是哪些学生可能会根据他们的老师/小组接受类似的教育。所以我希望脚本执行以下操作:
- 将文件 A 存储到哈希中并关闭
打开文件B,查看每个老师是否有学生(有的可能没有,实际名单很大..)。所以如果我带第一个老师,Fiona,它会在存储的文件中查找一个哈希表,看看是否有一个 Fiona。如果有(在本例中为 Nicole 和 Sherry),将它们分别作为新哈希表的新键弹出。
/li>然后,看看与Fiona(Racheal,Jack)分组的教师组。一次带 1 人 (Racheal)
/li>- 查看 Racheal 学生的文件 A。
- 将它们填充为步骤 2 中生成的学生键的值(逗号分隔)。
打印学生-学生和教师-教师组。
由于 Fiona 小组的下一任老师 Jack 没有学生,所以他不会出现在这个结果中。例如,如果他有大卫,结果将是:
/li>
我很抱歉问了这么一个复杂而具体的问题。我希望其他正在做类似事情的人可以从答案中受益。非常感谢您的帮助和回复。你是我唯一的帮助来源。
pdf - 表格检测算法
语境
我有一堆 PDF 文件。其中一些被扫描(即图像)。它们由文字+图片+表格组成。
我想将表格转换为 CSV 文件。
当前计划:
1) 运行 Tesseract OCR 以获取所有文档的文本。
2)???运行某种类型的表检测算法???
3)提取行/列/单元格,以及其中的文本。
问题:
是否有一些标准的“表提取算法”可以使用?
谢谢!
c# - 使用反射提取对象
使用反射时,无论是否可以提取对象或变量都是可能的static
。例如
是否可以提取
p1
两者c1
都这样我可以检查它的类型来自 p1.clone() 的方法调用
到目前为止,这就是我对包含 0 个元素的结果数组所做的事情
我正在从其他文件加载程序集
c++ - 使用 BNF 语法提取信息
我想从正文中提取信息并能够查询它。
该文本正文的结构将由 BNF 语法(或变体)指定,要提取的信息将在运行时指定(此时查询的语法无关紧要)。
所以要求很简单,真的:
- 接收一些结构化的正文
- 使用语法以可利用的形式加载它来解析它
- 运行查询以选择其中的某些部分
举个例子,假设我们有这样的语法(定制的 BNF 格式):
此类文本将符合的内容:
然后我想列出规则中出现的所有标签,例如使用类似 XPath 的语法:
这将返回一个列表。
这听起来相对容易,除了我有两个很大的限制:
- BNF 语法应在运行时读取(从类似字符串/向量的结构)
- 查询也将在运行时读取
一些精度:
- 语法预计不会经常更改,因此生成内存结构的“编译”步骤是可以接受的(并且可能是实现良好速度所必需的)
- 速度至关重要,即时收集所需部分的奖励积分
- 有可能通过回调消除歧义的奖励积分(例如,有时必要的消除歧义信息可能需要数据库访问)
- 多部分语法的加分(有利于语法元素的模块化和重用)
例如,我知道 lex/yacc 和 flex/bison,但是它们似乎只创建要编译的 C/C++ 代码,这不是我所关心的。
您是否知道一个强大的库(最好是免费和开源的),它可以将 BNF 语法“即时”转换为解析器,并使用该解析器从文本体中生成结构化的内存输出?
编辑:我对替代品持开放态度。目前的想法是,也许正则表达式可以允许这种提取,但是考虑到所涉及的语法的复杂性,这可能会很快变得丑陋,因此维护正则表达式将是一项非常可怕的任务。此外,通过分离语法和提取,我希望能够针对不同的提取需求重用相同的语法,而不是每次都有稍微不同的正则表达式。
information-extraction - 如何将程序连接到(学校)网站以提取数据
这只是由一个为大学创建的程序提出的,该程序提取了可用课程、代码、教师、时间、地点的完整列表。
要访问这些信息,我需要登录我所在大学的安全网站并搜索个别课程。程序如何(我看过 iphone 应用程序等),您可以在其中搜索大学、课程,它会显示课程的当前和更新名册。
程序如何在没有 API 或登录凭据的情况下访问这些数据以提取可用的课程数据。
parsing - 哪个解析器最适合 [生物医学] 关系提取?
我已阅读有关连续性解析器和依赖解析器的信息。但困惑这可能是最好的选择。
我的任务是从英文维基百科文本中提取关系(以后也可能包括其他来源)。我需要的是两个有趣的实体之间的语义路径(只有最重要的信息)。例如,
格式文本: “在美国,众所周知,糖尿病是一种常见病。”
我需要信息: “糖尿病就是疾病”
你会建议哪种解析器实现?斯坦福?麦芽解析器?或其他?
任何线索表示赞赏。
java - 如何开始构建基于 Java 的网络抓取工具
什么是开始构建网络抓取工具的最佳(也是最短)方法,该工具足够灵活,可以与几乎所有类型的网站一起使用,并能够将这些网站存储在数据库中以供检索。
我想构建类似于“谷歌搜索”的东西,其中“谷歌搜索”在搜索之前将所有网站缓存到他们的服务器。
这是我的研究项目的组成部分之一。
如果已经有一些开源项目,请告诉我,这将使我的任务更容易。
我更喜欢java来构建它。