问题标签 [named-entity-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2932 浏览

bigdata - 在 GATE 源代码中添加自定义 jape 文件

谁能指导我如何创建一个自定义JAPE文件并使用 GATE 源代码对其进行配置。我尝试使用以下代码并获得诸如“解析语法时出错:”和“未设置语法 URL 或 binaryGrammarURL 参数!”之类的异常。

0 投票
6 回答
1760 浏览

java - Java中基于模板提取网页信息

现在我使用Jsoup从一些第三方网页中提取某些信息(不是所有文本),我会定期进行。这工作正常,直到某些网页的 HTML 发生变化,这种变化会导致现有 Java 代码发生变化,这是一项繁琐的工作,因为这些网页变化非常频繁。它还需要程序员来修复 Java 代码。这是我在网页上感兴趣的 HTML 代码示例:

现在这就是我想要做的,我想在本地保存这个网页(一个 HTML 文件)并从中创建一个模板,比如:

连同网页的实际 URL,这些 HTML 模板将作为 Java 程序的输入,Java 程序将找出这些预定义关键字的位置(例如{MOVIE_RATING}{MOVIE_DIRECTOR})并从实际网页中提取值。

这样我就不必每次网页更改时都修改Java程序,我只需保存网页的HTML并用这些关键字替换数据,其余的将由程序处理。例如,将来实际的 HTML 代码可能如下所示:

相应的模板将如下所示:

非程序员也可以创建此类模板,任何可以编辑文件的人都可以完成。

现在的问题是,我怎样才能在 Java 中实现这一点,是否有任何现有的更好的方法来解决这个问题?

注意: 在谷歌搜索时,我发现了一些研究论文,但其中大多数都需要一些先前的学习数据,准确性也是一个问题。

0 投票
3 回答
16061 浏览

nlp - 使用斯坦福 NLP 训练 n-gram NER

最近我一直在尝试用斯坦福核心 NLP 训练 n-gram 实体。我遵循了以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b

有了这个,我只能指定一元标记和它所属的类。任何人都可以指导我,以便我可以将其扩展到 n-gram。我正在尝试从聊天数据集中提取已知实体,例如电影名称。

请指导我,以防我误解了斯坦福教程,并且同样可以用于 n-gram 训练。

我坚持的是以下属性

这里第一列是单词(unigram),第二列是实体,例如

现在我需要将已知实体(比如电影名称)训练为电影,比如HulkTitanic等,使用这种方法会很容易。但如果我需要训练,我知道你去年夏天婴儿节外出做了什么,最好的方法是什么?

0 投票
2 回答
134 浏览

search - 具有近似匹配的基于字典的文本分析

我有一个包含超过 200 万个名称、阶段、位置等的数据库/字典。样本数据如下:

对于每个条目,都有一个 ID。

现在,当用户向我的网站提交文本时,将对文本进行分析,并以一定的容错性(近似匹配)查找文本中所有出现的名称、阶段和位置。举些例子:

  1. “精神错乱:一遍又一遍地做同样的事情”阶段将与完整的阶段“精神错乱:一遍又一遍地做同样的事情并期待不同的结果”相匹配</li>
  2. “精神错乱:一遍又一遍地做同样的事情并期待不同的结果”阶段将与完整的阶段“精神错乱:一遍又一遍地做同样的事情并期待不同的结果”相匹配< /li>

我不知道这是否是命名实体问题,因为我的数据库的阶段长度超过 2 行。我也不想找到确切的相位,我想近似匹配。

我正在寻找开源解决方案。提前致谢

0 投票
3 回答
5581 浏览

nlp - 从文本中提取位置的方法?

从自由文本中提取位置的推荐方法是什么?

我能想到的是使用正则表达式规则,如“words ... in location”。但是还有比这更好的方法吗?

我还可以考虑使用带有国家和城市名称的查找哈希表,然后将文本中提取的每个标记与哈希表中的标记进行比较。

有人知道更好的方法吗?

编辑:我正在尝试从推文文本中提取位置。因此,大量推文的问题也可能会影响我对方法的选择。

0 投票
1 回答
1660 浏览

machine-learning - 如何使用自然语言处理或其他技术从 html 中提取实体

我正在尝试从包含时间、地点和名称的网页中解析实体。我读了一些关于自然语言处理和实体提取的内容,但我不确定我是否走错了路,所以我在这里问。

我还没有开始实现任何东西,所以如果某些开源库只适用于特定语言,那没关系。

很多时候数据不会在句子中找到,而是在 html 结构中,如列表(例如

  • 2013-02-01 - 赛事名称 - 竞技场名称
)。

网页的结构将大不相同(有些可能使用列表,有些可能会将它们放在表格中,等等)。

我可以研究哪些主题以了解有关如何实现这一目标的更多信息?是否有任何开源库在进行实体提取时考虑到 html 的结构?使用机器视觉从 html 中提取这些(名称、时间、地点)实体会更好(甚至可能),其中 CSS 样式可能更容易区分非结构化文本的重要部分(名称、时间、位置)?

任何关于我可以研究的主题/开源项目的指导都会对我有所帮助。

0 投票
2 回答
1138 浏览

java - 使用 Stanford CoreNLP/NER 提取标题(书籍、文章等)?

是否有一些标签序列可能指示网页中的标题?例如,从亚马逊页面中提取书名,其中其他文本/句子可能具有相似的句子结构。我觉得这是一项非常基础的任务,但无法弄清楚如何使用斯坦福的 NER/CoreNLP 来完成它。

提前致谢!

0 投票
1 回答
142 浏览

java - 调整 StanfordCoreNLP 来处理嘈杂的网络文本?

我一直在网站上手动尝试 StanfordCoreNLP NER 和所有内容,例如,它们似乎依赖于非常具体/正确的英语提示来检测实体。但是,在处理网络文本时,您可能会有一些文本,例如


约翰·多伊

计算机科学助理教授

斯坦福大学


StanfordNLP 似乎遇到了一些麻烦(由于缺少介词/标点符号,将整个事物标记为一个组织)。我可以做些什么来让 NER 更好地处理这种文本(例如,对文本进行一些预处理)?

0 投票
1 回答
808 浏览

regex - 从 R 中的文本中提取信息

我正在研究 R 中的实体提取。我有一个UniqueIDandText字段 - 需要从文本字段中提取位置信息。我的文本字段有带有位置名称的描述

我有一个位置列表;

需要匹配loc并从字段中提取这些位置text。在文本字段SENOKO INDUSTRIAL ESTATE中以不同方式拼写Senoko EstateSenoko(半名)或拼写错误senok Est.。对于上述所有拼写错误和半拼写的单词 - 我需要得到确切的名称从loc即。SENOKO INDUSTRIAL ESTATE.

我的输出看起来像:(从文本字段中提取位置 - 为半拼和拼写错误的单词获取正确的单词)

0 投票
1 回答
298 浏览

java - 斯坦福 NLP/NER - 如何使用提取器和分类器?

斯坦福命名实体识别包附带的演示文件显示了对句子进行分类的示例。输出选项是字符串,例如:

=>

或每个单词的分类图。

有没有一种方法可以将分类图返回到实体列表?

例如: