问题标签 [named-entity-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 预先标记用于训练 MITIE 实体提取器的单词数据集的最佳方法是什么?
我想使用 MITIE NER 训练器来构建实体提取器。然而,有没有一种更有效的方法来标记训练数据,而不是硬编码每个数据的位置?
提前致谢 :)
python - 使用 tika 在 Python 中解析文档时出现“TypeError:预期的字符串或缓冲区”
我正在尝试使用 Apache Tika 解析一些文档(如文件类型中所列)。这是我在 Python 中的代码。
该循环完美地运行了一段时间并解析一些文档以提取命名实体。突然,我收到以下错误。代码出了什么问题?
python - 扩展 NLP 实体提取
我们想从一个简单的搜索社区和各个城市的街道中进行识别。我们不仅使用英语,还使用其他各种西里尔语言。我们需要能够识别位置的拼写错误。在查看 python 库时,我发现了这个: http: //polyglot.readthedocs.io/en/latest/NamedEntityRecognition.html
我们尝试使用它,但找不到扩展实体识别数据库的方法。怎么可能呢?
如果没有,对于多语言 nlp 是否有任何其他建议可以帮助进行拼写检查并提取与自定义数据库匹配的各种实体?
nltk - NLTK 的实体类型是什么?
我一直在尝试查找 NLTK 实体类型的完整列表。我只能在此页面上找到最常见的,但不是完整列表。您能否分享 NLTK 拥有的命名实体类型的完整列表?
rdf - 将实体关系存储为 JSON-LD 以进行自动实体提取
我们使用 MITIE ( https://github.com/mit-nlp/MITIE ) 来识别文本文档中的命名实体。原始文本文档存储为 JSON-LD 类型的 textDigitalDocument ( http://schema.org/TextDigitalDocument ),然后传递给 MITIE。
MITIE 返回位置、人员和组织实体,但也返回可能以某种方式密切相关的实体,即 personA 与 locationA 相关。
是否可以将实体之间的这些关系存储回源 JSON-LD 中,是否可以使用非特定的关系类型?还是我们最好使用 RDF?
python - 从文本中提取个人属性
我想从一个人写的文本中提取个人属性。例如,
我一直对职业自行车很感兴趣。作为一个单身母亲,要找到足够的时间去从事一项专业的运动从来都不是一件容易的事。我能做的最好的事情就是沿着墨尔本美丽的海滩短途骑行......
理想情况下,我想提取像自行车:兴趣,女性:性别,运动:兴趣,墨尔本:位置。我认为这称为命名实体提取,但我不确定。我尝试了斯坦福命名实体识别器,但它并没有给我想要的东西。最重要的是个人属性,例如性别、年龄、兴趣等,而在不同的样本上它错过了大部分。
是否有任何工具/库(最好在 Python 中)可以帮助我做到这一点?我知道 NLTK,但我不知道如何/是否可以在这里使用它。
machine-learning - 在 nlp 中检测与实体相关的文本
我正在尝试解决一个问题,即我在文章中识别实体(例如:汽车名称),并尝试预测文章中每辆车的情绪。为此,我需要从文章中提取与每个实体相关的文本。
目前,我使用的方法如下:
- 如果一个句子仅包含 1 个实体,则将该句子标记为该实体的文本
- 如果句子有超过 1 个实体,则忽略它
- 如果句子不包含实体,则标记为先前识别的实体的句子
然而,即使我们假设我们的情绪分类是有效的,这种方法也不会产生准确的结果。社区是否有任何方法可以解决这个问题?
该方法在许多情况下都失败并给出错误的结果。例如,如果我说 - '让我们谈谈本田思域。这辆车很棒,但与福特的焦点相比却失败了。这辆车也有很好的经济性。在这里,程序将在最后 2 个句子中选择 Ford Focus 作为实体,并为其标记这些句子。
我使用 nltk 进行描述性单词标记,使用 scikit-learn 进行分类(线性 svm 模型)。
如果有人能指出我正确的方向,将不胜感激。如果我要手动标记 50 篇文章及其中的文本,是否可以使用自定义功能构建一些分类器来检测这种类型的文本?提前致谢!
python - 在 python 应用程序中处理用户定义名称的错误拼写
拼写错误的问题:当您使用用户输入制作应用程序时,您可能会遇到错误的输入。有可用的拼写检查库来处理它们,但是用户定义的数据可能不存在于字典中。例如,您正在构建一个聊天机器人,您需要在其中输入位置名称来搜索餐厅。
semantics - 使用 Google NL API 和 Open Calais API 提取命名实体
我试图从文本中识别命名实体并将它们分类为人物、地点和组织。我正在使用 Google 的 Cloud Natural Language API 和 Open Calais API 来识别命名实体。
当我输入包含“中国”一词的文本时,Google NL API 将其识别为“人”类型。然而,它在文件中的上下文含义将其作为一个国家来处理。Google NL API 是否能够根据文本上下文提供实体?如果是这样,请让我知道我错过了什么。
如果文本包含单词“obama”,则 google NL API 将“Obama”输出为 Person,而 Open Calais API 将“Barak Obama”标识为 Person。为什么会这样?还有什么其他方法可以从文本中的术语中获取确切的命名实体,比如 Open Calais 返回的那个?
nlp - 如何执行与本地知识图谱的实体链接?
我正在使用在线文章从头开始构建自己的知识库。
我正在尝试将我抓取的 SPO 三元组(主题和可能的对象)中的实体映射到我自己的实体记录,这些实体由我从其他网站上抓取的上市公司组成。
我研究了大多数库,该方法专注于将实体映射到 Wikipedia、YAGO 等大型知识库,但我不确定如何将这些技术应用到我自己的知识库中。
目前,我找到了声称能够这样做的 NEL Python 包,但我不太了解文档,它只关注维基百科数据转储。
是否有任何技术或库可以让我这样做?