问题标签 [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - IOB 准确度和精度之间的差异
我正在使用命名实体识别和分块器在 NLTK 上做一些工作。我为此重新训练了一个分类器nltk/chunk/named_entity.py
,并得到了以下测量结果:
但我不明白在这种情况下 IOB Accuracy 和 Precision 之间的确切区别是什么。实际上,我在文档(此处)中找到了以下特定示例:
IOB 标记准确度表明超过三分之一的单词被标记为 O,即不在 NP 块中。然而,由于我们的标注器没有找到任何块,它的精度、召回率和 f-measure 都为零。
那么,如果 IOB 准确度只是 O 标签的数量,那么在那个例子中,为什么我们没有块并且 IOB 准确度不是 100%?
先感谢您
entity - 任何可以在 Eclipse 上以编程方式运行的免费实体识别程序?
我想找到一个可以修改的实体识别程序,以便它可以识别我添加的人的新名字。例如,如果我要添加“XYZ”作为名称,我将能够这样做并且程序会将“XYZ”识别为文本中的实体。
search - 具有近似匹配的基于字典的文本分析
我有一个包含超过 200 万个名称、阶段、位置等的数据库/字典。样本数据如下:
对于每个条目,都有一个 ID。
现在,当用户向我的网站提交文本时,将对文本进行分析,并以一定的容错性(近似匹配)查找文本中所有出现的名称、阶段和位置。举些例子:
- “精神错乱:一遍又一遍地做同样的事情”阶段将与完整的阶段“精神错乱:一遍又一遍地做同样的事情并期待不同的结果”相匹配</li>
- “精神错乱:一遍又一遍地做同样的事情并期待不同的结果”阶段将与完整的阶段“精神错乱:一遍又一遍地做同样的事情并期待不同的结果”相匹配< /li>
我不知道这是否是命名实体问题,因为我的数据库的阶段长度超过 2 行。我也不想找到确切的相位,我想近似匹配。
我正在寻找开源解决方案。提前致谢
java - java中的无限while循环命名实体识别
在这我的第一个 while 循环不能中断。它减小了 j 和 val 的值
在此之后它会破裂但它不能
它一次又一次地重复
NNP 是词性标记
arr[]= 是标记的集合,
J 给出了 arr 的索引
LName 是一个数组列表,它给出了数据库字段并与第一个 if 语句中的标记匹配
python - 如何在 NLTK 中改进荷兰语 NER 分块器
多亏了这个出色的答案,我开始使用 NLTK 和 Conll2002 语料库为荷兰语训练我自己的 NE 组块器:NLTK named entity recognition in dutch。使用这些提示,我还能够轻松地训练一个改进的标记器(基于 IIS 分类),该标记器的标记准确率约为 95%,这足以满足我的目的。
然而,命名实体识别的 F-measure 仅为 40% 左右。我该如何改进呢?我尝试使用像 Maxent 这样的内置算法,但我只得到一个内存错误。然后我继续尝试让 Megam 工作,但它无法在我的 Windows 机器上编译,并且不再有可用的二进制文件。我在尝试合并其他软件或方法时也遇到了死胡同,例如 libSVM、YamCha、CRF++ 和 Weka。都有自己的手册和问题,这些问题似乎一直在堆积。所以我感觉有点不知所措。
我需要的是一种实用的荷兰语 NER 方法。进行了大量研究,我发现引用 F-measures 的论文在 70% 到 85% 之间。那很好啊!有没有人暗示我在哪里可以找到改进的实现或者我如何自己构建一个(使用 Windows)?我更喜欢使用 NLTK 的灵活性,但如果在不同的工具包中有标准解决方案,我也很乐意这样做。甚至商业工具也会受到欢迎。
这是我现在用于评估的代码:
nlp - 斯坦福 NER 道具文件 DistSim 的含义
在斯坦福 NER 软件附带的示例 .prop 文件之一中,有两个我不明白的选项:
有没有人暗示 DistSim 代表什么以及我在哪里可以找到有关如何使用这些选项的更多文档?
更新:我刚刚发现 DistSim 意味着分布相似性。我仍然想知道这在这种情况下意味着什么。
nlp - 从文本中提取位置的方法?
从自由文本中提取位置的推荐方法是什么?
我能想到的是使用正则表达式规则,如“words ... in location”。但是还有比这更好的方法吗?
我还可以考虑使用带有国家和城市名称的查找哈希表,然后将文本中提取的每个标记与哈希表中的标记进行比较。
有人知道更好的方法吗?
编辑:我正在尝试从推文文本中提取位置。因此,大量推文的问题也可能会影响我对方法的选择。
python - 应该使用什么 nltk 语料库来识别技术相关文本的 pos 标签
嗨,下面是我的代码,用于删除停用词并获取包含技术相关术语(如 java、lan、port、socket 等)的文本的命名实体
从上面的代码中,我得到了 lan、socket 等的 Person 实体,所以我没有得到准确的结果,所以请建议我如何为我的文本获取正确的命名实体
谢谢
solr - 如何将实体识别与 Apache solr 和 LingPipe 或类似工具一起使用
我想在使用 Apache Solr 索引数据时使用 NLP。
识别单词的同义词并索引。
识别命名实体并在索引时对其进行标记。
当有人查询 Solr 索引时,我应该能够从查询中提取命名实体和意图并形成查询字符串,以便它可以有效地搜索索引文件。
是否有任何工具/插件可以满足我的要求?我相信这是大多数基于内容的网站的常见用例。人家是怎么处理的?
weka - Weka 用于构建分类器的 NLTK 包装器
我正在构建一个命名实体分类器,nltk
并且我专注于位置检索(任何类型,从国家到博物馆、餐馆或道路)。我正在尝试改变我使用的功能集和方法。
目前,我使用了 NLTK的内置Maxent
、NaiveBayes
、PositiveNaiveBayes
和. 我正在使用 40 种不同的功能集组合。DecisionTrees
SVM
Maxent
似乎是最好的,但它太慢了。nltk
'sSVM
用于二进制分类,我在腌制最终分类器时遇到了一些问题。然后我尝试nltk
了 的包装器scikit-learn SVM
,但它不接受我的输入,我尝试适应但有一些浮点强制问题。
现在,我正在考虑将nltk
' 包装器用于Weka
,但我不知道它是否可以给我一些非常不同的结果,值得尝试并且不需要太多时间。我的问题是,与's 的内置分类器相比Weka
有什么优势?nltk