问题标签 [allennlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 当我使用“pip install”时,Pip 正在卸载从源代码构建的 pytorch'。有办法吗?
我需要从源代码构建 pytorch 才能使用最新的 cuda 工具包——因此我这样做了。我的环境是 conda 环境。
我要安装的软件包是allennlp。
Pip list
没有显示安装了手电筒,conda 显示它是。尝试通过以下方式从源代码构建 allennlp:
由于与 pip 包等不兼容,conda build也会导致问题......
我只是想知道是否有更简单的方法可以做到这一点?
例如:告诉 pip 已经安装了 torch ,所以它停止卸载当前的 torch (为什么它不能在安装时将它捡起来)。感谢帮助!
allennlp - AllenNLP:如何知道输出张量的哪个索引对应于哪个类
我正在使用 allennlp 2.1,我想将类权重传递给我使用的 pytorch-cross-entropy 损失函数。
在配置文件中,我按如下方式传递类权重:
为了使类权重的顺序正确,我需要知道输出张量的哪个索引对应于哪个类。到目前为止,我知道的唯一方法是首先训练一个没有类权重的模型,然后进入模型的词汇目录并检查类名写入标签文件的顺序。
虽然这似乎可行......有没有更简单的方法来获得该映射而无需先训练模型?
nlp - 显着性分数不断变化 allennlp
我正在尝试获取情绪分析任务的显着性分数。每次我运行代码时,我都会得到不同的显着性分数。应该是这样吗?我附上我的代码以供更多参考。
每次我打印相同数据的显着性分数时,值都会不断变化。模型生成的标记也被扭曲,例如万圣节闯入大厅、ow 和 een。我怎样才能解决这个问题?任何帮助,将不胜感激。
importerror - ImportError:无法从“allennlp.data.dataset_readers”导入名称“SnliReader”
我是了解 Allennlp 框架的初学者。我尝试了中等帖子https://medium.com/analytics-vidhya/fine-tuning-bert-with-allennlp-7459119b736c中给出的代码。
但是,得到一个 ImportError: cannot import name 'SnliReader' from 'allennlp.data.dataset_readers'
有谁知道为什么会出现这个错误?
python - AllenNlp QA 应用程序为文档中的每个单词生成 Spacy 警告:[WARNING] [W108]
我用 AllenNlp 创建了一个简单的问答应用程序。它过去运行平稳,没有任何警告,但现在,对于段落中的每个标记,控制台都会打印出这个空洞的警告:
[警告] [W108] 基于规则的词形分析器未找到令牌“X”的 POS 注释。检查您的管道是否包含分配 token.pos 的组件,通常是“tagger”+“attribute_ruler”或“morphologizer”。
系统版本是:allenlp==2.1.0 spacy==3.0.5 有人可以帮忙吗?
spacy - 如果分数都是 1,什么控制 scispacy 中的 UMLS 链接实体的顺序
我正在使用 Scispacy(太棒了!),但是当我在https://scispacy.apps.allenai.org/找到的应用程序中输入“tau”时 ,UMLS 实体给了我“MAPT 基因”的规范名称,即我想要的是。但是,当我基于应用程序代码在我的 python 代码中执行完全相同的操作时(请参见此处https://gist.github.com/DeNeutoy/b20860b40b9fa9d33675893c56afde42)列表中的第一个规范名称是“三乙酸尿苷”(第二个是'MAPT 基因')
在应用程序代码中有调用 'if show_only_top:break' 所以我假设他们的应用程序实现以不同的方式对链接实体进行排序。
如果有人可以解释订购的差异以及如何解决这个问题,那就太好了!
python - 如何在 AllenNLP git repo 中编写对分类模型的配置文件?
我正在尝试通过配置文件在 AllenNLP 存储库中运行对分类模型。
值得赞赏的是,repo 提供了数据读取器和模型文件的示例。但是没有相应的配置文件,我无法真正运行模型。
简单分类模型的示例配置文件没有为对分类配置描述足够详细的参数。
应该如何编写对分类的配置文件?是否有通用方法或系统教程可以做到这一点?任何帮助表示赞赏。谢谢
python - 如何正确使用预训练的语言模型?
我正在尝试使用 Huggingface 预训练模型“GPT2dialog”作为句子的编码器,但文本索引器让我感到困惑。详细来说,我可以正常运行带有预训练索引器的 dataset_reader 的单元测试,当使用 train 命令训练模型时会导致错误:
这是我的 dataset_reader 代码。
我在网上找了很久。但是没有用。请帮助或尝试提供一些想法如何实现这一目标。
python - AllenNLP 中的可分解注意力模型难以微调
我在微调 decomposable-attention-elmo 模型时遇到了麻烦。我已经能够下载模型:wget https://s3-us-west-2.amazonaws.com/allennlp/models/decomposable-attention-elmo-2018.02.19.tar.gz
. 我正在尝试加载模型,然后使用 AllenNLP train 命令行命令对我的数据进行微调。
我还创建了一个自定义数据集阅读器,它类似于SNLIDatasetReader
并且似乎运行良好。
我创建了一个.jsonnet
文件,类似于这里的文件,但我无法让它工作。
当我使用这个版本时:
我收到一个错误:
然后,当我取出那text_field_embedder
部分并使用此版本时:
我收到一个错误:
这两个错误似乎是矛盾的,我不确定如何进行这种微调。
pytorch - AllenNLP 多任务模型:保持新磁头的编码器权重
我已经训练了一个(AllenNLP)多任务模型。我想保留编码器/骨干的权重,并继续在新数据集上使用新头进行训练。我怎么能用 AllenNLP 做到这一点?
对于如何做到这一点,我有两个基本想法:
我按照这个 AllenNLP 教程加载了经过训练的模型,然后我想更改配置和模型头以继续在新数据集上进行训练,而不是仅仅进行预测……但我有点迷失在如何做到这一点。
我想应该可以(a)将先前训练的编码器的状态字典保存在一个文件中,然后(b)指向新模型的配置文件中的那些权重(而不是指向“bert-base-例如,“装箱”-权重)。但是看着PretrainedTransformerEmbedder 类,我看不到如何将自己的模型权重传递给该类。
作为一个额外的问题:是否也可以单独保存头部的权重并用这些权重初始化新的头部?
任何帮助表示赞赏:)