问题标签 [question-answering]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 使用 BERT 开发问答系统
我目前正在为我的论文使用 BERT开发一个问答系统(印度尼西亚语)。数据集和给出的问题是印度尼西亚语。
问题是,我仍然不清楚如何逐步开发 BERT 中的问答系统。
根据我在阅读了一些研究期刊和论文后得出的结论,这个过程可能是这样的:
- 准备主数据集
- 加载训练前数据
- 使用预训练数据训练主数据集(以便生成“微调”模型)
- 对微调后的模型进行聚类
- 测试(向系统提出问题)
- 评估
我想问的是:
- 这些步骤正确吗?或者可能有任何遗漏的步骤?
- 另外,如果 BERT 提供的默认预训练数据是英文,而我的主要数据集是印度尼西亚语,我如何创建自己的印度尼西亚语预训练数据?
- 它真的需要在 BERT 中执行数据/模型聚类吗?
我感谢任何有用的答案。非常感谢您提前。
python - (TF-IDF)计算余弦相似度后如何返回五篇相关文章
我得到一个数据框sample_df(4 列:paper_id、title、abstract、body_text)。我提取了摘要列(每个摘要约 1000 个字)并应用了文本清理过程。这是我的问题:
在计算完问题和摘要之间的余弦相似度后,由于我的目标是做 tf -idf 问答,它如何返回带有相应信息(例如paper_id、title、body_text )的 top5 文章分数。
我真的很抱歉我的英语很差而且我是 nlp 的新手。如果有人可以提供帮助,我将不胜感激。
nlp - 哪个 NLP 任务更容易开始?
以下 NLP 主题中的哪一个更容易使用?
- 问答
- 释义检测
- 短文对话
- 作者身份
nlp - QA问题系统中多个正确答案的评价指标
我正在构建一台 QA 机器,我有自己的数据来完成这项任务。我有一个问题,即 1 个问题可以有 2 个或更多答案。例如:
问题: “A必须做什么?”
正确答案:
- “必须打扫地板”
- “一个不得不挂衣服”
在我的 QA 模型中,我可以获得 k 个最佳答案。但是,在某些情况下,不仅 k 不等于正确答案的数量,而且 k 中的一些答案也不正确。
大多数公共数据集,如 SQuAD、triviaQA 都有一个问题和一个答案。就我而言,我的问题可以有多个答案。那么,我应该使用什么样的评估指标?我可以使用 F1 分数吗?
nlp - 是否有任何具有多个答案的 NLP 问答数据集?
我正在构建一台 QA 机器。我有一个问题,一个问题可能有多个答案,并且答案位于上下文中的不同位置。例如:
问题:克里斯必须做什么?
上下文: ....克里斯必须洗碗....(更多文字)....克里斯必须做功课....
正确答案:
- 洗碗
- 做作业
当我得到一个问题的答案时,我使用聚类算法去重复并获得“单独的”答案。因此,我需要一个包含一对 1 个问题的数据集 - 许多类似上面的答案来评估我的聚类算法和句子嵌入模型。
是否有任何公共数据集支持一对一个问题 - 多个正确答案(不重复)?我尝试了 MS MARCO,但这个数据集中的多个答案大部分都是重复的。
nlp - 我的检查点阿尔伯特文件在训练时没有改变
我为问答任务训练 Albert 模型。我有 200,000 个问答对,我使用保存的 2gb 检查点文件。我在我的 GPU GeForce 2070 RTX 上对其进行了训练,每次 1000 步以保存检查点,在训练期间检查点model.ckpt-96000.data-00000-of-00001
文件只是保持大小135MB
而不增加。这是一个问题吗?
我不明白为什么对于像 1500 个问答对这样的小得多的数据集,它还会生成 135 MB 的检查点文件。它还没有停止训练,但是模型是否有可能通过这次训练得到改进?
nlp - RuntimeError:张量 a (546) 的大小必须与非单维 1 的张量 b (512) 的大小相匹配
我正在使用悬脸变压器的 BertForQuestionAnswering。我遇到了张量大小问题。我尝试使用 BertConfig 设置配置。但这并没有解决问题
这是我的代码
数据(问题和文本):
错误:
我知道输入文本的大小大于默认设置张量大小 512。但我不知道如何手动设置该值。
maxlength - AllenNLP 问答的段落长度限制
我对 AllenNLP 很陌生,我目前正在使用它的预训练问答模型。我想知道它是否有通道长度限制以确保其性能?我知道 BERT 的最大长度为 512,并且会截断更长的段落。
我在 AllenNLP 上尝试过更长的段落,它似乎有效,但我只是想确认一下。谢谢你。
huggingface-transformers - Huggingface 转换器模型返回字符串而不是 logits
我正在尝试从 huggingface 网站运行这个示例。https://huggingface.co/transformers/task_summary.html。似乎模型返回两个字符串而不是 logits!这会导致 torch.argmax() 引发错误
c# - 这个 C# 代码在算法中做了什么?
编码数据 =(编码数据 | 移位缓冲区)