问题标签 [question-answering]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

188 问题

0 投票

1 回答

148 浏览

tensorflow - 使用 BERT 开发问答系统

我目前正在为我的论文使用 BERT开发一个问答系统（印度尼西亚语）。数据集和给出的问题是印度尼西亚语。

问题是，我仍然不清楚如何逐步开发 BERT 中的问答系统。

根据我在阅读了一些研究期刊和论文后得出的结论，这个过程可能是这样的：

准备主数据集
加载训练前数据
使用预训练数据训练主数据集（以便生成“微调”模型）
对微调后的模型进行聚类
测试（向系统提出问题）
评估

我想问的是：

这些步骤正确吗？或者可能有任何遗漏的步骤？
另外，如果 BERT 提供的默认预训练数据是英文，而我的主要数据集是印度尼西亚语，我如何创建自己的印度尼西亚语预训练数据？
它真的需要在 BERT 中执行数据/模型聚类吗？

我感谢任何有用的答案。非常感谢您提前。

2020-07-27T08:48:01.743

0 投票

1 回答

182 浏览

python - (TF-IDF)计算余弦相似度后如何返回五篇相关文章

我得到一个数据框sample_df（4 列：paper_id、title、abstract、body_text）。我提取了摘要列（每个摘要约 1000 个字）并应用了文本清理过程。这是我的问题：

在计算完问题和摘要之间的余弦相似度后，由于我的目标是做 tf -idf 问答，它如何返回带有相应信息（例如paper_id、title、body_text ）的 top5 文章分数。

我真的很抱歉我的英语很差而且我是 nlp 的新手。如果有人可以提供帮助，我将不胜感激。

python nlp tf-idf question-answering

2020-08-16T07:16:54.123

0 投票

1 回答

33 浏览

nlp - 哪个 NLP 任务更容易开始？

以下 NLP 主题中的哪一个更容易使用？

问答
释义检测
短文对话
作者身份

nlp information-retrieval question-answering plagiarism-detection

2020-09-08T09:10:19.780

0 投票

1 回答

166 浏览

nlp - QA问题系统中多个正确答案的评价指标

我正在构建一台 QA 机器，我有自己的数据来完成这项任务。我有一个问题，即 1 个问题可以有 2 个或更多答案。例如：

问题： “A必须做什么？”

正确答案：

“必须打扫地板”
“一个不得不挂衣服”

在我的 QA 模型中，我可以获得 k 个最佳答案。但是，在某些情况下，不仅 k 不等于正确答案的数量，而且 k 中的一些答案也不正确。

大多数公共数据集，如 SQuAD、triviaQA 都有一个问题和一个答案。就我而言，我的问题可以有多个答案。那么，我应该使用什么样的评估指标？我可以使用 F1 分数吗？

nlp metrics question-answering

2020-09-29T03:43:22.107

0 投票

2 回答

440 浏览

nlp - 是否有任何具有多个答案的 NLP 问答数据集？

我正在构建一台 QA 机器。我有一个问题，一个问题可能有多个答案，并且答案位于上下文中的不同位置。例如：

问题：克里斯必须做什么？

上下文： ....克里斯必须洗碗....（更多文字）....克里斯必须做功课....

正确答案：

洗碗
做作业

当我得到一个问题的答案时，我使用聚类算法去重复并获得“单独的”答案。因此，我需要一个包含一对 1 个问题的数据集 - 许多类似上面的答案来评估我的聚类算法和句子嵌入模型。

是否有任何公共数据集支持一对一个问题 - 多个正确答案（不重复）？我尝试了 MS MARCO，但这个数据集中的多个答案大部分都是重复的。

nlp dataset question-answering

2020-09-30T09:15:53.623

0 投票

1 回答

60 浏览

nlp - 我的检查点阿尔伯特文件在训练时没有改变

我为问答任务训练 Albert 模型。我有 200,000 个问答对，我使用保存的 2gb 检查点文件。我在我的 GPU GeForce 2070 RTX 上对其进行了训练，每次 1000 步以保存检查点，在训练期间检查点model.ckpt-96000.data-00000-of-00001文件只是保持大小135MB而不增加。这是一个问题吗？

我不明白为什么对于像 1500 个问答对这样的小得多的数据集，它还会生成 135 MB 的检查点文件。它还没有停止训练，但是模型是否有可能通过这次训练得到改进？

nlp training-data bert-language-model checkpoint question-answering

2020-10-07T03:42:15.813

0 投票

0 回答

1038 浏览

nlp - RuntimeError：张量 a (546) 的大小必须与非单维 1 的张量 b (512) 的大小相匹配

我正在使用悬脸变压器的 BertForQuestionAnswering。我遇到了张量大小问题。我尝试使用 BertConfig 设置配置。但这并没有解决问题

这是我的代码

数据（问题和文本）：

错误：

我知道输入文本的大小大于默认设置张量大小 512。但我不知道如何手动设置该值。

nlp bert-language-model huggingface-transformers question-answering

2020-10-31T16:16:31.223

0 投票

1 回答

104 浏览

maxlength - AllenNLP 问答的段落长度限制

我对 AllenNLP 很陌生，我目前正在使用它的预训练问答模型。我想知道它是否有通道长度限制以确保其性能？我知道 BERT 的最大长度为 512，并且会截断更长的段落。

我在 AllenNLP 上尝试过更长的段落，它似乎有效，但我只是想确认一下。谢谢你。

maxlength question-answering allennlp

2020-11-12T17:19:04.847

0 投票

1 回答

4270 浏览

huggingface-transformers - Huggingface 转换器模型返回字符串而不是 logits

我正在尝试从 huggingface 网站运行这个示例。https://huggingface.co/transformers/task_summary.html。似乎模型返回两个字符串而不是 logits！这会导致 torch.argmax() 引发错误

huggingface-transformers question-answering

2020-11-18T21:40:15.450

0 投票

1 回答

63 浏览

c# - 这个 C# 代码在算法中做了什么？

编码数据 =（编码数据 | 移位缓冲区）

c#syntax question-answering

2020-11-24T19:12:52.990

1 2 3 4 5 6 7 8 9 10

问题标签 [question-answering]

Reference