问题标签 [summarization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
97 浏览

vba - 总结部分 Excel 表格

我在 Microsoft Excel Office 的 VBA 中有一个问题。

有一个表有两行(从头到下)和数千行。

第一行是包含软件公司名称的字符串,例如 Adob​​e。

在第 2 行有包含第 1 行公司产品名称的字符串,例如 Acrobat Reader 11。

所以我想要的是,在第 2 行中的字符串,如:“Acrobat Reader 11”和“Acrobat Reader 10”将被总结为“Acrobat Reader”这可能吗?它不仅是版本号,“Office Word”“Office Excel”到“Office”。

你能帮助我吗?顺便说一句,我是 VBA 和 Excel 的菜鸟。

问候

0 投票
3 回答
24757 浏览

r - 返回每个组的最频繁字符串值

我想按变量分组a并返回最常见的值b

我想要的结果看起来像

里面dplyr会是这样的

我提到dplyr只是为了可视化问题。

0 投票
1 回答
57 浏览

r - 使用显示每个研究组的二元指标变量比较两组,仅选择具有指标的组进行分析

我有一个数据集:

我想在每个手臂上进行分析,即。组 = 1 和组 = 2。所以我需要分析所有计数变量,只针对 group=1,然后只针对 group=2。

0 投票
2 回答
103 浏览

mysql - MySQL计算所有项目,聚合少于其他项目

我需要从许多 mysql 5.6 表中获取数据来创建饼图。如您所知,如果饼图表示有意义的数据,它就很有用。但是,当您有许多无意义的数据点时,例如小于 .. 或不重要的值,饼图就会变得不清楚。我需要计算每个类别的出现次数并将小于 X 的不重要计数汇总为 OTHERS。

目前我做一个

它给了我每个类别,而且很重要。如何获得总数超过 50 的类别和低于 50 的类别,在“其他”下进行汇总。谢谢,豪尔赫。

0 投票
1 回答
188 浏览

r - Combining columns of a table based on age range

I have a table in R that looks like (below is just a sample):

The rows are income levels, and the columns are age levels. I am essentially creating this table to see if age is related to income via a Chi-squared test. The numbers in the table are numbers of occurrences e.g. There are 2 people aged 17 in my dataset with income of 10000.

Both age and income level of type "num" in R so are continuous.

I want to essentially combine the columns for age so that I get a table with everyone who has income of 10k and is between age 15-25, age 25-35, etc. so I end up with much fewer columns.

Note also that colnames(tbl) = "15","17", "18", not "Age" - I haven't defined an overarching name for my columns and rows.

I note this answer does something similar but not sure how to apply it given I don't have a name for my columns e.g. "mpg" (in the case of the link).

Any ideas?

0 投票
1 回答
540 浏览

r - R - ddply 使用 nlevels() 总结不起作用

在使用 plyr 包汇总我的数据时,似乎无法使用 nlevels() 函数。

我的数据集结构如下:

我想知道的是,在使用变量“SOC”划分数据集时,创建的数据部分的“ID”变量中存在多少级别。 我想将这些信息与新数据集中的一些其他变量一起汇总。因此,我想像这样使用 plyr 包:

这将返回以下错误:

有人可以就如何实现我的目标给我建议吗?或者我做错了什么?

提前谢谢了!

0 投票
1 回答
284 浏览

perl - MEAD(Perl 包)安装

我正在尝试安装 MEAD http://www.summarization.com/mead/以进行文本摘要,但是当我尝试从 bin 文件夹中运行一个基本示例时

我收到以下错误:

很奇怪,我已经安装了 expat。我想知道,这个错误的原因可能是什么?

0 投票
1 回答
599 浏览

machine-learning - 基于概念的文本摘要(抽象)

我正在寻找一个基于句子的概念或含义进行 AI 文本摘要的引擎,我查看了诸如 (ginger, paraphrase, ace) 之类的开源项目,但它们没有完成这项工作。他们的工作方式是尝试为每个单词找到同义词并替换为当前单词,这样他们会生成很多句子的替代词,但大多数时候意思是错误的。

我曾与斯坦福大学的引擎合作,对一篇文章做一些亮点,并在此基础上提取最重要的句子,但这仍然不是抽象,而是它的提取。

我正在寻找的引擎会随着时间的推移而学习,并且每次总结后结果都会得到改善,这也是有道理的。

请在这里提供帮助,非常感谢您的帮助!

0 投票
2 回答
21022 浏览

r - 如何计算 R 中多列的组内百分比变化?

我有一个带有 ID 列、日期列(每个 ID 12 个月)的数据框,并且我有 23 个数字变量。我想获得每个 ID 中按月变化的百分比。我正在使用 quantmod 包来获得百分比变化。

这是一个只有三列的示例(为简单起见):

我尝试使用 dplyr 和 summarise_each 函数,但没有成功。更具体地说,我尝试了以下方法(train 是数据集的名称):

我也尝试在 dplyr 中使用 do 函数,但我也没有成功(我猜这是一个糟糕的夜晚!)。

我认为问题在于 Delt 函数。当我用 sum 函数替换 Delt 时:

结果是每个变量在每个 ID 的日期内求和。那么每个 ID 的百分比如何逐月变化呢?

0 投票
1 回答
934 浏览

machine-learning - 自动文本/HTML注释/突出显示

现在有一些软件,当提供一个文本或一个 html 文档页面时,会输出一个摘要。

我想知道是否有任何东西可以自动注释(或至少突出显示)相同的文档。

这个想法是能够保留全文,但突出最有意义的部分(我猜想有点像摘要工具)。并且可能提供额外的推断见解(?)

另外我想知道如果它存在它是如何工作的:) 它真的会与总结有很大不同,还是只是相同的原理与不同的“输出格式”?

我正在寻找注释 HTML 文档的东西,例如 AnnotatorJS 的设计用途,如下所示:

写作荚