问题标签 [summarization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 文本文档的摘要(多文档即新闻)通过查找事件
尊敬的先生,Mem
我想总结文本文档(任何非结构化的即新闻数据)。我的第一个目标是在给定的文本数据中找到重要事件,下一步(第二步)基于这些事件,我将选择一些重要事件(通过某些方法)。
- 请告诉我一些文件以从文本中找到事件。(如果最新的话会更好)
- 请告诉我一些使用机器学习或软计算查找事件的论文。
谢谢你
chandrtech15@gmail.com
r - R在最后一行用字符总结data.frame
我有一个由字符列和数字列组成的 data.frame。现在我想计算数字列的平均值并将结果附加到数据框的末尾。
到
我用 colMeans 尝试过,但这与字符列冲突,我收到以下错误:
我还尝试使用 data[2:4] 将 colMeans 限制为 data.frame 的一部分,但随后我很难附加字符串,因为它的长度与原始 data.frame 的长度不同。
谢谢你的帮助。
r - 在 R 中的单个变量中聚合分类变量值
我有一个包含以下变量的数据集 - Bill_Number、Item_Name、Quantity。一个 Bill_Number 下可以有多个 Item_Name。我试图通过 Bill_Number 和 Quantity 来总结它,其中 Item_Names 被连接到每个账单编号的单个变量中。这里的解决方案:组合几个行变量适用于有限和预定义的框架(如下所示),但我有数百个 Item_Names。我确信有一种更简单的方法可以做到这一点。有人可以帮忙吗?
数据(仅样本):
输出:使用ply::ddply
这取决于“Prod D”是一个单独的行,而我需要一个给定数量的所有产品和该账单号码的总数量的组合。
我需要的输出格式如下:
而我从上面的代码中得到的输出是:
扩展场景,如果我有更多变量,例如每个 Item_Name 的 Brand、Category、Sub_category 和 Sales_Amount 作为数字变量来进一步求和,会发生什么?
如果您需要更多信息或有疑问,请告诉我。
谢谢,拉乌尔
c++ - 创建简单文本摘要算法的最有效方法
我正在构建一个简单的天真的文本摘要算法。该算法的工作原理如下:
- 我算法的第一步是删除所有停用词(英语停用词)。
- 在我的文本仅包含具有实际含义的单词后,我将查看每个单词在文本中使用了多少次以查找该单词的频率。例如,如果“超级计算机”这个词被使用了 5 次,它将具有
frequency = 5
. - 然后我将通过除以 来计算每个句子的权
sum of the frequencies of all words in the sentence
重number of the words in the sentence
。 - 在最后一步,我将按句子的长度对句子进行排序。
我需要用 C++ 编写这个算法(作为 V8 NodeJS 模块),但问题是在过去几年中,我主要使用 Javascript 等高级脚本语言工作,而我在 C++ 方面没有那么丰富的经验。在 javascript 中,我可以使用正则表达式删除所有停用词,然后找到频率,但在 C++ 中似乎要复杂得多。
我想出了以下想法:
- 停用词将被预加载到 V8 本地数组或 std::vector 中。
- 对于文本中的每个单词,我将遍历所有停用词,如果当前单词不是停用词,则检查它是否在结构中,如果不是 -> 添加一个新词
word
,Words vector
如果存在则增加频率1. - 在我找到所有单词的所有频率之后,我将再次循环遍历文本以找到每个句子的权重。
有了这个想法,我想到了几个问题:
- 我的文本将主要是 1000 多个单词。并且对于每个循环通过 100 多个停用词的单词,将进行 100000 次迭代以找出停用词。这似乎真的无效。
- 在我获得频率之后,我需要在文本 1000 多个单词和 300 多个单词(在向量频率中)循环一次,以计算每个句子的权重。
我的想法似乎无效,但我对C++不太熟悉。
所以我的问题是有没有更好的方法来做到这一点或优化我的算法,尤其是我上面列出的问题?
我担心我的算法的性能,任何提示/建议将不胜感激。
r - summarise() 的 dplyr 成语是一个过滤组,并且还替换由于缺少行而导致的任何 NA
我正在计算dplyr::summarize
销售数据的数据框。我进行分组(S,D,Y),然后在每个组中计算第 5..43 周的中位数和平均值,然后将它们合并回父 df。变量 X 是销售额。X 永远不会是 NA(即 df 中的任何地方都没有明确的 NA),但是如果该 S、D、Y 和一组周没有数据(如没有销售),则根本不会有这些值的行在 df 中(这意味着该特定参数集的销售额为零)。换句话说,在任何结构缺失的行中估算 X=0 (但我希望我不需要melt/cast
原始 df,以避免膨胀。类似于cast(fill....,add.missing=T)
or caret::preProcess()
)。
关于我的代码习惯的两个问题:
使用 summarise 是否比 更好
dplyr::filter
,因为 filter 会物理删除行,所以我必须将结果分配给df.tmp
然后将其左连接回原始 df (如下所示)?此外,在每行汇总计算中重复的大子集表达式使代码更难阅读。我是否应该担心(或不)缓存子集操作的行或逻辑索引,在一般情况下我可能会计算说 n=20 个新的汇总变量?并非所有 S、D、Y 组和过滤器的组合(对于那几周)都有行,那么如何获取汇总以替换任何缺失行上的 NA?目前我做如下。
抱歉,代码和数据集都是专有的,但这里是代码习惯用法,下面是您应该首先运行以生成示例数据的代码:
并首先运行它以生成示例数据:
python - 使用深度学习技术的文本摘要
我正在尝试总结属于法律领域的文本文档。
我指的是关于如何实现深度学习架构的网站 deeplearning.net。我已经阅读了很多关于文档摘要(单文档和多文档)的研究论文,但我无法弄清楚每个文档的摘要是如何生成的。
训练完成后,网络会在测试阶段稳定下来。因此,即使我知道在训练阶段学习的一组特征(我已经弄清楚了),在测试期间也很难找出每个特征的重要性(因为网络的权重向量是稳定的)我将尝试为每个文档生成摘要的阶段。
我试图弄清楚这一点很长时间,但它是徒劳的。
如果有人对此进行过研究或对此有任何想法,请给我一些指示。我真的很感谢你的帮助。谢谢你。
r - 使用 ddply 按组汇总不同时间段的变量
我正在尝试按客户汇总销售报告并获取不同时间段的总销售额:
我可以使用以下方法由客户进行总结ddply
:
我想添加一个额外的列,其中仅包含 03/01/2014 日期的销售额
siblings - 总结一个 XML 数据
我有一个以下格式的输入,它会提取所有带有演员姓名的电影列表(键是电影),我需要总结演员视角的数据。
我需要按以下方式对其进行格式化:
我被困在我必须为每个循环引用当前行的下一行以确定电影列表是否必须继续或必须关闭的地方。非常感谢这里的任何指导。
python - 在python中总结很长的ipv4地址列表
我有一个很长的 IPv4 地址列表(~18k),我想尽可能地总结一下:例如
应该结束像
速度很重要。
有什么建议么?