问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-analysis - 建立 URL 索引,包括哪些功能?
我正在努力建立一个URL索引。目标是构建和存储一个数据结构,该结构具有作为域 URL 的键(例如 www.nytimes.com),值将是与该 URL 关联的一组特征。我正在寻找您对这组功能的建议。例如,我想将 www.nytimes.com 存储如下:
[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001, etc..]
为什么我要建造这个?好吧,最终目标是用这个索引做一些有趣的事情,例如我可以在这个索引上进行聚类并找到有趣的组等。我有很多文本,这些文本是由整个时间段内的大量 URL 生成的很多时间:) 所以数据不是问题。
任何形式的建议都非常受欢迎。
vb.net - vb.net 中的 N-gram 函数 -> 为单词而不是字符创建gram
我最近发现了 n-gram 以及将文本正文中的短语频率与其进行比较的很酷的可能性。现在我正在尝试制作一个简单的获取文本正文并返回最常用短语列表(其中 n >= 2)的 vb.net 应用程序。
我找到了一个如何从文本正文生成 n-gram 的 C# 示例,因此我开始将代码转换为 VB。问题是这段代码确实每个字符创建一克而不是每个单词一克。我想为单词使用的分隔符是:VbCrLf(新行)、vbTab(制表符)和以下字符:!@#$%^&*()_+-={}|\:\"'?¿ /.,<>'¡º×÷';«»[]
有谁知道我如何为此目的重写以下函数:
c# - 从不同的非结构化文本文件中检索信息 - 文本挖掘?
我需要一些帮助来解决这个问题。
我们有大量给定指定域的文档。这些文档来自不同的来源,因此它们的结构也可能非常不同。另一方面,我有一个包含一些指定字段的表格,其中一些数字必须从文档的摘录中填写。
例如:
x公司2010年的营业额为$20mio,今年y公司的交易额为$1,000,000。
结果应该是这样的
您能否指出一些链接或主题,我可以在其中找到如何解决此类问题的更多信息。
我知道没有开箱即用的解决方案,但我应该从哪里开始寻找。
提前致谢。
database - 大型数据库上的文本挖掘(数据挖掘)
我有一个大型的简历 (CV) 数据库,以及将所有用户技能分组的某个表技能。
在该表中,有一个字段Skill_text以全文形式描述技能。
我正在寻找一种算法/软件/方法来从该表中提取重要的术语/短语,以便建立一个具有标准化技能的新表。
以下是从数据库中提取的一些示例技能:
- 部门和竞争分析
- 业务发展(包括在国际环境中)
- 具体结构及道路设计软件——Microstation、澳门、AutoCAD(基础知识)
- 创意作品(Photoshop、In-Design、Illustrator)
- 检查并报告活动进度
- 组织和参加活动和展览
- 开发:Aptana Studio、PHP、HTML、CSS、JavaScript、SQL、AJAX
- 学科:一对一营销,电子营销(SEO和SEA,展示,电子邮件,联盟计划)混合营销,病毒营销,社交网络营销。
输出应该是这样的:
- 部门和竞争分析
- 业务发展
- 具体结构和道路设计软件——
- 澳门
- AutoCAD
- Photoshop
- 设计中
- 插画家
- 组织活动
- 发展
- 阿普塔纳工作室
- PHP
- HTML
- CSS
- JavaScript
- SQL
- AJAX
- 混合营销
- 病毒式营销
- 社交网络营销
- 发电子邮件
- 搜索引擎优化
- 一对一营销
如您所见,只有技能仍然没有其他表示文本。
我知道使用文本挖掘技术可以做到这一点,但该怎么做呢?数据库真的很大..这是一件好事,因为我们可以计算文本频率并确定它是真正的技能还是只是无意义的文本......最大的问题是..如何确定“blablabla”是一种技能?
编辑:请不要告诉我使用文本工具或正则表达式之类的标准东西..因为用户以非常任意的方式输入技能!
谢谢
artificial-intelligence - 如何识别给定文本中的想法和概念
我目前正在开展一个项目,能够检测何时在正文中提到某个主题/想法将非常有用。例如,如果文本包含:
也许如果你告诉我更多关于琼斯先生是谁,那会有所帮助。如果我能描述一下他的外表,或者更好的是一张照片,那也很有用?
如果能够检测到此人要求提供琼斯先生的照片,那就太好了。我可以采取一种非常天真的方法,只寻找“照片”或“照片”这个词,但如果他们写了这样的东西,这显然是不好的:
请永远不要给我发琼斯先生的照片。
有谁知道从哪里开始?甚至可能吗?
我已经研究过 nltk 之类的东西,但我还没有找到一个人做类似事情的例子,我仍然不完全确定这种分析被称为什么。任何能让我离开地面的帮助都会很棒。
谢谢!
java - 在 Lucene 中对词级注释层进行索引和搜索
我有一个数据集,在底层文本上具有多层注释,例如part-of-tags、来自浅解析器的块、名称实体以及来自各种 自然语言处理(NLP) 工具的其他注释。对于类似的句子The man went to the store
,注释可能如下所示:
我想使用 Lucene 为一堆带有此类注释的文档编制索引,然后跨不同层执行搜索。一个简单查询的示例是检索所有将Washington标记为person的文档。虽然我并不完全致力于这种表示法,但从语法上讲,最终用户可能会按如下方式输入查询:
查询:Word=Washington,NER=Person
我还想做更复杂的查询,涉及跨不同层的注释顺序,例如,查找所有有单词标记的文档,然后是单词,arrived at
然后是单词标记的location。这样的查询可能如下所示:
查询:"NER=Person Word=arrived Word=at NER=Location"
用 Lucene 解决这个问题的好方法是什么?是否有索引和搜索包含结构化标记的文档字段?
有效载荷
一个建议是尝试使用 Lucene有效载荷。但是,我认为有效载荷只能用于调整文档的排名,而不是用于选择返回的文档。
后者很重要,因为对于某些用例,包含模式的文档数量确实是我想要的。
此外,仅检查与查询匹配的术语的有效负载。这意味着有效载荷甚至只能帮助第一个示例查询的排名,Word=Washington,NER=Person
因此我们只想确保该术语Washingonton
被标记为Person
. 但是,对于第二个示例查询, "NER=Person Word=arrived Word=at NER=Location"
我需要检查未指定且因此不匹配的术语上的标签。
sql - PostgreSQL 中文本的 n-gram
我正在寻找从 PostgreSQL 中的文本列创建 n-gram。我目前将文本列中的(空白)数据(句子)拆分为数组。
enter code here
从表名中选择 regexp_split_to_array(sentenceData,E'\s+')
一旦我有了这个数组,我该怎么做:
- 创建一个循环来查找 n-gram,并将每个写入另一个表中的一行
使用 unnest 我可以在单独的行上获取所有数组的所有元素,也许我可以想办法从单个列中获取 n-gram,但我会放宽我明智地保留的句子边界。
用于模拟上述场景的 PostgreSQL 示例 SQL 代码
r - 跟踪单词邻近度
我正在做一个小项目,该项目涉及在文档集合中进行基于字典的文本搜索。我的字典有积极的信号词(又名好词),但在文档集合中仅仅找到一个词并不能保证肯定的结果,因为可能有消极的词,例如(不,不重要)可能在这些积极的词附近. 我想构建一个矩阵,使其包含文档编号、正词及其与负词的接近度。
任何人都可以请提出一种方法来做到这一点。我的项目处于非常早期的阶段,所以我给出了我的文本的一个基本示例。
这是我的示例文件,其中坎地沙坦西酯、格列本脲、硝苯地平、地高辛、华法林、氢氯噻嗪是我的正面词,而我的负面词没有意义。我想在我的肯定词和否定词之间做一个接近(基于词)的映射。
任何人都可以提供一些有用的指示吗?
r - 文档分类的决策树
嗨,我想知道是否可以使用决策树进行文档分类,如果可以,那么数据表示应该如何?我知道将 R 包派对用于决策树。
java - 大规模机器学习
我需要在一个大数据集(10-1000 亿条记录)上运行各种机器学习技术问题主要围绕文本挖掘/信息提取,包括各种内核技术但不限于它们(我们使用一些贝叶斯方法、引导、梯度boosting,回归树——许多不同的问题和解决它们的方法)
最好的实现是什么?我有 ML 经验,但没有太多经验如何处理大型数据集 是否有任何可扩展和可定制的机器学习库利用 MapReduce 基础设施 强烈偏好 c++,但 Java 和 python 都可以 Amazon Azure 或自己的数据中心(我们可以买得起)?