问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - 将数据转化为信息:从哪里开始?
我们(我的公司)运营着一个网站,该网站记录了大量数据,例如用户注册、访问、点击、他们发布的内容等,但到目前为止,我们还没有工具来了解如何监控整个事情或如何监控在其中找到模式,以便我们了解可以从中获得什么样的信息?这样 Mgmt 就可以根据它做出决策。简而言之,亚马逊或谷歌的人们根据他们检索到的数据做的事情,我们想要类似的东西。
现在,在介绍之后,我想知道它可以称为什么技术;是数据挖掘、机器学习还是什么?我们应该从哪里开始将无意义的数据转换为有用的信息?
data-mining - 寻求从文档分类开始的书籍和文章参考
我有兴趣做一个关于文档分类的项目,并且一直在寻找可能对与此相关的文本挖掘中的理论部分有用的书籍,或者描述从训练数据与分类(带有子类别)文档到的过程的文章示例预测文档类别的系统。似乎有一些(相当昂贵的!)标题可用,但这些是会议论文集,其中包含关于较小的非常具体的主题的文章。有人可以从数据挖掘文献中推荐书籍,为文本挖掘项目提供良好的理论基础,特别是文档分类或概述此过程的文章?
ruby - 从用户提交的文本中提取关键字的好方法是什么?
我正在建立一个网站,允许用户通过图形表示支持和反对特定问题的论点来理解辩论。(争吵)
我想对这些辩论进行分类,以便更容易找到和联系起来。我不想通过要求他们在看到任何好处之前添加标签和类别来激怒创建辩论的人,所以我正在寻找一种自动提取关键字的方法。
有什么好的方法可以将辩论的标题和描述(可能还有辩论本身的内容)提取出来,比如说,十个强大的关键词,这些关键词可以用作元数据,将类似的辩论联系在一起,甚至作为可以查看辩论的 HTML 页面头部的“元”关键字标签的内容。例如。数据映射器与 ActiveRecord
该站点使用 Ruby 和 Sinatra 进行编码,使用 DataMapper 进行数据存储。理想情况下,我正在寻找可以在 Heroku 上运行的东西(我没有办法将文件动态写入磁盘),并且我会考虑使用 Web 服务、API 或理想情况下的 Ruby gem。
machine-learning - 实现用于文本分类的朴素贝叶斯的对数可能性
我正在实现用于文本分类的朴素贝叶斯算法。我有大约 1000 个用于培训的文档和 400 个用于测试的文档。我想我已经正确地实施了培训部分,但我在测试部分感到困惑。这是我所做的简要介绍:
在我的训练功能中:
我想我正确理解并实施了培训部分,但我不确定我能否正确实施测试部分。在这里,我试图检查每个测试文档,并为每个文档计算 logP(spam|d) 和 logP(non-spam|d)。然后我比较这两个数量以确定类别(垃圾邮件/非垃圾邮件)。
在我的测试功能中:
我的问题是;我想返回每个类的概率,而不是精确的 1 和 0(垃圾邮件/非垃圾邮件)。我想看看例如 newclass = 0.8684212 所以我可以稍后应用阈值。但我在这里很困惑。如何计算每个文档的概率?我可以使用 logProbabilities 来计算吗?
java - Mallet:每个预测的特征贡献
我正在使用 CRF 在 Mallet 上开发 NER 系统。
你知道是否可以收集每个预测的特征贡献?我需要知道并理解 CRF 模型的精确行为。
有什么建议么?
谢谢。
干杯,乌克兰
data-mining - 有哪些技术可以从网页中提取导航菜单?
我正在寻找一种方法来从带有大量链接(可能还有文本)的网页中提取用于导航的菜单。我感兴趣的页面是非常简单、有效的 XHTML,并且可以安全地假设菜单位于页面的开头或结尾。但是到目前为止,我一直没有找到一个好的、通用的方法来找到它的确切位置——我希望你能帮助我解决这个问题。
快速说明:我不是在寻找诸如可读性之类的东西 - 找到主要文章并删除其他所有内容,而是寻找专门找到菜单的东西。此外,“找到一个有很多链接作为继任者的元素”的幼稚方法也不能很好地工作——因为我倾向于包含相当长的链接列表的页面。
编辑:我需要菜单来获取其中链接的页面的内容(我为信息提取项目构建了一个网络抓取工具)。我使用的一些示例页面:
- http://p2.cs.berkeley.edu/
- http://www.cs.cornell.edu/bigreddata/maybms/(注意:这里我需要指向出版物/下载的菜单而不是侧边栏导航,但是使用诸如可读性之类的东西更容易摆脱侧边栏导航) .
web-crawler - 主题相关爬虫的字典是如何定义的?
我想知道定义字典来计算特定网站相关性的最佳方法是什么。至少带有单词的字典似乎是衡量通过链接找到的新网站的相关性的重要方法(例如,如果一个网站被链接到,但它不包含任何关于足球的词,它可能与我的足球爬虫无关)。
我得出了以下想法,但它们都有很大的缺点:
- 手工写字典 -> 你可能会忘记很多单词,而且非常耗时
- 将第一个网站中最重要的单词作为字典 -> 很多单词可能会丢失
- 将所有网站上最重要的单词作为字典中的条目,并通过相关性对它们进行加权(例如,仅相关 0.4 的网站不会像相关 0.8 的网站那样对字典产生如此大的影响)-> 看起来相当复杂并可能导致意想不到的结果
最后一种方法对我来说似乎是最好的,但也许有更好更常用的方法?
python - 数据挖掘中映射数据的算法
我需要抓取一些网页并从中提取内容。我打算选择一些特定的关键字并映射与它们有某种关系的数据。但我不知道,我怎么能做到这一点。有人可以建议我一些算法吗?
例如,我需要下载一些关于苹果的网页,并将苹果的相关数据映射到它并存储在数据库中,这样如果有人需要它的具体信息,我可以快速准确地提供它。
指出有用的库也会很有帮助。我打算用python来做。
java - 用于文本处理的 Python 或 Java(文本挖掘、信息检索、自然语言处理)
我即将开始一个新项目,我将在其中执行大量文本处理任务,例如搜索、分类/分类、聚类等。
将会有大量的文件需要处理;可能有数百万份文件。在初始处理之后,它还必须能够每天使用多个新文档进行更新。
我可以使用 Python 来做到这一点,还是 Python 太慢了?最好使用Java吗?
如果可能的话,我更喜欢 Python,因为这是我最近一直在使用的。另外,我会更快地完成编码部分。但这一切都取决于 Python 的速度。我已经将 Python 用于一些只有几千个文档的小规模文本处理任务,但我不确定它的扩展能力如何。