问题标签 [web-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1832 浏览

python - python中有更好的预处理库或实现吗?

我需要预处理一些文本文档,以便我可以应用 fcm 等分类技术和潜在 dirichlet 分配等其他主题建模技术

为了详细说明预处理,我需要删除停用词,提取名词和关键字并执行词干提取。我用于此目的的代码是:

我上面提到的代码的问题是

  1. 用于提取名词和关键字的 nltk 模块缺少许多单词。例如,对某些文档进行了预处理,并且诸如“Sachin”之类的名称在预处理后未被识别为关键字并被遗漏。
  2. 词干不正确。有太多的词干(网络和网络到网络),有时名词也会被词干。

是否有更好的模块来满足所需的功能,或者是否有更好的相同模块实现?请帮助

0 投票
1 回答
121 浏览

javascript - 从多个 AJAX 页面收集数据(使用浏览器插件?)

我想从某个网站收集许多日期和目的地的机票价格。我可以在 URL 上指定来源、目的地和日期,但网站使用 AJAX 获取数据,因此页面响应中的价格并不容易获得。在这种情况下,我可以使用任何编程语言来获取数据。

我认为使用 Web 浏览器一个接一个地加载每个 URL,让它呈现页面,然后我只查找所需的标签(我猜是使用 CSS 选择器或 JS)并保存它,可以更好地完成这项任务到某个文件或日志,然后移动到下一个 URL。稍后我可以查看数据并找到最优惠的价格。

但不幸的是,我找不到任何浏览器扩展/插件来完成这项任务(任何 Linux 浏览器都可以,Firefox 和 Chrome 更有可能)。我已经熟悉 GreaseMonkey,但这不是他设计的任务,但我想这将是一个类似的工具或以类似的方式操作。

有人知道我可以用来完成这项任务的工具吗?也欢迎其他方法!

0 投票
1 回答
1477 浏览

java - 网络爬行时的病毒/恶意软件危险

我最近使用 Java 和 JSoup (http://jsoup.org/) HTML 解析器编写了一个自定义网络爬虫/蜘蛛。网络爬虫非常初级——它使用 Jsoup 的connectget方法来获取页面的来源,然后使用其他 JSoup 方法来解析内容。它会随机跟踪它找到的几乎所有链接,但它不会尝试下载文件或执行脚本。

爬虫从一长串基本上随机的网页中挑选种子页面,其中一些可能包含成人内容和/或恶意代码。最近,当我运行爬虫时,我的防病毒软件 (Avast) 将其中一个请求标记为“检测到威胁”。有问题的 URL 看起来是恶意的。

我的问题是,我的计算机会通过我的网络爬虫感染病毒或任何类型的恶意软件吗?我应该采取任何预防措施或检查吗?

0 投票
2 回答
84 浏览

data-mining - 如何衡量两个网页之间的语义关系

假设,我正在访问一个大学网页。那里有很多老师的简介。尽管这些页面在语法上不相关,但在语义上是相关的。我如何衡量这种类型的关系?实际上我应该关注哪个参数来找到关系?

0 投票
1 回答
72 浏览

perl - 建立会话以使用 Perl 调用 URL

我正在尝试使用 WWW::Mechanize perl 模块从网页中挖掘数据。但是,我首先需要建立一个连接,以便该网页允许我访问数据。在浏览器中,我可以通过单击特定的 href 链接来建立此连接。有没有办法用 Perl 做到这一点?

非常感谢。

0 投票
2 回答
214 浏览

data-mining - 使用文本挖掘进行分类 - 按值与关键字

我有一个与城市经济高度相关的分类问题。我有自由文本中的非结构化数据,例如人口、收入中位数、就业等。是否可以使用文本挖掘来理解文本中的值并进行分类。大多数文本挖掘文章如果已阅读,则使用关键字或短语计数来进行分类。我希望能够根据文本的含义与文本的频率进行分类。这可能吗?

顺便说一句,我目前使用 RapidMiner 和 R。不确定这是否适用于其中任何一个?

在此先感谢,约翰

0 投票
1 回答
495 浏览

command - WEKA 简单的 CLI 命令被杀死

我在 WEKA SimpleCLI 工具上运行以下代码

java weka.core.converters.TextDirectoryLoader -dir c:/mydir/ > c:/output/result.arff

它显示了以下结果

[...Killed] 完成将输出重定向到 'c:/output/result.arff'

result.arff 文件大小为 0 KB。

有谁知道问题?

/* 我的数据大约有 63,000 个 *.txt 文件,但是当我尝试使用这些数据的 10 个样本时,它确实有效 */

0 投票
3 回答
49082 浏览

dataset - 用于情绪分析的好数据集?

我正在从事情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html并且我已将数据集划分为 50:50 的比例。50%用作测试样本,50%用作训练样本,从训练样本中提取特征并使用Weka分类器进行分类,但我的预测准确率约为70-75%。

任何人都可以建议一些其他可以帮助我提高结果的数据集 - 我使用 unigram、bigram 和 POSTtags 作为我的特征。

0 投票
1 回答
1639 浏览

web-crawler - 如何使用 RapidMiner 删除非英语单词

我在 RapidMiner 中进行文本挖掘。我正在抓取一个网站并执行一些预处理任务,例如标记化、小写和过滤英语停用词;但我仍然收到一些无意义的词,如“xckxzaz”、“xkaffqoxzomd”或 JavaScript 代码词,如“wpcf”。我的问题是,RapidMiner 有没有办法摆脱这些词?有人告诉我,创建停用词词典是一种解决方案,但这意味着我必须创建一个看起来不太理想的完整英语词典。任何提示将不胜感激!

0 投票
2 回答
246 浏览

data-mining - 如何使用图挖掘方法获得多节点图?

我现在使用apriori算法做一个数据挖掘项目,我得到的结果是:item1 <=> itam2、item2 <=> item3.......我想用图挖掘来生成一个包含许多节点的图和像这样说明这些节点之间的关系:<img src="https://i.stack.imgur.com/HIeEy.png" alt="enter image description here">

听说过一些数据挖掘软件--weka,rapidminer;也听说过一些图形库--igraph,networkx;也听说过--tableau。但是我还是一头雾水,谁能给我一个详细过程的说明?