问题标签 [web-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
646 浏览

c# - URL 规范化的数据集

我正在开展一个标准化 URL 的项目。(即应该识别映射到同一网页的不同 URL,并且应该像搜索引擎一样减少冗余)。

所以我想要一个包含不同 URL 的数据集来测试我的方法。请提供标准化数据集的链接。

我正在用 C# 实现这个项目,我想要你的建议。提前致谢。

0 投票
3 回答
3007 浏览

java - 用于网络抓取或网络挖掘的 Java API

我正在寻找一个好的 Java api 来进行网络抓取。我尝试了 WEB-Harvest api http://web-harvest.sourceforge.net/usage.php但我认为它有点笨拙。还有其他建议吗?

0 投票
5 回答
7252 浏览

python - 快速的网络爬虫

我想做大规模的数据挖掘。为此,我需要一个快速的爬虫。我所需要的只是下载一个网页,提取链接并递归地跟踪它们,但无需访问相同的 url 两次。基本上,我想避免循环。

我已经用python写了一个爬虫,但是太慢了。我无法用它使 100Mbit 线路饱和。最高速度约为 40 个 URL/秒。由于某种原因,很难得到更好的结果。这似乎是 python 的多线程/套接字的问题。我也遇到了 python 的 gargabe 收集器的问题,但这是可以解决的。顺便说一句,CPU不是瓶颈。

那么,我应该用什么来编写一个尽可能快的爬虫,以及在爬取时避免循环的最佳解决方案是什么?

编辑:解决方案是组合multiprocessingthreading模块。生成多个进程,每个进程具有多个线程以获得最佳效果。在单个进程中生成多个线程是无效的,并且只有一个线程的多个进程会消耗太多内存。

0 投票
6 回答
4399 浏览

java - 网络挖掘或抓取或爬行?我应该使用什么工具/库?

我想抓取一些网页并将其保存为 HTML。比如说,爬入数百个流行的网站,然后简单地保存它们的首页和“关于”页面。

我研究了很多问题,但没有从网络抓取或网络抓取问题中找到答案。

我应该使用什么库或工具来构建解决方案?或者是否有一些现有的工具可以处理这个问题?

0 投票
3 回答
95 浏览

search-engine - 搜索包含特定链接的网页

假设我想搜索包含我想要的链接的网页。

我通常会使用链接作为查询并搜索它(就像在谷歌中一样)

注意这里,我只需要包含链接的页面。

但通常情况下,搜索引擎会返回来自我的查询的结果。

在某些情况下,他们会将我的查询拆分为有意义的段。

就像我在 Google 中搜索www.101domain.com/International一样。

谷歌会将链接拆分为它认为更有用的( 101domain,International )。

但我只需要原始结果。

PS:

我正在做一个网络挖掘项目,它找到链接之间的关系,我将使用这种关系来构建一个图表。

感谢您的任何建议!

0 投票
2 回答
611 浏览

json - 谷歌提供JSON表单查询结果?

我正在使用谷歌做一些网络挖掘任务。

虽然使用普通的谷歌搜索引擎可能会有所帮助,但我仍然需要分析网页。

我想问一下:

Google 是否以 JSON 形式提供查询结果?

PS:

我知道一个地方,谷歌自定义搜索,但是免费用户的查询量有限,不能满足我的需要。

那么,有人知道其他解决方案吗?

0 投票
1 回答
2847 浏览

java - 如何从网页中提取文本内容?

我正在用java开发一个应用程序,它可以从不同的网页获取文本信息并将其汇总到一个页面中。例如,假设我在不同的网页上有一条新闻,如印度教、印度时报、政治家等。现在我的应用程序应该从这些页面中的每个页面中提取重要点并将它们放在一起作为单个新闻。该应用程序基于网络内容挖掘的概念。作为该领域的初学者,我不明白从哪里开始.我已经阅读了研究论文,其中解释了噪声消除是构建此应用程序的第一步。

所以,如果给我一个新闻网页,第一步是从页面中提取主要新闻,不包括超链接、广告、无用图像等。我的问题是我该怎么做?请给我一些很好的教程来解释使用网络内容挖掘来实现这种应用程序。或者至少给我一些提示如何完成它?

0 投票
0 回答
74 浏览

java - 如何从网页中提取除广告、无用链接之外的主要内容?

可能重复:
如何从网页中提取文本内容?

我搜索了很多,但找不到我要找的东西。实际上我想从网页中提取数据(只有主要数据,如新闻页面中的文章)。在谷歌上我发现了很多开源软件像bottlepipe,Jtidy等,但我想编写自己的代码来做到这一点。因为我已经在java中完成了编程并希望在java中实现它。有没有办法在不使用开源库的情况下做到这一点?

你能给我一些很好的教程吗?

0 投票
1 回答
1070 浏览

java - 难以从新闻网页中提取主要内容

我需要从新闻网页中提取主要内容(不包括链接、广告等)。我在网上阅读过它并知道要做到这一点,我需要解析 html 页面,然后从 html 标签中选择内容。我编写了一个代码,该代码将 html 文件作为输入,并使用 java.swing.* 中提供的 Htmleditorkit 从网页中提取文本。

但我的问题是我无法弄清楚如何仅从网页中选择主要内容,例如新闻网页中的文章。

另外,我想知道我进行解析的方式很好,或者我应该使用一些开源库,如 Jsoup、Jtidy 等。对于同样的事情。

请帮助我并纠正我做错的地方。

0 投票
1 回答
645 浏览

java - 如何在 Windows 上安装 Boilerpipe?

谁能告诉我如何在带有 Netbeans 的 Windows 上使用锅炉管?如果您能给我一些 java 代码来开始它,我将不胜感激。