问题标签 [common-crawl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
309 浏览

java - Hadoop 处理 WARC 文件

我有一个关于 Hadoop 文件拆分和多个映射器的一般性问题。我是 Hadoop 新手,正在尝试了解如何设置以获得最佳性能。我的项目目前正在处理 GZIPed 的 WARC 文件。

使用当前的 InputFileFormat,文件被发送到一个映射器并且不被拆分。我知道这是加密文件的正确行为。在运行作业以允许拆分作业并因此使用更多映射器之前将文件解密作为中间步骤是否会带来性能优势?那可能吗?拥有更多的映射器会产生更多的延迟开销,还是拥有一个映射器更好?谢谢你的帮助。

0 投票
0 回答
98 浏览

java - 有疑问的常见爬取示例

我正在尝试运行一个常见的爬网示例并从 Warc 文件中提取 URL 和电子邮件。我只有一个疑问。无论我提取的电子邮件属于 URL 还是其他网站,这都是一个令人困惑的部分。
请帮助我。我该如何解决这种困惑?
我所做的是:使用 WordCount 的常见抓取示例,我设置了一个它来提取 url,然后发送电子邮件。提取后它将存储在一个文件中。

这就是提取的简单逻辑。但是我想知道我怎么能相信找到的URL和找到的电子邮件是相互对应的?

0 投票
1 回答
99 浏览

java - 板条箱通用抓取示例不起作用

我正在尝试将这个 Crate 示例与 Common Crawl 一起使用:https
://github.com/crate/crate-commoncrawl 我已经设置了 Crate,甚至使用示例中的说明创建了表模式。我正在使用 URL 访问 CRATE:http://localhost:4200/_plugin/crate-admin因为我在自己的系统上工作。

我面临的唯一问题是COPY. 让我告诉你那行:

它正在触发未知异常。这是错误和错误的踪迹:

错误跟踪:

我使用的是 UBUNTU 16.04 操作系统。这是错误的图像: 板条箱问题图片 请帮助我。我无法理解这个问题。分享你的想法。

0 投票
0 回答
172 浏览

python - 使用 mrjob 匹配 Common Crawl 的公司名称

我有一份公司名称和详细信息列表,例如电话号码、地址、电子邮件等。我想得到他们的 company_url。我们曾想过使用 google API 来发出请求,但结果证明成本很高。

搜索后,我发现 Common_Crawl 在网站愚蠢数据方面有点接近谷歌。

我找到了一个网站,可以将我们的电话号码与 Common_Crawl 中的可用电话号码进行实际映射。

我需要找到一种使用公司名称来匹配它们的方法。

有什么方法可以通过公司名称与 Common_crawl 数据进行映射。我不想查看每个公司名称的 32.5 亿条 common_crawl 记录。

0 投票
0 回答
749 浏览

python - S3读取commoncrawl数据时读取操作超时

为了从常见的爬网中读取一些文件,我编写了这个脚本

其中每一行都是warc文件的key。当我运行这个脚本来分析 5 个文件时,我得到了这个异常

我运行了很多次。上述异常每次都发生。问题出在哪里 ?

0 投票
1 回答
93 浏览

python - 如何使用python处理commoncrawl中的二进制数据

我必须分析一下commoncrawl。为此,我使用的是 python 2.7。我观察了一些warc文件,warc.gz文件中有一些二进制数据。我必须使用 bs4 解析 html 源代码。但是我怎么能检测到这是文本数据,这是二进制的。例如,有一个包含二进制数据的 URL 记录。http://aa-download.avg.com/filedir/inst/avg_free_x86_all_2015_5315a8160.exe

我如何跳过二进制数据并在 python 中只处理文本数据?

0 投票
0 回答
155 浏览

nutch - 使用 Apache Nutch 获取常见的爬网数据

我在常见的爬网网站上找到我的数据,然后从那里下载这些数据

现在我必须使用 Apache Nutch 获取该数据,但不知道如何。

此文件为warc 文件格式。

0 投票
1 回答
327 浏览

python - Beautifull soup 常用爬取数据中的文本提取耗时太长

我必须在常见的爬网数据集(warc.gz 文件)中解析 html 内容。我决定使用bs4(Beautifulsoup)模块,因为大多数人都建议它。以下是获取文本的代码片段:

没有bs4,一个文件在 9 分钟内完成处理(测试用例),但如果我bs4用来解析文本,那么 Job 在大约 4 小时内完成。这是怎么回事。除了 有没有更好的解决方案bs4?注意:bs4 是包含许多模块的类,例如 Beautifilsoup。

0 投票
0 回答
1086 浏览

python - cld2 在 python 中导致无效的 utf-8 字符

我在 python 2.7 中编写了一个小脚本。我还安装了 cld2 模块,用于在给定字符串中查找语言类型。我已经在 1 个常见的爬网数据文件上运行它,它给出了以下异常

以下是对应的代码片段

为什么会发生这种情况。有什么方法可以避免对 cld2 的无效输入。例如,如果有一些二进制数据(无效的 utf-8),那么应该跳过它吗?

0 投票
1 回答
328 浏览

python - 无法从从普通爬网爬取的 warc 文件中找到 url

我已经从普通爬取中爬取了数据,我想找出每条记录对应的 url。

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri,还是只为一个 warc 文件路径获取一个目标 uri?