1

我正在尝试从RSS提要中获取公共 google 组中所有主题的标题。我正在尝试获取所有主题标题。它几乎有8000主题。我正在使用以下代码使用feedparser.

import feedparser
url = 'https://groups.google.com/forum/feed/caffe-users/topics/rss_v2_0.xml?num=50'
feed = feedparser.parse(url)
for entry in feed['entries']:
    content = entry['title']
    print(content)

我注意到当我使用时,num = 50我得到了所有 50 个标题。但是当我更改num = 50num = 8000甚至num = 500我只看到 15 个标题时?输出如下所示:

15
"Invalid integer constant expression" Error during Installation
Can't complete make pycaffe (Python.h not found)
Kernels not compiling with Vienna-CL for openCL Intel build on Centos 7
"import caffe" failed
Frozen training model -  Reading dangerously large protocol message ?
Specifying the solver file parameters
Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
Making the network shorter, adding dropout and augmenting the dataset produce overfitting, why?
Fwd: [Scala.js] Fwd: Us congress hearing of maan alsaan Money laundry قضية الكونغجرس لغسيل الأموال للمليادير معن الصانع
Feature maps from network for multiple images all the same
How to interpret the result of Ristretto?
how do I train DB with 3~10 features per image ?
Recompile with -fPIC
scaling the pixels  in deployment.prototxt in [0,1]
hi im installing caffe and i have this error

知道为什么会这样吗?当我增加50 个标题时num = 50,为什么获取的标题会减少到固定数字?任何帮助或建议将不胜感激。谢谢。使用库gggd我面临以下问题:15num

atan-115b-02:src mislam$ ./gggd.py -l -C cookies.txt caffe-users 请登录您的 Google 群组帐户(使用向上和向下箭头导航表单字段,使用 Enter 提交表单)然后退出浏览器(使用“q”键)。按 Enter 继续。

警告!:此客户端不包含对 HTTPS URL 的支持。

lynx: 无法访问启动文件 https://www.google.com/a/UniversalLogin?continue=https://groups.google.com/forum/&service=groups2&hd=default gggd.py: ValueError("invalid literal for int() with base 10: 'client'",) 用于帮助使用 --help

4

1 回答 1

1

要下载此 Google 群组中的所有消息,您需要使用 RSS 以外的其他界面。Google Groups RSS 界面最多只能发送50最新消息。不支持分页和日期,因此无法使用 RSS 接口获取群组中的所有消息。

解决方案

Get Google Groups Data是一个 Python2 项目,它抓取指定的 Google Group 并下载其所有消息。在我的 Mac 上安装 lynx 后,我能够抓取caffe-users您源代码中指示的论坛。

截图如下。祝你好运。

在此处输入图像描述

于 2018-02-18T15:48:07.270 回答