python - 在重置之前从 Google 群组下载帖子

Question

我想重置我的一个小组（课堂讨论），但我想保留讨论以供参考。帖子不多（可能 50 个），我可以手动完成，但是有没有办法通过谷歌应用程序脚本或 python 来做到这一点？

我发现了一些可能性，但都不是我熟悉的语言（尽管我可能能够翻译）：

此链接：http ://saturnboy.com/2010/03/scraping-google-groups/

这个 Perl 代码：

#!/usr/bin/perl
# groups2csv.pl
# Google Groups results exported to CSV suitable for import into Excel.
# Usage: perl groups2csv.pl < groups.html > groups.csv

# The CSV Header.
print qq{"title","url","group","date","author","number of articles"\n};

# The base URL for Google Groups.
my $url = "http://groups.google.com";

# Rake in those results.
my($results) = (join '', <>);

# Perform a regular expression match to glean individual results.
while ( $results =~ m!<a href=(/groups[^\>]+?rnum=[0-9]+)>(.+?)</a>.*?
<br>(.+?)<br>.*?<a href="?/groups.+?class=a>(.+?)</a> - (.+?) by 
(.+?)\s+.*?\(([0-9]+) article!mgis ) {
    my($path, $title, $snippet, $group, $date, $author, $articles) =
        ($1||'',$2||'',$3||'',$4||'',$5||'',$6||'',$7||'');
    $title =~ s!"!""!g; # double escape " marks
    $title =~ s!<.+?>!!g; # drop all HTML tags
    print qq{"$title","$url$path","$group","$date","$author","$articles"\n\n};
}

score 0 · Accepted Answer

看看这个webapps 问题和这个论坛讨论中提到的HTTrack 实用程序。

请注意，我假设您实际上并不想筛选抓取和处理数据，而只是拥有讨论的副本以供将来参考。

编辑：如果你真的想要屏幕抓取，你也可以这样做，但编写一个脚本来做到这一点可能会耗费大量时间。屏幕抓取更多的是从 html 文档中提取特定的数据，而不是抓取整个 html 文档。您可能需要筛选抓取的一个示例是，如果您正在查看危险网站并想要获取单个问题、它们的点值、谁回答正确、它们发生在哪个游戏中，等等以插入数据库。

python - 在重置之前从 Google 群组下载帖子

1 回答 1

Related

Reference