6

我想下载一些雅虎群组(文件、照片、消息、成员列表),我找到了这些脚本:

我已经从 CPAN 下载了 ActivePerl 和所需的模块(没什么花哨的;它们很容易找到)。我已经设法安装了它们,但是当我运行脚本时,在它告诉我我已成功登录后出现错误:“在 yahoogroups_files.pl 行的模式匹配 (m//) 中使用未初始化的值 $cells 244,第 2 行。”

我猜雅虎改变了页面的布局或其他东西,但我自己无法更新脚本。当谈到 Perl 和了解 Yahoo 生成页面的方式时,我是一个新手,我只知道一些基本的 C++。我想说我并不懒惰,我会尝试自己修复它,但我需要你的帮助:提示,建议,任何东西。

PS:我已经联系了作者,但他不愿意更新脚本。

4

7 回答 7

3

您将需要以下领域的知识:

  • 使用 html 解析器

  • http知识(get/post/head)

  • 网页抓取

我建议您专注于WWW::Mechanize因为它能够完成所有这些事情(以及更多)

编辑:另一种解决方案(不需要编程),是这样的:使用浏览器登录 yahoo 组,存储 cookie,然后运行 ​​wget ,将存储的 cookie 作为参数传递。这样,您将很快完成任务。

在硬盘上找到浏览器的 cookies.txt 文件,然后像这样调用 wget(如果我没记错的话):

wget --load-cookies path_to_cookie_file -r -w 60 网站

完整的手册页可以在这里找到

EDIT2:另一种选择是使用WebDriver来自动化 firefox。您可以使用本文作为如何完成此操作的指南。

于 2009-03-18T19:27:15.110 回答
2

通过文件名,我假设您正在使用此处找到的 Yahoo Group 存档器:http: //sourceforge.net/projects/grabyahoogroup/

我针对 SubEthaEdit 组运行了文件脚本,效果很好。所有下载的文件都没有发生事故。

查看代码,如果 $cells 为空,则在 while 循环中处理 html 表时似乎会出错。

考虑到代码在我测试时确实有效,因此该组文件的列表可能发生了一些事情。您需要尝试输出 $content 并找出 243 上的正则表达式在何处以及为何无法处理该 html。

编辑:如果您不介意发布正在发生的群组,我相信我自己或这里的其他人可以尝试并自行排除故障。当问题无法复制时,很难确定发生了什么。另外,试试我做的同一个小组,看看它是否适合你。如果可行的话,你正在尝试的小组肯定有问题。

于 2009-03-18T21:12:14.797 回答
0

Was tinkering on this a while ago to backup my girlfriend's group messages and files from uni. Upon debugging on the latest scripts I've found out that there seems to be a bug on group_domain declaration (theres also a group declaration bug that i've found on yahoo2maildir.pl of the same project, see $request)

($group_domain) = $url =~ /\/\/(.*?groups.yahoo.com)\//;

in this case, i've overwritten the $request var under the function sub download_folder() with

from <br>
$request = GET "http://$group_domain/group/$group/files$sub_folder/";
<br> to <br>
$request = GET "http://**groups.yahoo.com/group/$user_group**/files$sub_folder/";
于 2010-07-25T16:00:55.577 回答
0

不知道它是否会对您有所帮助,但这是我为使消息下载工作所做的工作:

http://sourceforge.net/forum/forum.php?thread_id=3283915&forum_id=209170

(我只用了message-download,没看file-download)

于 2009-05-26T16:33:26.490 回答
0

grabyahoogroup 在最新版本中运行良好,可以在 svn repo 中找到:

http://grabyahoogroup.svn.sourceforge.net/viewvc/grabyahoogroup/trunk/yahoo_group/

sourceforge.net/projects/grabyahoogroup/files/ 上的版本有错误,对我不起作用。

于 2013-04-27T22:59:53.537 回答
0

出于原因,截至 2019/09

https://github.com/csaftoiu/yahoo-groups-backup

......

于 2019-10-23T09:34:31.580 回答
0

我一直在寻找一种从 Yahoo Groups 收集消息/对话的工具!我终于找到了可以转换您的 Yahoo! 的工具。在努力尝试自己制作并在互联网上到处搜索之后,将消息分组为 MBOX 格式。

下载工具

以下两个都是 Google Chrome 扩展。

纯字符串到 Base64 二进制数据

在 2010 年 9 月 16 日之后的某个时间(至少对我而言),检索到的消息不再是纯文本,而是 Base 64 二进制数据 (ASCII)。使用这个瑞士转换器工具可以让您按原样读取数据。

MBOX 格式的示例内容

VGhlIHF1aWNrIGJyb3duIGZveCBqdW1wcyBvdmVyIHRoZSBsYXp5IGRvZy4=

转换后的示例结果

The quick brown fox jumps over the lazy dog.

于 2016-02-01T15:06:41.207 回答