“screen-scraping”的相关标签问题

0 投票

3 回答

3586 浏览

screen-scraping - 如何最好地代表第 3 方筛选受密码保护的站点？

我想编写一个程序来分析你的梦幻棒球队并通知你推荐的行动，可能每天多次。问题是，你不是在我的网站上玩梦幻棒球，而是在雅虎、cbs 或 espn 等网站上玩。

在大多数这些网站上，梦幻球队和联赛是不公开的，因此您必须登录并成为联赛成员才能查看联赛中的球队。

我所需要的只是将每个站点上的团队页面的纯 html 发送到我的服务器，然后我可以在那里解析和分析文件并发送用户通知。

问题是我需要用户名/密码组合才能在需要时轻松地将这些数据发送到我的服务器，而且我认为会有很多人不想将他们的 yahoo/espn/cbs 密码委托给我。

我想出了几种可能的方法来解决这个问题：

最明显的方法是要求他们提供托管团队所在站点的凭据。然后我可以通过编程方式登录并请求我需要的数据。我猜很多人会很乐意给我他们的证书，而他们中的一些人并没有这么多。
编写一个桌面客户端，然后用户下载该客户端。客户端需要他们的凭据，但它基本上可以做与基于服务器的版本完全相同的事情，登录，请求页面，并将页面发送回我的服务器。不同之处在于他们的密码永远不需要离开他们的桌面。他们的计算机需要打开，并且该程序需要运行才能使此方法起作用。
编写导航到我需要的页面的浏览器插件，使用从以前登录保存的 cookie 登录到站点，然后将页面发送回我的服务器。这不需要我的软件询问他们的密码，但如果 cookie 过期，我会感到很沮丧，而且我对浏览器插件了解不多。

我敢肯定还有其他选择，但这些是我迄今为止想出的。

我有两个问题： 1. 这种类型的任务还有哪些其他可能性？2. 我是否高估了人们不愿意给我他们的雅虎（例如）密码？选项（1）是否高于显而易见的选择？

评论中建议我尝试使用 yahoo 管道，这看起来是一个很有希望的建议，所以我对其进行了一些探索。现在看了这个，我不认为这是一个选择。所以，看起来我会选择选项 1。

2009-04-29T06:29:17.387

0 投票

4 回答

1820 浏览

perl - 如何使用 Perl 登录 YouTube？

我正在尝试编写一个 Perl 脚本来连接我的 YouTube 帐户，但它似乎不起作用。基本上我只想连接到我的帐户，但显然它不起作用。我什至不知道如何调试它！也许它与https协议有关？

请赐教！提前致谢。

我正在做的是学习 perl 的网络功能，所以我不想使用除 wwwlib 或 mechanize 之外的任何库来完成工作。如何使用 perl 脚本连接到我的帐户？这是我现在的目标，希望有人可以发布脚本或纠正我的。谢谢你们的帮助。我现在正在测试 Webscarab..

perl screen-scraping youtube

2009-04-29T19:14:58.263

0 投票

2 回答

919 浏览

.net - .NET WebRequest/WebResponse 能否正确翻译重音符号、变音符号和实体？

我使用 .NET 的 WebRequest 将自己的页面作为临时黑客“屏幕抓取”。

这很好用，但重音字符和变音字符不能正确翻译。

我想知道是否有一种方法可以使用.NET 的许多内置属性和方法使它们正确翻译。

这是我用来抓取页面的代码：

.net string screen-scraping translation webrequest

2009-04-29T23:13:29.920

0 投票

5 回答

758 浏览

python - 查找 HTML 页面上的所有 IP

我想用 python 获取一个 HTML 页面，然后从中打印出所有的 IP。我将定义一个IP如下：

x。x。x。x :是的

其中： x = 0 到 256 之间的数字。y = < 7 位数字。

谢谢。

python regex screen-scraping extract

das

2009-04-30T20:57:12.593

0 投票

3 回答

250 浏览

php - 如何使用正则表达式从网页中提取数据？

我正在编写一个 curl 脚本来收集有关某些性犯罪者的信息，我开发了该脚本来获取如下所示的链接：

http://criminaljustice.state.ny.us/cgi/internet/nsor/...（截断的网址）

现在，当我们访问此链接时，我想在此页面上的所有字段下获取信息，例如罪犯 ID：、姓氏等，并将其放入我自己的变量中。我的正则表达式很弱，这就是我在这里的原因。还是有其他方法？

有人可以帮我这样做吗？

php regex screen-scraping

chinmay upadhyaya

2009-04-30T21:32:11.310

0 投票

2 回答

650 浏览

python - python-beautifulsoup 是否误报了我的 html？

据我所知，我每人有两台机器，运行 python 2.5 和 BeautifulSoup 3.1.0.1。

我正在尝试抓取http://utahcritseries.com/RawResults.aspx，使用：

在我的 Windows 机器上，我得到了正确的结果，即日期和事件名称的列表。在我的mac上，我没有。相反，我得到

我注意到的是，当我

在我的 Windows 机器上，tr 数据看起来与源 html 完全相同。请注意第二个表格行上的样式标记。这是前两行：

在我的 Mac 上，当我打印前两行时，样式信息会从 tr 标签中删除，并移到每个 td 字段中。我不明白为什么会这样。每隔一个日期值我都会得到 None ，因为 BeautifulSoup 每隔一个日期就放置一个字体标签。这是mac的输出：

我的脚本在 windows 下显示正确的结果 - 我需要做什么才能让我的 Mac 正常工作？

python macos configuration screen-scraping beautifulsoup

2009-05-01T04:19:02.300

0 投票

4 回答

30730 浏览

php - curl 无法获取网页内容，为什么？

我正在使用 curl 脚本转到链接并获取其内容以进行进一步操作。以下是链接和 curl 脚本：

但是该网站并没有通过脚本将其排除在外，它会在结果中给用户异常，但是如果我们通常将 url 粘贴到浏览器中，它会完美地打开页面。

请帮忙，我在这里做错了什么。

谢谢并恭祝安康

php curl screen-scraping web-scraping

chinmay upadhyaya

2009-05-02T04:35:33.997

0 投票

5 回答

3653 浏览

python - Python lxml屏幕抓取？

我需要用 python 做一些 HTML 解析。经过一些研究，lxml 似乎是我最好的选择，但我很难找到可以帮助我完成我想做的事情的例子。这就是我听到的原因。我需要为所有可见文本抓取一个页面.. 去掉所有标签和 javascript.. 我需要它给我留下可见的文本。听起来很简单.. 我用 HTMLParser 做到了，但它不能很好地处理 javascript

任何关于使用 lxml 或更好的方法来做到这一点的想法 HTMLParser .. HTMLParser 将是最好的，因为不需要额外的库 .. 谢谢大家

斯科特 F。

python html parsing screen-scraping lxml

Scott F

2009-05-02T05:44:05.253

0 投票

5 回答

1781 浏览

python - 以编程方式登录网站以进行屏幕抓取的最佳方式是什么？（最好在 Python 中）

我希望能够以编程方式登录网站并定期从该网站获取一些信息。什么是使这尽可能简单的最佳工具？我更喜欢某种类型的 Python 库，因为我想更加精通 Python，但我愿意接受任何建议。

python screen-scraping

2009-05-07T02:45:59.977

0 投票

4 回答

56004 浏览

c++ - 网页抓取选项 - 仅限 C++ 版本

我正在寻找一个用于网络抓取的优秀 C++ 库。
它必须是 C/C++，没有别的，所以请不要将我引导到HTML 抓取选项或其他甚至没有提到 C++ 的 SO 问题/答案。

c++screen-scraping

2009-05-07T13:52:50.857

问题标签 [screen-scraping]

Reference