问题标签 [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3953 浏览

python - 如何在 BeautifulSoup 中以 unicode 呈现标签的内容?

这是来自 WordPress 帖子详细信息页面的汤:

我想div在分配时省略封闭标签item['content']。有没有办法以 unicode 呈现标签的所有子标签?就像是:

这会给我一个 unicode 字符串而不是一个列表。

0 投票
3 回答
754 浏览

javascript - 用于绘制区域的 Javascript 图形库

作为一名热心的风帆冲浪者,我对接下来的几周会有多风很感兴趣。为此,我一直在编写一个小应用程序来抓取一个流行的天气网站(仅供个人使用 - 不转发信息或任何东西)并将数据整理成一个图表,以便我可以轻松查看何时值得前往出去。

我有后端工作,但需要一种显示数据的方法。我的刮刀目前给了我两个系列的数据,这些数据告诉我一般风有多强,以及它可能会有多强。接下来我想做的是将这两个数据集显示为图表中的一对线,并​​在它们之间的区域设置阴影。

我正在考虑使用诸如flot 库之类的东西来显示数据。唯一的问题是我看不到在两条线之间遮蔽区域的方法?

如果有人对如何在 flot 或其他库或图形技术中执行此操作有建议(我的服务器上有 DJango,所以任何 pythonic 或 javascripty 都应该没问题),我很想听听他们的意见。理想情况下,这将是一个避免提供图像的 javascript 解决方案。

0 投票
7 回答
18029 浏览

javascript - Screen Scraping from a web page with a lot of Javascript

I have been asked to write an app which screen scrapes info from an intranet web page and presents the certain info from it in a nice easy to view format. The web page is a real mess and requires the user to click on half a dozen icons to discover if an ordered item has arrived or has been receipted. As you can imagine users find this irritating to say the least and it would be nice to have an app anyone can use that lists the state of their orders in a single screen.

Yes I know a better solution would be to re-write the web app but that would involve calling in the vendor and would cost us as small fortune.

Anyway while looking into this I discovered the web page I want to scrape is mostly Javascript (although it doesn't use any AJAX techniques). Does anyone know if a library or program exists which I could feed with the Javascript and which would then spit out the DOM for my app to parse ?

I can pretty much write the app in any language but my preference would be JavaFX just so I could have a play with it.

Thanks for your time.

Ian

0 投票
1 回答
195 浏览

c# - 是否可以从远程应用程序 StatusBarWndClass 获取单元格文本?

我有一个旧版 vb 应用程序,它的状态栏中有我想用来驱动 .NET 应用程序的数据。

我使用 spy++ 深入了解了窗口结构,并成功使用 FindWindow 和 FindWindowEx 来获取 StatusBarWndClass 的句柄。现在我正在努力访问状态栏中的实际数据。我尝试使用 WM_GETTEXT 消息但没有成功。

  1. 是否可以从远程 StatusBarWndClass 获取单元格信息?
  2. 如果可能的话,我该怎么做?
0 投票
4 回答
222 浏览

screen-scraping - 如何从专有 CMS 迁移资源?

我需要从使用活动服务器页面的专有 CMS 迁移我们的网站。是否有工具或技术可以帮助从现有站点下载资源?我想我正在寻找一种可以抓取和抓取整个网站的工具。

另一个挑战是该站点使用 SSL 并受到基于表单的身份验证的保护。我有必要的凭据,我可以获取验证会话的 cookie,但我不确定从这里去哪里,如果现有工具可以帮助我,我不想重新发明轮子。

编辑 - 我正在使用 Windows 操作系统

0 投票
4 回答
10707 浏览

xml - 使用 XPath 选择特定表

我有一个 XHTML 文档,我想选择其中唯一一个带有 class="index" 的表。

如果我理解正确,后代轴将选择从当前节点直接和间接下降的所有节点,所以这就是我所得到的。

使用 xmlstarlet 进行测试时,它似乎不起作用。是我的工具坏了,还是 XPath 表达式错误?

0 投票
2 回答
3544 浏览

python - 美丽的汤和uTidy

我想将utidy的结果传递给 Beautiful Soup,阿拉:

运行时,出现以下错误:

我收集 utidy 返回一个 XML 文档,而 BeautifulSoup 需要一个字符串。有没有办法投射clean_html?还是我做错了,应该采取不同的方法?

0 投票
2 回答
6017 浏览

c# - 在 C# 中使用 asp.net 表单登录屏幕抓取网站?

是否可以为受表单登录保护的网站编写屏幕抓取工具。当然,我可以访问该站点,但我不知道如何登录该站点并将我的凭据保存在 C# 中。

此外,非常感谢 C# 中任何好的屏幕截图示例。

这已经完成了吗?

0 投票
1 回答
2359 浏览

ruby - 机械化html抓取问题

所以我正在尝试使用 ruby​​ mechanize 和 hpricot 提取我网站的电子邮件。我试图在我的管理方面的所有页面上进行循环并使用 hpricot.so 解析页面到目前为止一切都很好。然后我得到:

当它解析一堆页面时,它以超时开始,然后打印页面的 html 代码。不明白为什么?我该如何调试呢?似乎机械化可以连续获得超过10页??是否可以??谢谢

end

def extract(page) #puts search.body search=@agent.get( "http://***.com/admin/members.asp?action=search&term=&state_id=&r=500&p=#{page}") doc = Hpricot(search.body)

end

end

puts "starting extacting emails ... "

start =ARGV[0].to_i

h=Harvester.new(186) h.login h.harvest(start)

0 投票
1 回答
1209 浏览

asp.net - 如何使用 HttpWebResponse 自动提交表单

我正在寻找可以执行以下操作的应用程序

a)通过使用已经指定的用户名和密码,使用HttpWebResponse以编程方式自动登录到页面(login.asxp) 。

b) 如果登录成功,则检测重定向 URL。

c) 提交另一个表单 (settings.aspx) 以更新数据库中的某些字段。

所需的编码需要使用asp.net

应用程序需要在同一个会话 cookie 中完成这整个过程。