问题标签 [webgrabber]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
109 浏览

c# - ActivePDF Webgrabber,忽略 &t 和 &d 占位符

有没有办法全局禁用 ActivePDF Webgrabber 使用的 & 占位符?我发现&tand的任何实例&d都被替换为日期和时间,我不想要那个功能。

0 投票
1 回答
71 浏览

java - 除非另一个网站页面的页眉和页脚,否则如何抓取整个正文

我正在使用Liferay 门户进行开发。现在我面临一个小问题

我正在为一些拥有子公司的公司制作网站。 然后,我必须剪掉其他站点(子站点)的一些部分(确切地说是页眉和页脚),并将没有它们的页面正文放在主站点的iframe中。

我在“谷歌搜索”,寻找有关Grabbers的信息。 我发现了如何使用 PHP 或 Perl 抓取。在这里, 这似乎不是我所需要的。

0 投票
0 回答
45 浏览

c# - 可以使用相同的帖子数据更改页面吗

我正在分析一个网站以获取可用数据的实际页面。

我通过 Live HTTP Headers(firefox addOn)检查了它并获得了提供实际页面的帖子数据。

例如:我有一个页面 www.xyz.com,其中包含一个表格,但是当我查看其页面源时,它没有这样的表格。

我检查了发布数据并启用发布数据会给出一个包含实际表的页面,并且即使在启用发布数据的情况下,URL 也是相同的。现在,如果我使用相同的帖子数据和所有参数触发页面,页面源会完全更改,并且表格不可用

但是这个页面在几分钟后发生变化,任何参数都没有变化,无论是标题、发布数据还是 cookie 都没有。

最初我得到了数据可用的页面,但几分钟后页面结构完全改变,然后数据也不可用。

我不明白这背后的原因。

任何人都请帮助我了解页面出现这种行为的原因是什么?

0 投票
1 回答
1865 浏览

wordpress - 需要一个 Wordpress 文章抓取插件

我正在寻找一个 wordpress 插件,我可以在其中添加文章 URL 并在编辑新帖子时复制整篇文章(包括图像)。

我已经安装了很多 rss 聚合器、导入器等,但它们都没有这样做。

需要明确的是,我不想复制整个网站,我只想输入一个 URL 并将所有内容和图像导入到我的新帖子中。

0 投票
1 回答
2001 浏览

php - 通过 PHP 从其他网站抓取 iframe 视频

我想将其他网站的视频抓取到我的网站(例如,从实时视频网站)。

如何<iframe>从其他网站抓取视频?过程与抓取图像的过程相同吗?

0 投票
1 回答
270 浏览

php - 使用 curl 从 asp 中获取数据

我制作了以下代码以将所有作物价格显示到该站点的一个网页:http ://agmarknet.nic.in/agnew/NationalBEnglish/MarketWiseDailyReport.aspx?ss=1

但我只从西孟加拉邦得到了 Ranaghat(Kalyani) 的价格。但我想获取所有区域的 eventvalidation 和 eventargument 值,有没有办法获取所有区域的两个值并在一页上显示所有区域?

0 投票
1 回答
19 浏览

email - 邮件抓取软件中的某行

有没有办法从 outlook.com 获取电子邮件并将它们作为文本存储在 txt 或 csv 文件中?有没有可以做到这一点的软件/免费软件?

0 投票
1 回答
182 浏览

javascript - PhantomJS querySelectorAll().textcontent 不返回任何内容

我创建了一个简单的网络爬虫,使用 phantomjs 从网站抓取数据。当我使用 querySelectorAll 来获取我想要的内容时,它对我不起作用。这是我的整个代码。

请帮我解决这个问题。

真的谢谢。

0 投票
0 回答
41 浏览

python - 如何使用 python 在保持活动的“urlopen”会话中发送请求?

我正在尝试编写一个基于 HTML 的抓取器,它可以抓取 Twitter 用户的所有图片。

我意识到只有当我们向下滚动到底部时,才会发送 GET 请求以加载更多推文/图片。

但我不知道如何在 python 代码中模拟它。这是我的代码,它只能抓取“第一页”图片。

0 投票
1 回答
168 浏览

regex - Content Grabber 2 如何使用 RegEx 收集段落内的所有电子邮件?

我正在使用 Content Grabber 2,并且我的段落在很多部分都包含许多电子邮件。我正在使用这个软件来匹配任何段落、HTML 或任何内容中的大小写,以收集格式清晰的电子邮件。

我正在使用这种语法:

查找所有电子邮件匹配项。但问题总是在第一场比赛后停止。

据我所知,我需要使其成为全球性的,以便在第一场比赛后继续工作,并且它已经在这个链接上工作: https ://regex101.com/r/Q0wZLJ/1

但不在我的软件中(Content Grabber 2)。

是否可以按照我上面写的方式解释我需要做什么才能使我的语法全球化?

谢谢,