0

我正在尝试创建一个自动化过程来从我的工作网络上的站点检索一些信息。

var duderegex = new RegExp("Title for Mr. [^\n]+","m");
var dude = duderegex.exec(input);

到目前为止,一切都很好。问题是我在我的工作计算机上写这个,可能无法说服任何人将它存储在与托管它的站点相同的域中。所以这在技术上使它成为 XSS。而且我宁愿不必获得批准来安装任何非常时髦的东西(所以我不能保证 JQuery 或一个更容易复制/粘贴的 powershell,例如)。

下载文件并在下载后通过网页操作它们没有任何问题,但这增加了一个单击另存为的步骤...

有没有人有任何可行的解决方案来在来自不同域的 HTML 源代码上运行正则表达式?我不需要将其限制为 Javascript,但例如,让 PHP 工作可能需要比我拥有的更多的资源。

一位评论者要求澄清,所以这里。假设我每天要联系 50 个版权所有者(这与知识产权无关,但它会起作用)。现在,我有一个表格可以带我去

(1) http://foo.bar/form.htm?action=search&type=ArtistAlbum&Artist=Beatles&Album=White

并重定向到

(2) http://foo.bar/form.htm?id=4578469

从那里,我单击一个下拉列表(比如说曲目列表),然后

(3) http://foo.bar/form.htm?id=4578469&track=7

在那里,我按字母顺序列出了在赛道上工作的每个人、他们的代理人和法律代表。我只对三个名字感兴趣,歌词版权持有人姓名,旋律版权持有人姓名,录音版权持有人姓名。所以我必须搜索文档三遍。

由于每个名称都有一个标准标题,我应该能够编写一个脚本来询问艺术家和专辑,生成指向 (1) 的链接,从 (2) 的 url 复制参数或使用正则表达式找到它从链接到 (3),加载页面 (3),然后为字符串上的正则表达式生成输出

/Lyrics Copyright Holder [^\n]+/
/Melody Copyright Holder [^\n]+/
/Performance Copyright Holder [^\n]+/

我可以下载所有文件(这需要很长时间),但信息有时会发生变化,我想确保我始终获取最新信息。

但我似乎无法绕过 XSS 位。

4

1 回答 1

0

You don't say what problem you're really trying to solve so it's a little hard to know what solutions make the most sense for you, but you can write javascript that works on any web page in a browser plug-in (like in Chrome or Firefox) or by using a scripting language outside of a browser (Python, Javascript, PHP, etc...) where you load the page contents and then manipulate the contents using the language tools.

于 2012-07-15T01:22:28.657 回答