问题标签 [url-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1188 浏览

javascript - 当参数没有特定顺序时,Javascript重新加载页面,参数值发生变化

更新参数值后,我需要重新加载页面位置,如果参数始终按特定顺序排列,这并不难,但事实并非如此。

因此,如果有一个固定模式,我可以通过正则表达式匹配来定位它们,例如对于 URL: http://www.example.html?sf_id=15040&15041.survey=form&variation=25002_1

我的目标是这样的:

但是现在参数的出现是随机的,所以这些都是有效的 URL:

我知道我仍然可以正确 if/else if 语句,但我认为这不是正确的方法,因为没有特定的模式。

任何帮助表示赞赏!谢谢你。

0 投票
2 回答
1365 浏览

python - 绝对路径没有前导斜杠时的 urljoin

一些网站,如http://www.gilacountyaz.gov/government/assessor/index.php有一堆应该是绝对路径的内部链接,但没有前导斜杠。用urlparse.urljoin结果解析它们时如下:

这会导致网络爬虫没有意识到它已经访问了一个页面,并且可能存在无限循环。Firefox 和 Chrome 能够发现问题并正确解决

有没有办法在 Python 中做同样的事情?请注意,假设始终使用前导斜杠是行不通的,因为我们可能正在处理真正的相对路径。

0 投票
2 回答
1507 浏览

python - Python:添加尾部斜杠时的 URL 解析问题

我正在用 python 开发一个小实验来规范化 URL。/如果 URL 不存在,我的主要目的是在 URL 末尾添加斜杠。例如,如果是http://www.example.com,则应将其转换为http://www.example.com/

这是一个相同的小片段:

但这也会转换文件名。例如http://www.example.com/image.png进入http://www.example.com/image.png/哪个是错误的。我只想在目录中添加斜杠而不是文件名。我该怎么做呢?

提前致谢!

0 投票
0 回答
1481 浏览

node.js - 解析获取 HTTP 请求的参数并在 http 响应中使用

我正在尝试学习 node.js。这是基本的 hello World 示例,我期望像这样的 http 请求

并返回响应以在浏览器上打印

这工作正常。但如果你看到response.end我有类似的功能query.lname || "Anonymous"。我期待如果 URL 中未指定 lname,则响应包含“匿名”来代替姓氏。但这不会发生,我得到

代码如下。请帮助我理解这一点。谢谢您的帮助。

0 投票
1 回答
1080 浏览

jmeter - 如何通过 Jmeter 解码 URL 中使用的令牌?

当以 15 分钟的稳态负载运行 50 个用户的负载测试时,样本不会进入下一个循环,这意味着如果我们加载 50 个用户,在前 50 个样本的样本表中没有错误,但是之后的所有请求都失败了。

在注销时,我们会收到一个身份验证令牌 BDT3-CHE8-GKA5-BWA1%7Cd67830e7c46bc1011d76e69de76c59c57c4f5956%7Clin ,并且在之前的请求中, BDT3-CHE8-GKA5-BWA1|d67830e7c46bc1011d76e69de76c59c57c4f5956|lin 注意到该令牌之前的令牌中的 pipe( |) 字符被替换为%7C.

此外,会话 ID 仅在 URL 启动页面上生成,但未在 Jmeter 参数中捕获,也未在进一步请求中使用。

请提供有关此问题的更多见解或有关如何解码令牌的可能解决方案,以便可以将其传递给下一个请求

注销页面上的例外是:

0 投票
1 回答
192 浏览

python - Python urllib2 重定向问题

我正在尝试在我的 aws 实例上运行一个简单的脚本。相同的脚本在 Windows 7 和 ubuntu ( python27 ) 上运行良好。但是当我在我的服务器上运行我的脚本时,网站将我重定向到一个错误页面,上面写着“你必须在浏览器上启用 js”。

到目前为止,我尝试了很多东西(用户代理、重定向处理程序、机械化分机)。我仅通过以下域获得这些重定向。所有其他启用 js 的网站都运行良好。

你有什么主意吗?

编辑:原来网页阻止了我的服务器IP。感谢帮助

0 投票
2 回答
1888 浏览

javascript - 是否存在用于解析 URL 路径段(矩阵)参数的 javascript 库?

给定网址:

我想要一些 javascript(节点)库,我可以使用它来获取汽车路径段的矩阵参数(颜色和品牌),例如:

会产生

此外,理想情况下,这样的库应该考虑对路径段参数的正确解码,这与查询参数的解码不同。

这些参数(以及一堆有关 url 的其他有用信息)在以下文章中进行了更详细的描述:

https://www.talisman.org/~erlkonig/misc/lunatech%5Ewhat-every-webdev-must-know-about-url-encoding/

我已经做了很多谷歌搜索,但是空无一物,但希望我只是瞎了眼!

0 投票
3 回答
40 浏览

javascript - URL 模式匹配问题,.+ 匹配所有之后

我正在将存储的 URL 与当前 URL 进行匹配并且有一点问题 - 正则表达式在与 URL 本身匹配时工作正常,但由于某种原因,所有子目录也匹配(当我只想要直接匹配时课程)。

假设用户存储www.facebook.com,这应该匹配两者http://www.facebook.com并且https://www.facebook.com确实如此

https://www.facebook.com/events/upcoming问题是它也在匹配诸如etc之类的子目录。

例如正则表达式:

匹配以下内容:

什么时候应该匹配

如何修复这个看似损坏的正则表达式?

0 投票
2 回答
110 浏览

python - 通过 Python 解析 URL

我需要解析

http://www.webpagetest.org/breakdown.php?test=150325_34_0f581da87c16d5aac4ecb7cd07cda921&run=2&cached=0

如果您查看上述网址的来源,您会发现

预期输出

0 投票
4 回答
499 浏览

php - PHP - 从消息中删除 http/www(主机域除外)以禁用可点击链接

我有一个简单的留言板,比如说:mywebsite.com,它允许用户发布他们的消息。目前,董事会使所有链接都可点击,即。当有人发布以以下开头的内容时:

然后脚本自动将它们作为链接(即添加 A href.. 标记)。

问题 - 垃圾邮件太多。所以我的想法是自动删除上面的http|s/www,这样它们就不会变成“可点击的链接”。但是,我想允许海报链接到我网站内的页面,即。当消息包含指向 mywebsite.com 的链接时,不要删除 http|s/www。

我的想法是创建两个数组:

但我不知道如何正确使用它们(可能 str_replace 可以以某种方式工作)。

以下是发布前和发布后的 $message 示例:

$之前的消息:

世界你好,感谢http://mywebsite/about我学到了很多东西。我在http://www.bing.comhttps://google.com/search和一些www.spamwebsite.com/refid=spammer2上找到了你。

$消息之后:

世界你好,感谢http://mywebsite.com/about我学到了很多东西。我在 bing.com、google.com/search 和一些 spamwebsite.com/refid=spammer2 上找到了你。


请注意,用户在帖子表单中输入了明文,因此脚本只能使用此明文(而不是 href 等)。