问题标签 [urlparse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
943 浏览

python - urlparse 的奇怪行为

我想知道我在 python 的 urlparse 中看到的一些奇怪行为是否有已知的解决方法。

以下是 python interpeter 中几行的一些结果:

在上面的例子中,为什么第一个值的键是“https://localhost/?code”?它不应该只是“代码”吗?注意: parse_qs 具有相同的不良行为。

在上面的示例中,请注意查询字符串并不总是被放入查询值中。为什么协议很重要?查询字段不应该总是得到查询字符串吗?使用“ftp”或其他众所周知的协议进行测试似乎也令人不快。

0 投票
1 回答
113 浏览

python - urlparse 和 '\n'

我有:

它是否正确?解析期间不应该删除“\n”吗?或者我只是错误地使用了这个函数,或者我错过了一些参数/参数?

0 投票
2 回答
788 浏览

javascript - Javascript 相当于 Python 的 urlparse.parse_qs()?

我正在使用 python 生成一个查询字符串,然后由 javascript 解析。

考虑一个相当“复杂”的数据:

在 python 中,我可以使用urlparse.parse_qs()该 url 编码的查询字符串并重建 Python 结构。

是否有 Javascript 的等价物?是否有人编写了一个知道如何解析此类查询字符串的库?

顺便说一句,这个 Javascript 不是在浏览器中运行的——它是一个名为“Netsuite”的包中的内部脚本功能——所以使用外部 javascript 库有点困难(尽管如果需要的话,最终还是可行的。)

0 投票
7 回答
35420 浏览

python - Python urlparse——提取没有子域的域名

需要一种使用 Python urlparse 从 url 中提取没有子域的域名的方法。

例如,我想"google.com"从完整的 url中提取"http://www.google.com".

我能想到的最接近的urlparsenetloc属性,但它包括子域,在本例中为www.google.com.

我知道可以编写一些自定义字符串操作来将 www.google.com 转换为 google.com,但我想避免在此任务中手动进行字符串转换或正则表达式。(这样做的原因是我对 url 形成规则不够熟悉,因此我确信我可以考虑编写自定义解析函数所需的每个边缘情况。)

或者,如果urlparse不能做我需要的,有没有人知道任何其他 Python url 解析库?

0 投票
6 回答
24054 浏览

python - 找到 http:// 和或 www。并从域中剥离。离开 domain.com

我对python很陌生。我正在尝试解析 URL 文件以仅保留域名。

我的日志文件中的一些 url 以 http:// 开头,一些以 www 开头。一些以两者开头。

这是我的代码中去掉 http:// 部分的部分。我需要添加什么来查找 http 和 www。并删除两者?

目前,当我运行代码时,只有 http:// 被剥离。如果我将代码更改为以下内容:

只有以两者开头的域会受到影响。我需要代码更有条件。TIA

编辑...这是我的完整代码...

我被原始帖子误认为是正则表达式。它确实在使用 urlparse。

0 投票
3 回答
372 浏览

python - 在python中获取url的特定部分

我正在使用 python 并尝试获取 url 的特定部分,如下所示

结果

案例1

实际上我会有一些 url(存储在列表或其他地方),所以我想要的是,需要domain name在 url 中找到上面的内容并获取之后www.和之前的部分.co.in,即字符串在之后first dot和之前开始second dot这只会google导致目前的情况。

因此,假设给出的 url 是 url given is www.gmail.com,我应该只gmail在其中获取,所以无论给出的 url 是什么,代码都应该获取以第一个点开头和第二个点之前的部分。

案例2:

也可以像这样直接给出一些 url ,domain.com, stackoverflow.com而不www在 url 中,在这种情况下,它应该只获取stackoverflowand domain

最后,我的意图是从这样的 url 中获取主名称gmail, stackoverflow, google.....

一般来说,如果我有一个 url,我可以使用list slicing并获取字符串,但我会有许多 ulr,所以需要像上面提到的那样动态获取想要的部分

谁能让我知道如何满足上述概念?

0 投票
1 回答
90 浏览

python - 对字典中的字符串进行 URL 编码

我正在尝试从查询字符串中删除某些项目,最好的方法是解析查询字符串,迭代并删除我不想要的特定键并将它们重新连接在一起。

按照 python 指南,他们说要使用的 urlencode 函数似乎没有像预期的那样工作。

使用以下代码,它只是解析查询字符串,然后将其重新连接在一起。我已将其设置为保留空值。

我期望查询代码的结果与 f 字符串相同。

http://docs.python.org/2/library/urlparse.html#urlparse.parse_qs

所以我假设我必须遍历 q 变量并手动构建字符串,在字典的每个项目上调用 urlencode?有没有更好的办法...

使用 python 2.7

谢谢

0 投票
1 回答
347 浏览

python - 为什么 urlparse.urlenparse 工作不一致?

当netloc为空时urlparse.urlunparse不一致:

它是错误还是功能?我希望 urlunparse 总是表现得像第一个例子一样,即使方案未被识别。

0 投票
1 回答
12624 浏览

python - Python urlparse.parse_qs unicode url

urlparse.parse_qs对于解析 url 参数很有用,它适用于简单的 ASCII url,由str. 所以我可以解析一个查询,然后使用urllib.urlencode解析的数据构造相同的路径:

当 url 包含百分比编码的非 ASCII 参数时,它也可以正常工作:

但是,当使用 django 时,我使用 获取 url request.get_full_path(),并将路径作为unicode字符串返回:

看看现在会发生什么:

query_dict包含 unicode 字符串,其中包含字节!不是unicode点!当然,在尝试对该字符串进行 urlencode 时,我遇到了 UnicodeEncodeError:

目前我有一个解决方案:

所以问题是:

  • 为什么 parse_qs 返回如此奇怪的字符串(unicode,包含字节)?
  • 将url转换为str安全吗?
0 投票
1 回答
176 浏览

python - 优雅地从 URL 中查找网络位置

代码:

netloc2是我想要的,但是,我希望netloc1github.io,如果使用正则表达式,如何处理它。