问题标签 [urlparse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - urlparse 的奇怪行为
我想知道我在 python 的 urlparse 中看到的一些奇怪行为是否有已知的解决方法。
以下是 python interpeter 中几行的一些结果:
在上面的例子中,为什么第一个值的键是“https://localhost/?code”?它不应该只是“代码”吗?注意: parse_qs 具有相同的不良行为。
在上面的示例中,请注意查询字符串并不总是被放入查询值中。为什么协议很重要?查询字段不应该总是得到查询字符串吗?使用“ftp”或其他众所周知的协议进行测试似乎也令人不快。
python - urlparse 和 '\n'
我有:
它是否正确?解析期间不应该删除“\n”吗?或者我只是错误地使用了这个函数,或者我错过了一些参数/参数?
javascript - Javascript 相当于 Python 的 urlparse.parse_qs()?
我正在使用 python 生成一个查询字符串,然后由 javascript 解析。
考虑一个相当“复杂”的数据:
在 python 中,我可以使用urlparse.parse_qs()
该 url 编码的查询字符串并重建 Python 结构。
是否有 Javascript 的等价物?是否有人编写了一个知道如何解析此类查询字符串的库?
顺便说一句,这个 Javascript 不是在浏览器中运行的——它是一个名为“Netsuite”的包中的内部脚本功能——所以使用外部 javascript 库有点困难(尽管如果需要的话,最终还是可行的。)
python - Python urlparse——提取没有子域的域名
需要一种使用 Python urlparse 从 url 中提取没有子域的域名的方法。
例如,我想"google.com"
从完整的 url中提取"http://www.google.com"
.
我能想到的最接近的urlparse
是netloc
属性,但它包括子域,在本例中为www.google.com
.
我知道可以编写一些自定义字符串操作来将 www.google.com 转换为 google.com,但我想避免在此任务中手动进行字符串转换或正则表达式。(这样做的原因是我对 url 形成规则不够熟悉,因此我确信我可以考虑编写自定义解析函数所需的每个边缘情况。)
或者,如果urlparse
不能做我需要的,有没有人知道任何其他 Python url 解析库?
python - 找到 http:// 和或 www。并从域中剥离。离开 domain.com
我对python很陌生。我正在尝试解析 URL 文件以仅保留域名。
我的日志文件中的一些 url 以 http:// 开头,一些以 www 开头。一些以两者开头。
这是我的代码中去掉 http:// 部分的部分。我需要添加什么来查找 http 和 www。并删除两者?
目前,当我运行代码时,只有 http:// 被剥离。如果我将代码更改为以下内容:
只有以两者开头的域会受到影响。我需要代码更有条件。TIA
编辑...这是我的完整代码...
我被原始帖子误认为是正则表达式。它确实在使用 urlparse。
python - 在python中获取url的特定部分
我正在使用 python 并尝试获取 url 的特定部分,如下所示
结果
案例1:
实际上我会有一些 url(存储在列表或其他地方),所以我想要的是,需要domain name
在 url 中找到上面的内容并获取之后www.
和之前的部分.co.in
,即字符串在之后first dot
和之前开始second dot
这只会google
导致目前的情况。
因此,假设给出的 url 是 url given is www.gmail.com
,我应该只gmail
在其中获取,所以无论给出的 url 是什么,代码都应该获取以第一个点开头和第二个点之前的部分。
案例2:
也可以像这样直接给出一些 url ,domain.com, stackoverflow.com
而不www
在 url 中,在这种情况下,它应该只获取stackoverflow
and domain
。
最后,我的意图是从这样的 url 中获取主名称gmail, stackoverflow, google
.....
一般来说,如果我有一个 url,我可以使用list slicing
并获取字符串,但我会有许多 ulr,所以需要像上面提到的那样动态获取想要的部分
谁能让我知道如何满足上述概念?
python - 对字典中的字符串进行 URL 编码
我正在尝试从查询字符串中删除某些项目,最好的方法是解析查询字符串,迭代并删除我不想要的特定键并将它们重新连接在一起。
按照 python 指南,他们说要使用的 urlencode 函数似乎没有像预期的那样工作。
使用以下代码,它只是解析查询字符串,然后将其重新连接在一起。我已将其设置为保留空值。
我期望查询代码的结果与 f 字符串相同。
http://docs.python.org/2/library/urlparse.html#urlparse.parse_qs
所以我假设我必须遍历 q 变量并手动构建字符串,在字典的每个项目上调用 urlencode?有没有更好的办法...
使用 python 2.7
谢谢
python - 为什么 urlparse.urlenparse 工作不一致?
当netloc为空时urlparse.urlunparse不一致:
它是错误还是功能?我希望 urlunparse 总是表现得像第一个例子一样,即使方案未被识别。
python - Python urlparse.parse_qs unicode url
urlparse.parse_qs
对于解析 url 参数很有用,它适用于简单的 ASCII url,由str
. 所以我可以解析一个查询,然后使用urllib.urlencode
解析的数据构造相同的路径:
当 url 包含百分比编码的非 ASCII 参数时,它也可以正常工作:
但是,当使用 django 时,我使用 获取 url request.get_full_path()
,并将路径作为unicode
字符串返回:
看看现在会发生什么:
query_dict
包含 unicode 字符串,其中包含字节!不是unicode点!当然,在尝试对该字符串进行 urlencode 时,我遇到了 UnicodeEncodeError:
目前我有一个解决方案:
所以问题是:
- 为什么 parse_qs 返回如此奇怪的字符串(unicode,包含字节)?
- 将url转换为str安全吗?
python - 优雅地从 URL 中查找网络位置
代码:
netloc2
是我想要的,但是,我希望netloc1
是github.io
,如果使用正则表达式,如何处理它。