问题标签 [urlparse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 解析像“ssh://git@gitlab.org.net:3333/org/repo.git”这样的 git URL?
我怎样才能轻松地从 git URL 中提取主机名,例如ssh://git@gitlab.org.net:3333/org/repo.git
给我
这意味着 netloc 最接近我想要的,这给我留下了令人失望的工作量。
我应该做
或者有没有更好地处理它的图书馆?
python - 带有urlParse的python中的正则表达式
我有这个网址:
我希望有
我试过
python - 如何通过Python检查URL末尾是否有数字或字符串
我有 2 种类型的 URL
第一个在网址末尾有数字
第二个:
我怎么知道我的输入是第一个还是第二个?
我试过这个:
python - python中从urlparse返回的拆分列表
我能够urlsplit
使用参数解析 url 并获取参数query
。
url
是'/api/v1/test?par1=val1&par2=val2a%3D1%26val2b%3Dfoo%26val2c%3Dbar'
使用 urlsplit 和查询后,我得到
'par1=val1&par2=val2a%3D1%26val2b%3Dfoo%26val2c%3Dbar'
在上面运行 parse_qs 之后,我得到了
{'par2': ['val2a=1&val2b=foo&val2c=bar'], 'par1': ['val1']}
这是我需要的输出
'par1': ['val1']
我将返回作为具有以下解码数据的参数之一的列表
'par2': ['val2a=1&val2b=foo&val2c=bar]
我可以par2
使用andsplit
的方法进行拆分&
并=
获取val2a
...
但是有没有更好的方法呢?
python - AttributeError:“ParseResult”对象没有属性“id”
从下面执行
当我执行它时,我收到此错误:
syntax - 为爬虫定义 URL 列表,语法问题
我目前正在运行以下代码:
错误:
href = urljoin(base, (a["href"] for a in cont))
我认为我在尝试创建一个可以输入的 url 列表get_hltv_match_data
以捕获该页面中的各种项目时遇到了问题。我要解决这个问题了吗?
干杯
python - 如何从 url 中获取文本
我有一些网址
当我在浏览器中运行这个 url 时,我得到了,它正在搜索:
我想编写代码来获取这些值。我试试
但它不适用于所有网址。我应该使用什么?
python - 如何从网址中提取标题?
我有一个标题数据集,例如
我需要从这些链接中提取正确的标题,即:
- 这是一个非常好的标题我的朋友
- 另一个非常好
- 你好-另一个-这里
- 你好,这里很酷
- 真实的
- 好人
- hello-world-here-is-a-weird-character
所以规则似乎找到了表格中最长的字符串——在右边界或左边界word1-word2-word3
有 a并且没有考虑/
- 超过 3 个数字的单词(例如
acjhrjk-2e1-1krjke4-9el8c-2eheje
在第一个链接中,或54216
在第三个链接中, - 不包括
.html
.
如何在 Python中使用正则表达式来做到这一点?不幸的是,我相信正则表达式是唯一可行的解决方案。诸如yurl
or之类的包urlparse
可以捕获 url 的路径,但后来我又回到使用正则表达式来获取标题..
非常感谢!
python - Python添加到网址
我有一个网址如下:
在这种情况下,我需要插入一个节点“我们”,如下所示:
使用 Python 的 urlparse 库,我可以得到如下路径:
...然后使用一个复杂而丑陋的例程,包括基于斜杠分割路径并插入新节点,然后重建 URL
有没有更优雅/pythonic 的方式来使用默认库来完成这个?
编辑:URL 中的“结果”不是固定的 - 它可以是“结果”或“产品”或“价格”等。但是,它总是在“板”之后。