问题标签 [urlparse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2576 浏览

python - 解析像“ssh://git@gitlab.org.net:3333/org/repo.git”这样的 git URL?

我怎样才能轻松地从 git URL 中提取主机名,例如ssh://git@gitlab.org.net:3333/org/repo.git

给我

这意味着 netloc 最接近我想要的,这给我留下了令人失望的工作量。

我应该做

或者有没有更好地处理它的图书馆?

0 投票
1 回答
28 浏览

python - URL 解析只能显式工作

我正在从 .csv 文件中读取 URL,并尝试解析它们。为什么当我将链接显式放在函数中时,我只能在方案netlocurlparse(...)中获得正确的值,看到变量o2而不是在我让步newsourceurlparse

输出: 在此处输入图像描述

0 投票
2 回答
80 浏览

python - 带有urlParse的python中的正则表达式

我有这个网址:

我希望有

我试过

0 投票
3 回答
1644 浏览

python - 如何通过Python检查URL末尾是否有数字或字符串

我有 2 种类型的 URL

第一个在网址末尾有数字

第二个:

我怎么知道我的输入是第一个还是第二个?

我试过这个:

0 投票
2 回答
146 浏览

python - python中从urlparse返回的拆分列表

我能够urlsplit使用参数解析 url 并获取参数query

url'/api/v1/test?par1=val1&par2=val2a%3D1%26val2b%3Dfoo%26val2c%3Dbar'

使用 urlsplit 和查询后,我得到

'par1=val1&par2=val2a%3D1%26val2b%3Dfoo%26val2c%3Dbar'

在上面运行 parse_qs 之后,我得到了

{'par2': ['val2a=1&val2b=foo&val2c=bar'], 'par1': ['val1']}

这是我需要的输出

'par1': ['val1']

我将返回作为具有以下解码数据的参数之一的列表

'par2': ['val2a=1&val2b=foo&val2c=bar]

我可以par2使用andsplit的方法进行拆分&=获取val2a...

但是有没有更好的方法呢?

0 投票
1 回答
2786 浏览

python - AttributeError:“ParseResult”对象没有属性“id”

从下面执行

当我执行它时,我收到此错误:

0 投票
1 回答
43 浏览

syntax - 为爬虫定义 URL 列表,语法问题

我目前正在运行以下代码:

错误:

href = urljoin(base, (a["href"] for a in cont))我认为我在尝试创建一个可以输入的 url 列表get_hltv_match_data以捕获该页面中的各种项目时遇到了问题。我要解决这个问题了吗?

干杯

0 投票
1 回答
215 浏览

python - 如何从 url 中获取文本

我有一些网址

当我在浏览器中运行这个 url 时,我得到了,它正在搜索:

我想编写代码来获取这些值。我试试

但它不适用于所有网址。我应该使用什么?

0 投票
1 回答
574 浏览

python - 如何从网址中提取标题?

我有一个标题数据集,例如

我需要从这些链接中提取正确的标题,即:

  • 这是一个非常好的标题我的朋友
  • 另一个非常好
  • 你好-另一个-这里
  • 你好,这里很酷
  • 真实的
  • 好人
  • hello-world-here-is-a-weird-character

所以规则似乎找到了表格中最长的字符串——在右边界或左边界word1-word2-word3有 a并且没有考虑/

  1. 超过 3 个数字的单词(例如acjhrjk-2e1-1krjke4-9el8c-2eheje在第一个链接中,或54216在第三个链接中,
  2. 不包括.html.

如何在 Python中使用正则表达式来做到这一点?不幸的是,我相信正则表达式是唯一可行的解​​决方案。诸如yurlor之类的包urlparse可以捕获 url 的路径,但后来我又回到使用正则表达式来获取标题..

非常感谢!

0 投票
1 回答
55 浏览

python - Python添加到网址

我有一个网址如下:

在这种情况下,我需要插入一个节点“我们”,如下所示:

使用 Python 的 urlparse 库,我可以得到如下路径:

...然后使用一个复杂而丑陋的例程,包括基于斜杠分割路径并插入新节点,然后重建 URL

有没有更优雅/pythonic 的方式来使用默认库来完成这个?

编辑:URL 中的“结果”不是固定的 - 它可以是“结果”或“产品”或“价格”等。但是,它总是在“板”之后。