问题标签 [urlparse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
33 浏览

python - 从 Python urlparse 返回的元组的参数部分是什么?

我正在对 URL 进行一些验证,但我找不到一个很好的例子来表达paramsurlparse().

https://docs.python.org/2/library/urlparse.html

我已经尽力了,SO 和 Goog 搜索都没有成功。

0 投票
1 回答
4337 浏览

python-3.4 - Python 3:为什么要使用 urlparse/urlsplit

我不确定这些模块的用途。我知道他们将各自的 url 拆分为其组件,但是为什么这会有用,或者什么是何时使用 urlparse 的示例?

0 投票
2 回答
63 浏览

python - 在 Python 2.x 中拆分 URL

我在一些 HTML 代码中解析了一个链接,如下所示:-

我要做的是从第二次出现 http: 开始提取代码的第二部分:所以在上述情况下,我想提取

我已经考虑将 URL 分割成段,但是我不确定随着时间的推移结构是否会与第一部分保持不变。

是否可以识别“http”的第二次出现,然后从那里解析出代码到最后?

0 投票
0 回答
119 浏览

python - 如何在 Portia 蜘蛛部署中从 Crawled 而不是 Scraped 获取 URL?

我正在scrapyd 中部署一个Portia 蜘蛛。在部署时,我为每个链接解析传递 URL

示例:蜘蛛抓取http://www.example.com/query1的 URL(比如 URL_1)是,我传递的 URL(比如 URL_2)是http://www.example.com/query2提取内容。

我的蜘蛛从 URL_2 中提取内容并将其存储到相应的项目中。这可以。

我将 [URL] 项目和 URL_2 存储在项目中,但我想要将 URL_1 存储在 [URL] 项目中。

任何解决方案?

0 投票
3 回答
7112 浏览

python - 如何从database_url解析mysql数据库名称

DATABASE_URL-MYSQL://username:password@host:port/database_name

错误:database_name 没有属性。

0 投票
4 回答
21350 浏览

python - Python - 将 url 拆分为其组件

我有一个巨大的 url 列表,都是这样的:

其中 VAR1 和 VAR2 是 url 的动态元素。我想要做的是只从这个 url 字符串中提取 VAR1。我尝试使用urlparse但输出如下所示:

0 投票
2 回答
519 浏览

python - 如何让 urljoin 在 Python 中按预期工作?

假设我有以下网址:

我想要以下网址:

当我尝试

我得到以下结果:

为什么会thing3被剪掉?我该如何解决?非常感谢!

0 投票
0 回答
420 浏览

python - 使用 Python 修复 URL

有一个大文件。该文件的每一行都是人工输入的 URL,因此可能会出现不同的问题,例如http丢失www等。

是否有可以修复这些网址的 Python 模块?我已经尝试过url_fixwerkzeug.urls但这并不是我正在寻找的。

当然,不可能有一种方法可以修复所有可能的错误,但我正在寻找修复最常见的错误。

你有什么建议吗?

编辑:根据彼得伍德的评论,我们假设 URL 必须包含www. 就我而言,这些是 eshop URL。

0 投票
1 回答
731 浏览

python - 在 python 中解析一个 url 并在其中更改部分

我正在用 Python 解析一个 url,您可以在下面找到一个示例 url 和代码,我想要做的是从 url 中拆分 (74743) 并创建一个 for 循环,该循环将从部件列表中获取它。尝试使用 urlparse 但无法完成它,主要是因为 url 中的更改部分。我只想要最简单和最快的方法来做到这一点。

示例网址:

( http://example.com/wps/portal ) 总是固定的

(lYuxDoIwGAYf6f9aqKSjMNQ) 一直在变化

(74743) 将取自列表名称 Parts

(IntNumberOf=&is=) 也会根据网站的部分而变化

这是代码:

0 投票
3 回答
3526 浏览

python - 将 URL 参数提取到 Pandas DataFrame 中

有一个包含带有参数的 URL 地址的列表:

每个 URL 可能包含 4 个参数中的任何一个。

我想提取 URL 参数并将它们添加到 Pandas DataFrame 中。DataFrame 应该有一个 URL 列和 4 个带参数的列。如果 URL 中不存在参数,则单元格为空:

我打算使用 python 内置的urlparse模块,它可以轻松提取参数:

使用urlparse我可以获取 URL 中的参数列表:

我不知道如何将提取的参数添加到 DataFrame 中。也许有更好的方法来做到这一点?原始文件是~1m URL。