问题标签 [urlparse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1040 浏览

php - 从给定的 URL 获取主机名

如何从下面的示例中获取主机名。

I/P:https ://stackoverflow.com/users/login | 运营商:stackoverflow.com

I/P:stackoverflow.com/users/login | 运营商:stackoverflow.com

I/P: /users/login | O/P:(返回空字符串)

我检查了 parse_url 函数,但没有返回我需要的。因为,我是 PHP 的初学者,所以对我来说很难。如果您有任何想法,请回答。

0 投票
2 回答
69 浏览

php - 在 PHP 中获取部分 URL

如何使用 PHP 函数提取以下部分:

  • 领域
  • 没有文件的路径
  • 文件
  • 带有扩展名的文件
  • 没有扩展名的文件
  • 方案
  • 港口
  • 查询
  • 片段
  • (添加您认为有用的任何其他内容)

例 1 https://stackoverflow.com/users/test/login.php?q=san&u=post#top

  • 域 (stackoverflow.com)
  • 没有文件的路径(/users/test/)
  • 文件(login.php)
  • 文件扩展名 (.php)
  • 没有扩展名的文件(登录)
  • 方案(https:)
  • 端口(返回空字符串)
  • 查询(q=san&u=post)
  • 片段(上)

例如:2 stackoverflow.com/users/test/login.php?q=san&u=post#top

  • 域 (stackoverflow.com)
  • 没有文件的路径(/users/test/)
  • 文件(login.php)
  • 文件扩展名 (.php)
  • 没有扩展名的文件(登录)
  • 方案(返回空字符串)
  • 端口(返回空字符串)
  • 查询(q=san&u=post)
  • 片段(上)

例如:3 /users/test/login.php?q=san&u=post#top

  • 没有文件的路径(/users/test/)
  • 文件(login.php)
  • 文件扩展名 (.php)
  • 没有扩展名的文件(登录)
  • 查询(q=san&u=post)
  • 片段(上)
  • 对于剩余(返回空字符串)

例如:4 /users/test/login?q=san&u=post#top

  • 没有文件的路径(/users/test/)
  • 文件(登录)
  • 文件扩展名(返回空字符串)
  • 没有扩展名的文件(登录)
  • 查询(q=san&u=post)
  • 片段(上)
  • 对于剩余(返回空字符串)

例如:5 次登录?q=san&u=post#top

  • 文件(登录)
  • 文件扩展名(返回空字符串)
  • 没有扩展名的文件(登录)
  • 查询(q=san&u=post)
  • 片段(上)
  • 对于剩余(返回空字符串)

例如:6 ?q=san&u=post

  • 查询(q=san&u=post)
  • 对于剩余(返回空字符串)

我检查了 parse_url 函数,但没有返回我需要的。因为,我是 PHP 的初学者,所以对我来说很难。如果您有任何想法,请回答。

提前致谢。

0 投票
2 回答
5699 浏览

python - 在熊猫数据框中解析/拆分 URL 的 Pythonic 方法

我有一个 df,在标有 url 的列中包含数千个链接,如下面的链接,针对不同的用户:

我有以下代码:

该代码能够正确解析和拆分网址,但速度很慢,因为我正在遍历 df 的每一行。有没有更有效的方法来解析 URL?

0 投票
1 回答
153 浏览

regex - 正则表达式拆分以获取顶级域和子目录

如果其他 TLD 可用,我想将 URL 拆分为子目录,如何使用正则表达式实现这一点?

www.xyx.com/features.html => www.xyx.com/ 被选中和 www.xyx.com/abc/features.html => www.xyx.com/abc/ 被选中

它包括https、http、www和非www。

任何帮助表示赞赏!

0 投票
1 回答
443 浏览

python - urlparse.SplitResult() 有什么作用?

我尝试从有关 SplitResult() 的官方文档中搜索定义,但我找不到对我有意义的有用信息。谁能根据下面的代码给我解释一下?

0 投票
1 回答
98 浏览

python - 将解析页面中的部分 URL 转换为完整 URL

我正在抓取一个包含不完整 URL 的页面,我需要将它们转换为完整的 HTTP url,例如,原始地址是:http://www.example.com/dir1/dir1/并且索引文件包含以下链接:

我需要将它们转换为

我不确定如何../从原始地址识别和评估它们并且urlparse(temp_href).geturl()不起作用。

如何正确转换它们?

0 投票
1 回答
38 浏览

list - Csv 解析程序 & 如何将多个列表展平为单个列表

我一直在做一个小程序,我需要做以下事情:

获取一个 csv 文件“domains_prices.csv”,其中包含一列域,然后是每个域的价格,例如:

等等

然后是第二个文件“orders_list.csv”,它只是来自第一个文件中列出的相同域的博客文章 URL 的单列,例如:

等等

我需要根据第一个文件中的域检查 orders_list 中的完整 url,并检查该域上博客文章的价格,然后将所有博客文章 url 输出到一个新文件中,每个文件的价格例如:

然后在输出文件的末尾会有一个总量。

我的计划是为 domain_prices 创建一个字典,其中 k,v 作为 domain & price,然后将 orders_list 中的所有 url 放在一个列表中,然后将该列表中的元素与字典中的价格进行比较。

这是我的代码,我坚持到最后,我已经 parsed_orders_list 并且它似乎将所有 url 作为单独的列表返回,所以我认为我应该将所有这些 url 放入一个列表中?

最后最后注释掉的代码是我打算做的操作,一旦我有正确的 url 列表来将它们与 dict 的 k、v 进行比较,我不确定这是否也正确。

请注意,这也是我从头开始创建的第一个完整的 python 程序,所以如果它很可怕,那就是为什么 :)

0 投票
1 回答
431 浏览

python - 为什么我的网络爬虫没有进入下一个包含关键字的链接

我编写了一个简单的网络爬虫,它最终将只跟随新闻链接将文章文本抓取到数据库中。实际上,我在跟踪源网址中的链接时遇到了问题。这是到目前为止的代码:

编辑:NLTK

然后在此之后添加到数据库。

0 投票
5 回答
317 浏览

python - 将 URL 的标题部分拆分为单独的列 - Python

假设我有一个如下 URL:

我想解析这个 URL 以单独获取标题部分和 url 部分。

我尝试了以下,

完成此操作后,我得到以下结果,

并且q.query有,

我无法在此处使用 q.query.title 或 q.query.url。有没有办法可以访问它?我想将 url 和 title 部分分别拆分为单独的列。我们可以这样做还是可以编写一个子字符串方法来检查以“title”开头并以“&”结尾并拆分它?

谢谢

0 投票
1 回答
33 浏览

python - 一个对象的Unicode表示回到一个对象(在python中)

仅供参考 - 这是程序使用 Django,但我没有这样标记它,因为它不是 django 问题。django 代码在这里作为上下文

~~背景~~

我发现了一个程序中的错误。简而言之,我urlparse.urlparse用于从给定的 URI 获取信息并将其保存到数据库中。

目标是做这样的事情:

~~问题~~

问题是由于编码错误,数据库中充满了urlparse对象。因此,当从数据库中调用实例时,结果是一个 unicode 字符串:

哎呀。

~~问题~~

显然我需要回去修复一些记录。我很想知道是否有一种很好的pythonic方法可以将对象的unicode表示(不是实际的.__unicode__()返回)恢复到对象本身。

想法?

我在 Google 和 StackOverflow 上查看了一下,问题是我遇到的任何搜索都处理的是输出.__unicode__()而不是整个表示本身。