“urlparse”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

1040 浏览

php - 从给定的 URL 获取主机名

如何从下面的示例中获取主机名。

I/P：https ://stackoverflow.com/users/login | 运营商：stackoverflow.com

I/P：stackoverflow.com/users/login | 运营商：stackoverflow.com

I/P: /users/login | O/P：（返回空字符串）

我检查了 parse_url 函数，但没有返回我需要的。因为，我是 PHP 的初学者，所以对我来说很难。如果您有任何想法，请回答。

2015-11-16T08:51:02.177

0 投票

2 回答

69 浏览

php - 在 PHP 中获取部分 URL

如何使用 PHP 函数提取以下部分：

领域
没有文件的路径
文件
带有扩展名的文件
没有扩展名的文件
方案
港口
查询
片段
（添加您认为有用的任何其他内容）

例 1 https://stackoverflow.com/users/test/login.php?q=san&u=post#top

域 (stackoverflow.com)
没有文件的路径（/users/test/）
文件（login.php）
文件扩展名 (.php)
没有扩展名的文件（登录）
方案(https:)
端口（返回空字符串）
查询（q=san&u=post）
片段（上）

例如：2 stackoverflow.com/users/test/login.php?q=san&u=post#top

域 (stackoverflow.com)
没有文件的路径（/users/test/）
文件（login.php）
文件扩展名 (.php)
没有扩展名的文件（登录）
方案（返回空字符串）
端口（返回空字符串）
查询（q=san&u=post）
片段（上）

例如：3 /users/test/login.php?q=san&u=post#top

没有文件的路径（/users/test/）
文件（login.php）
文件扩展名 (.php)
没有扩展名的文件（登录）
查询（q=san&u=post）
片段（上）
对于剩余（返回空字符串）

例如：4 /users/test/login?q=san&u=post#top

没有文件的路径（/users/test/）
文件（登录）
文件扩展名（返回空字符串）
没有扩展名的文件（登录）
查询（q=san&u=post）
片段（上）
对于剩余（返回空字符串）

例如：5 次登录？q=san&u=post#top

文件（登录）
文件扩展名（返回空字符串）
没有扩展名的文件（登录）
查询（q=san&u=post）
片段（上）
对于剩余（返回空字符串）

例如：6 ?q=san&u=post

查询（q=san&u=post）
对于剩余（返回空字符串）

我检查了 parse_url 函数，但没有返回我需要的。因为，我是 PHP 的初学者，所以对我来说很难。如果您有任何想法，请回答。

提前致谢。

php regex url urlparse

2015-11-16T10:23:43.510

0 投票

2 回答

5699 浏览

python - 在熊猫数据框中解析/拆分 URL 的 Pythonic 方法

我有一个 df，在标有 url 的列中包含数千个链接，如下面的链接，针对不同的用户：

我有以下代码：

该代码能够正确解析和拆分网址，但速度很慢，因为我正在遍历 df 的每一行。有没有更有效的方法来解析 URL？

python pandas urlparse

2015-11-24T04:38:23.947

0 投票

1 回答

153 浏览

regex - 正则表达式拆分以获取顶级域和子目录

如果其他 TLD 可用，我想将 URL 拆分为子目录，如何使用正则表达式实现这一点？

www.xyx.com/features.html => www.xyx.com/ 被选中和 www.xyx.com/abc/features.html => www.xyx.com/abc/ 被选中

它包括https、http、www和非www。

任何帮助表示赞赏！

regex string-split url-pattern urlparse

2015-11-24T21:55:33.660

0 投票

1 回答

443 浏览

python - urlparse.SplitResult() 有什么作用？

我尝试从有关 SplitResult() 的官方文档中搜索定义，但我找不到对我有意义的有用信息。谁能根据下面的代码给我解释一下？

python urlparse

2015-12-06T04:39:04.480

0 投票

1 回答

98 浏览

python - 将解析页面中的部分 URL 转换为完整 URL

我正在抓取一个包含不完整 URL 的页面，我需要将它们转换为完整的 HTTP url，例如，原始地址是：http://www.example.com/dir1/dir1/并且索引文件包含以下链接：

我需要将它们转换为

我不确定如何../从原始地址识别和评估它们并且urlparse(temp_href).geturl()不起作用。

如何正确转换它们？

python urlparse

2016-02-18T02:15:44.233

0 投票

1 回答

38 浏览

list - Csv 解析程序 & 如何将多个列表展平为单个列表

我一直在做一个小程序，我需要做以下事情：

获取一个 csv 文件“domains_prices.csv”，其中包含一列域，然后是每个域的价格，例如：

等等

然后是第二个文件“orders_list.csv”，它只是来自第一个文件中列出的相同域的博客文章 URL 的单列，例如：

等等

我需要根据第一个文件中的域检查 orders_list 中的完整 url，并检查该域上博客文章的价格，然后将所有博客文章 url 输出到一个新文件中，每个文件的价格例如：

然后在输出文件的末尾会有一个总量。

我的计划是为 domain_prices 创建一个字典，其中 k,v 作为 domain & price，然后将 orders_list 中的所有 url 放在一个列表中，然后将该列表中的元素与字典中的价格进行比较。

这是我的代码，我坚持到最后，我已经 parsed_orders_list 并且它似乎将所有 url 作为单独的列表返回，所以我认为我应该将所有这些 url 放入一个列表中？

最后最后注释掉的代码是我打算做的操作，一旦我有正确的 url 列表来将它们与 dict 的 k、v 进行比较，我不确定这是否也正确。

请注意，这也是我从头开始创建的第一个完整的 python 程序，所以如果它很可怕，那就是为什么 :)

list csv urlparse

2016-03-01T12:43:41.437

0 投票

1 回答

431 浏览

python - 为什么我的网络爬虫没有进入下一个包含关键字的链接

我编写了一个简单的网络爬虫，它最终将只跟随新闻链接将文章文本抓取到数据库中。实际上，我在跟踪源网址中的链接时遇到了问题。这是到目前为止的代码：

编辑：NLTK

然后在此之后添加到数据库。

python beautifulsoup web-crawler mechanize urlparse

2016-03-14T08:25:24.970

0 投票

5 回答

317 浏览

python - 将 URL 的标题部分拆分为单独的列 - Python

假设我有一个如下 URL：

我想解析这个 URL 以单独获取标题部分和 url 部分。

我尝试了以下，

完成此操作后，我得到以下结果，

并且q.query有，

我无法在此处使用 q.query.title 或 q.query.url。有没有办法可以访问它？我想将 url 和 title 部分分别拆分为单独的列。我们可以这样做还是可以编写一个子字符串方法来检查以“title”开头并以“&”结尾并拆分它？

谢谢

python python-2.7 urlparse

2016-03-17T17:34:38.830

0 投票

1 回答

33 浏览

python - 一个对象的Unicode表示回到一个对象（在python中）

仅供参考 - 这是程序使用 Django，但我没有这样标记它，因为它不是 django 问题。django 代码在这里作为上下文

~~背景~~

我发现了一个程序中的错误。简而言之，我urlparse.urlparse用于从给定的 URI 获取信息并将其保存到数据库中。

目标是做这样的事情：

~~问题~~

问题是由于编码错误，数据库中充满了urlparse对象。因此，当从数据库中调用实例时，结果是一个 unicode 字符串：

哎呀。

~~问题~~

显然我需要回去修复一些记录。我很想知道是否有一种很好的pythonic方法可以将对象的unicode表示（不是实际的.__unicode__()返回）恢复到对象本身。

想法？

我在 Google 和 StackOverflow 上查看了一下，问题是我遇到的任何搜索都处理的是输出.__unicode__()而不是整个表示本身。

python unicode urlparse python-object

2016-03-21T09:20:09.640

问题标签 [urlparse]

Reference