问题标签 [urlparse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 从给定的 URL 获取主机名
如何从下面的示例中获取主机名。
I/P:https ://stackoverflow.com/users/login | 运营商:stackoverflow.com
I/P:stackoverflow.com/users/login | 运营商:stackoverflow.com
I/P: /users/login | O/P:(返回空字符串)
我检查了 parse_url 函数,但没有返回我需要的。因为,我是 PHP 的初学者,所以对我来说很难。如果您有任何想法,请回答。
php - 在 PHP 中获取部分 URL
如何使用 PHP 函数提取以下部分:
- 领域
- 没有文件的路径
- 文件
- 带有扩展名的文件
- 没有扩展名的文件
- 方案
- 港口
- 查询
- 片段
- (添加您认为有用的任何其他内容)
例 1 https://stackoverflow.com/users/test/login.php?q=san&u=post#top
- 域 (stackoverflow.com)
- 没有文件的路径(/users/test/)
- 文件(login.php)
- 文件扩展名 (.php)
- 没有扩展名的文件(登录)
- 方案(https:)
- 端口(返回空字符串)
- 查询(q=san&u=post)
- 片段(上)
例如:2 stackoverflow.com/users/test/login.php?q=san&u=post#top
- 域 (stackoverflow.com)
- 没有文件的路径(/users/test/)
- 文件(login.php)
- 文件扩展名 (.php)
- 没有扩展名的文件(登录)
- 方案(返回空字符串)
- 端口(返回空字符串)
- 查询(q=san&u=post)
- 片段(上)
例如:3 /users/test/login.php?q=san&u=post#top
- 没有文件的路径(/users/test/)
- 文件(login.php)
- 文件扩展名 (.php)
- 没有扩展名的文件(登录)
- 查询(q=san&u=post)
- 片段(上)
- 对于剩余(返回空字符串)
例如:4 /users/test/login?q=san&u=post#top
- 没有文件的路径(/users/test/)
- 文件(登录)
- 文件扩展名(返回空字符串)
- 没有扩展名的文件(登录)
- 查询(q=san&u=post)
- 片段(上)
- 对于剩余(返回空字符串)
例如:5 次登录?q=san&u=post#top
- 文件(登录)
- 文件扩展名(返回空字符串)
- 没有扩展名的文件(登录)
- 查询(q=san&u=post)
- 片段(上)
- 对于剩余(返回空字符串)
例如:6 ?q=san&u=post
- 查询(q=san&u=post)
- 对于剩余(返回空字符串)
我检查了 parse_url 函数,但没有返回我需要的。因为,我是 PHP 的初学者,所以对我来说很难。如果您有任何想法,请回答。
提前致谢。
python - 在熊猫数据框中解析/拆分 URL 的 Pythonic 方法
我有一个 df,在标有 url 的列中包含数千个链接,如下面的链接,针对不同的用户:
我有以下代码:
该代码能够正确解析和拆分网址,但速度很慢,因为我正在遍历 df 的每一行。有没有更有效的方法来解析 URL?
regex - 正则表达式拆分以获取顶级域和子目录
如果其他 TLD 可用,我想将 URL 拆分为子目录,如何使用正则表达式实现这一点?
www.xyx.com/features.html => www.xyx.com/ 被选中和 www.xyx.com/abc/features.html => www.xyx.com/abc/ 被选中
它包括https、http、www和非www。
任何帮助表示赞赏!
python - urlparse.SplitResult() 有什么作用?
我尝试从有关 SplitResult() 的官方文档中搜索定义,但我找不到对我有意义的有用信息。谁能根据下面的代码给我解释一下?
python - 将解析页面中的部分 URL 转换为完整 URL
我正在抓取一个包含不完整 URL 的页面,我需要将它们转换为完整的 HTTP url,例如,原始地址是:http://www.example.com/dir1/dir1/
并且索引文件包含以下链接:
我需要将它们转换为
我不确定如何../
从原始地址识别和评估它们并且urlparse(temp_href).geturl()
不起作用。
如何正确转换它们?
list - Csv 解析程序 & 如何将多个列表展平为单个列表
我一直在做一个小程序,我需要做以下事情:
获取一个 csv 文件“domains_prices.csv”,其中包含一列域,然后是每个域的价格,例如:
等等
然后是第二个文件“orders_list.csv”,它只是来自第一个文件中列出的相同域的博客文章 URL 的单列,例如:
等等
我需要根据第一个文件中的域检查 orders_list 中的完整 url,并检查该域上博客文章的价格,然后将所有博客文章 url 输出到一个新文件中,每个文件的价格例如:
然后在输出文件的末尾会有一个总量。
我的计划是为 domain_prices 创建一个字典,其中 k,v 作为 domain & price,然后将 orders_list 中的所有 url 放在一个列表中,然后将该列表中的元素与字典中的价格进行比较。
这是我的代码,我坚持到最后,我已经 parsed_orders_list 并且它似乎将所有 url 作为单独的列表返回,所以我认为我应该将所有这些 url 放入一个列表中?
最后最后注释掉的代码是我打算做的操作,一旦我有正确的 url 列表来将它们与 dict 的 k、v 进行比较,我不确定这是否也正确。
请注意,这也是我从头开始创建的第一个完整的 python 程序,所以如果它很可怕,那就是为什么 :)
python - 为什么我的网络爬虫没有进入下一个包含关键字的链接
我编写了一个简单的网络爬虫,它最终将只跟随新闻链接将文章文本抓取到数据库中。实际上,我在跟踪源网址中的链接时遇到了问题。这是到目前为止的代码:
编辑:NLTK
然后在此之后添加到数据库。
python - 将 URL 的标题部分拆分为单独的列 - Python
假设我有一个如下 URL:
我想解析这个 URL 以单独获取标题部分和 url 部分。
我尝试了以下,
完成此操作后,我得到以下结果,
并且q.query
有,
我无法在此处使用 q.query.title 或 q.query.url。有没有办法可以访问它?我想将 url 和 title 部分分别拆分为单独的列。我们可以这样做还是可以编写一个子字符串方法来检查以“title”开头并以“&”结尾并拆分它?
谢谢
python - 一个对象的Unicode表示回到一个对象(在python中)
仅供参考 - 这是程序使用 Django,但我没有这样标记它,因为它不是 django 问题。django 代码在这里作为上下文
~~背景~~
我发现了一个程序中的错误。简而言之,我urlparse.urlparse
用于从给定的 URI 获取信息并将其保存到数据库中。
目标是做这样的事情:
~~问题~~
问题是由于编码错误,数据库中充满了urlparse
对象。因此,当从数据库中调用实例时,结果是一个 unicode 字符串:
哎呀。
~~问题~~
显然我需要回去修复一些记录。我很想知道是否有一种很好的pythonic方法可以将对象的unicode表示(不是实际的.__unicode__()
返回)恢复到对象本身。
想法?
我在 Google 和 StackOverflow 上查看了一下,问题是我遇到的任何搜索都处理的是输出.__unicode__()
而不是整个表示本身。