0

我需要从数据库中提取所有链接(URL)。无论是使用 SQL 语句还是 Python,我如何才能仅从表中提取链接?

有时没有链接,有时 1 个,有时超过 1 个。

举个例子:

数据库名称 (dbase) 表:id (int) col1(包含 URL 的文本) col2(包含 URL 的文本) col3(包含 URL 的文本) col4(包含 URL 的文本)

col1、col2、col3 和 col4 包含文本和 URL。(想象一封包含 URL 的电子邮件)

我想创建一个新的 coloum 名称,例如名称 (URL_found),以便在 col1、col2、col3 和 col4 中找到所有 URL。

例子

在 col1 有你好,你好,这是一个测试http://www.example.com/somewhereelse/some/ 如果你买这个我会给你一个免费的表格

关于如何做到这一点的任何想法?

谢谢 -

4

1 回答 1

0

这是一个广泛的问题,所以这里是一个广泛的建议。您可能需要使用 python 客户端遍历表中的记录,并使用正则表达式或其他一些 python 解析库解析每列中的字符串以获取有效 url。

一旦找到列或记录的匹配项,您可以将它们设置为另一列URL_found,并在 url 之间使用某种分隔符......但是创建一个新的数据库表似乎更有用,例如URL_found与记录的外键关系这个原始表。

于 2012-11-04T05:17:30.067 回答