问题标签 [dateparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
25 浏览

python - 当 AM/PM 拼写错误时,dateparser 返回错误的日期

下面的结果有什么逻辑吗?如何避免它们?

返回 21 年 8 月 7 日下午 2:14。这是错误的。

返回 2016 年 6 月 21 日晚上 11:00。这是错误的,我们应该更喜欢 eb 是不可解释的并且 dateparser.parse 返回 None。

返回 2016 年 6 月 21 日上午 11:00。同样,这是错误的,我们应该更喜欢 dateparser.parse 返回 None。

0 投票
2 回答
129 浏览

sql - 获取:INVALID_FUNCTION_ARGUMENT:无效格式:“”尝试 date_parse 字符串格式化日期时

询问:

日期格式在 csv 中如下所示: 20210531 作为字符串读入表中。

尝试了一些不同的方法来将其转换为日期 YYYY-MM-DD

0 投票
1 回答
30 浏览

python - 查找多个网页的所有日期/事件

我是 python / web 抓取的超级新手,我正在尝试使用 beautifulsoup 来查找各种网页中列出的所有事件(日期),然后将它们输出到 CSV 文件。

这些是我一直在尝试的网页。

https://ir.monday.com/news-and-events/events

https://investor.okta.com/events

https://investors.atlassian.com/events-and-presentations/default.aspx

任何帮助,将不胜感激!

0 投票
1 回答
55 浏览

python - Parsing dates from OCRed files using dateparser library

I want to extract dates from OCR images using the dateparser lib.

Why am i getting error: NameError: name 'dates' is not defined

update: TypeError: Input type must be str

updated sample tif

0 投票
2 回答
119 浏览

python - 检测文本中日期的最准确方法是什么?

我正在处理敏感数据识别 (NER) 任务。面对我无法准确检测文本中的日期的事实。我已经尝试了几乎所有...

例如,我的文本中有这种类型的日期:

但不得不说,文中也有很多数字信息,比如IP地址、住宅地址、银行卡号等。

这是一个如何Spacy工作的例子:

或者例如我有电话号码"(150) 224-2215",它会将Spacy部分标记"24-2215"为日期。它也经常发生在地址和信用卡号码上。

然后我尝试了datefinderand dateparser.search,但他们检测到句子中完全不正确的部分或包含“to”一词的部分。

你能分享你的经验吗,有什么更好的方法?获得高精度日期检测的最佳方法是什么?

0 投票
1 回答
38 浏览

python - 有效地处理熊猫数据框中不一致的日期格式字符串中的日期?

使用包含错误的不一致字符串格式的日期列简化了巨大的 df:

我们需要将datecol 转换为 datetime,但找不到在可用时间内不删除数据或进程的解决方案。连续尝试格式化errors='ignore'

但是对于错误的字符串(“asdf”),col 似乎不受影响。连续尝试格式errors='coerce'显然会丢失数据。

我们尝试了 dateparserdf['date'] = df['date'].apply(lambda x: dateparser.parse(x))它有点工作,只是它有时会出错(2019-02-02 应该是 2019-02-01):

这也非常慢(玩df_length)。

有什么好方法可以做到这一点?

0 投票
1 回答
42 浏览

python-3.x - 日期实体为不完整的日期解析不正确的年份

我有一个包含几篇新闻文章(Text_4)的数据集(df_test)。使用 SpaCy,我提取了“日期”实体。对于那些我想查看与文章的发布日期(RP_DateFormatted)相比它们是在未来还是过去(以识别引用未来事件(例如产品发布)的新闻文章)的人

我目前的代码是

...一些其他步骤...然后:

我对这行有疑问'PREFER_DATES_FROM': 'future',例如:文章写于 2005 年 8 月 15 日,但文中没有给出年份。SpaCy 将“Aug 15”提取为日期。dateparser 将年份设置为 2006 年(因为它在未来)。因此,我会相信新闻文章谈论的是未来——但事实并非如此。

'PREFER_DATES_FROM': 'past'如果描述了 2 月发生的事件(文本中没有给出年份),设置也无济于事。这可能是明年二月,但日期解析器会将其设置为今年的二月。

有没有办法在设置中添加 if 语句或基于 dateparser 创建一个新函数?请注意,每篇新闻文章都可以有多个日期(entities['DATE'] 是我数据框中每一行的列表)。

我正在使用 Python 3.8

0 投票
1 回答
35 浏览

python - Python / Pandas - 使用 dateparser 不同的语言环境解析日期时间格式

这是我在这里的第一篇文章,因此也感谢有关如何更好地传达我的问题的反馈。

基本上我想在 .csv 文件的文件夹上应用日期解析器。问题是:文件可以包含不同的数据时间格式(语言环境)。

我选择了 dateparser,因为它可以“开箱即用”处理不同的语言环境。文件中的语言环境有:德语、英语、法语、意大利语、西班牙语、瑞典语、波兰语和荷兰语。单个文件只有一种不同的日期格式。文件一是德语,文件二是英语,依此类推。

我几乎可以使用 dateparser 来解决这个问题,但由于某种原因,它会破坏德语日期,其他文件的处理没有问题。01.08.2021(应为 8 月 1 日,变为 1 月 8 日)

样品日期(结构中均为 DD/MM/YYYY HH/MM/SS)

我的代码:

在加载文件时添加“dayfirst = True”对我没有任何作用。

0 投票
1 回答
30 浏览

python - Dateparser 自定义当前日期时间考虑配置更新

上面的代码行返回以下输出:

本质上,他们考虑当前时间戳并返回前一周或前一个月或前 6 个月或前一年日期时间。如果我希望日期解析器考虑自定义时间戳并基于该时间戳返回前一周或前一个月或前 6 个月或前一年日期时间怎么办?例如:对于上述相同的代码,我想要以下输出,因为我希望日期解析器将开始日期视为 2021-06-13 11:30:50.229535

如何去配置这个开始日期?

0 投票
0 回答
38 浏览

python - 知道一天包含哪些部分

dateparser 库将日期的缺失部分设置为今天的值。

例子:

如何知道日期真正包含哪些部分?

(因此图书馆将哪些部分设置为今天的值)?

这就是我想出的。

有没有更有效的方法?