0

我试图每隔几个小时检索一次数据,由于数据会有很多重复数据,我将删除所有具有相同日期的重复数据并保留第一个实例。这是我的代码:

import pandas as pd
import datetime
import pandas as pd
from pandas_datareader import data as web
import matplotlib.pyplot as plt
from alpha_vantage.foreignexchange import ForeignExchange
import os
from os import path
from alpha_vantage.timeseries import TimeSeries 
import matplotlib.pyplot as plt 
import sys

while True:
    if path.exists('stockdata.csv') == True:
        data1 = pd.read_csv('stockdata.csv', sep= ' ', index_col=0)
        ts = TimeSeries(key='1ORS1XLM1YK1GK9Y', output_format='pandas')
        data, meta_data = ts.get_intraday(symbol = 'spy', interval='1min', outputsize='full')
        data = data.rename(columns={ '1. open':'Open','2. high': 'High','3. low': 'Low', '4. close':'Close', '5. volume': 'Volume'})
        data1 = data1.append(data)
        data1 = data1.loc[data1.duplicated(keep='first'), :] # This should remove the rows which have duplicate dates
        data1.to_csv('stockdata.csv', sep= ' ')
        break
    else:
        data1 = pd.DataFrame()
        data1.to_csv('stockdata.csv', sep= ' ')

data1 = data1.loc[data1.duplicated(keep='first'), :]这应该删除具有重复日期的行的 1 个实例,但是如果我运行代码 2 次,我仍然有两倍的行。

作为一个例子来展示我想要完成的事情:

"2019-11-20 09:57:00" 311.405 311.44 311.4 311.41 42081.0
"2019-11-20 09:56:00" 311.38 311.425 311.33 311.41 63551.0
"2019-11-20 09:55:00" 311.34 311.4525 311.34 311.39 98011.0
"2019-11-20 09:53:00" 311.55 311.59 311.46 311.4832 125541.0
"2019-11-20 09:57:00" 311.405 311.44 311.4 311.41 42081.0
"2019-11-20 09:56:00" 311.38 311.425 311.33 311.41 63551.0
"2019-11-20 09:55:00" 311.34 311.4525 311.34 311.39 98011.0
"2019-11-20 09:54:00" 311.49 311.51 311.33 311.33 85857.0
"2019-11-20 09:53:00" 311.55 311.59 311.46 311.4832 125541.0

正如您所看到的,正在附加数据,因此如上例所示,它被粘贴了 2 次。然而,当添加新数据时,将会有一个新的唯一条目。所以在这里我试图删除所有重复项以保留新条目。

如果我data1.loc[data1.index.duplicated(keep = 'last'), :]在另一个单元格中运行,我会得到: 在此处输入图像描述

所有条目都被删除。

4

1 回答 1

1

考虑以下 DataFrame(每天 2 行):

Dat               Val
2019-06-03 12:07  20
2019-06-03 16:10  23
2019-06-04 10:04  30
2019-06-04 14:47  32
2019-06-06 11:42  49
2019-06-06 18:17  51

要仅保留每天的第一次阅读,您可以:

  • 按频率为D的Dat列分组,
  • 只打印每组的第一行,
  • 从没有输入行的日期中删除行(选项)。

执行此操作的代码是:

df.groupby(pd.Grouper(key='Dat', freq='D')).first().dropna()

结果是:

             Val
Dat             
2019-06-03  20.0
2019-06-04  30.0
2019-06-06  49.0

如果您的输入列是整数类型并且您希望将其保留为integer,您可以添加.astype(int)到上面的代码中。

编辑

如果上述解决方案计算太慢,请尝试:

df.groupby(df.Dat.dt.date).first().drop(columns='Dat')

这次没有插入“空日期”,所以不需要dropna

于 2019-11-27T21:26:22.890 回答