0

我在 R 下的 Plotly 中对我的数据进行分组时遇到了一些问题。首先我使用的是 csv 文件中的本地数据,读取它们:

geogrid_data <- read.delim('geogrid.csv', row.names = NULL, stringsAsFactors = TRUE)

并且绘图进展顺利,使用以下内容:

library(plotly)
library(RColorBrewer)

x <- list(
  title = 'Date'
)
p <- plotly::plot_ly(geogrid_data,
type = 'scatter',
x = ~ts_now,
y = ~absolute_v_sum,
text = paste('Table: ', geogrid_data$table_name,
             '<br>Absolute_v_Sum: ', geogrid_data$absolute_v_sum),
hoverinfo = 'text',
mode = 'lines',
color = list(
  color = colorRampPalette(RColorBrewer::brewer.pal(11,'Spectral'))(
    length(unique(geogrid_data$table_name))
  )
),

transforms = list(
  list(
    type = 'groupby',
    groups = ~table_name
  )
)
) %>% layout(showlegend = TRUE, xaxis = x)

这里的输出:

输出 csv 数据分组

然后我打算将数据源更改为 Oracle 数据库表,使用 ROracle 包读取数据如下:

# retrieve data into resultSet object
rs <- dbSendQuery(con, "SELECT * FROM GEOGRID_STATS")
# fetch records from the resultSet into a data.frame
geogrid_data <- fetch(rs)
# free resources occupied by resultSet
dbClearResult(rs)
dbUnloadDriver(drv)
# remove duplicates from dataframe (based on TABLE_NAME, TS_BEFORE, TS_NOW, NOW_SUM)
geogrid_data <-  geogrid_data %>% distinct(TABLE_NAME, TS_BEFORE, TS_NOW, NOW_SUM, .keep_all = TRUE)
# alter date columns in place
geogrid_data$TS_BEFORE <- as.Date(geogrid_data$TS_BEFORE, format='%d-%m-%Y')
geogrid_data$TS_NOW <- as.Date(geogrid_data$TS_NOW, format='%d-%m-%Y')

并将绘图调整为:

p <- plotly::plot_ly(
type = 'scatter',
x = geogrid_data$TS_NOW,
y = geogrid_data$ABSOLUTE_V_SUM,
text = paste('Table: ', geogrid_data$TABLE_NAME,
             '<br>Absolute_v_Sum: ', geogrid_data$ABSOLUTE_V_SUM,
             '<br>Date: ', geogrid_data$TS_NOW),
hoverinfo = 'text',
mode = 'lines',
color = list(
  color = colorRampPalette(RColorBrewer::brewer.pal(11,'Spectral'))(
    length(unique(geogrid_data$TABLE_NAME))
  )
),

transforms = list(
  list(
    type = 'groupby',
    groups = geogrid_data$TABLE_NAME
  )
)
) %>% layout(showlegend = TRUE, xaxis = x)

不幸的是,这似乎导致分组出现一些问题。:

从数据库表中分组数据的输出

正如您在将鼠标悬停在数据点上时从标签文本中看到的那样,该点表示来自NY_SKOV_PLANTEB_MW_POLY的数据,而图例设置为显示来自NY_BYGN_MW_POLY的数据。查看该图中的其他数据点,我发现该图中各种点的混合,其中一些代表NY_BYGN_MW_POLY的数据,大多数不是。

此外,关于时间线的绘图不再起作用,例如,数据从 12 月 11 日 - 12 月 10 日 - 12 月 10 日 - 12 月 12 日 - 12 月 20 日 - 12 月 17 日 - 12 月 16 日开始绘制 - 12 月 15 日。

我在处理数据时哪里出错了,我该怎么做才能让它正确?

4

1 回答 1

0

当然,应该查看数据...谢谢 Marco,在您提出问题后,我确实查看了我的数据。

有些地方我只是假设了一些事情。使用 csv 文件中的数据绘制所有数据的原因很简单。在 csv 文件中手动编译的所有信息都来自按日期排序的电子邮件中的信息。因此,我在按日期排序的 csv 文件中编译了数据,并且 Plotly 按 table_name 对数据进行分组没有任何问题。

在查看了我的数据后,我整理了一下,只保留了我需要在图中显示的数据,并使用 dplyr 按时间对数据进行排序。

geogrid_data <- dplyr::arrange(geogrid_data, TS_NOW)

它只是按时间而不是按时间表名,因为按表名排序是由 Plotly 和groupby语句完成的

于 2019-01-10T10:15:55.697 回答