TAREA: Semana 02
Preparar base de datos
Preparación de la data
FECHA_CORTE | FECHA_FALLECIMIENTO | EDAD_DECLARADA | SEXO | CLASIFICACION_DEF | DEPARTAMENTO | PROVINCIA | DISTRITO | UBIGEO | UUID |
---|---|---|---|---|---|---|---|---|---|
20240317 | 20220219 | 63 | MASCULINO | Criterio virológico | TUMBES | TUMBES | TUMBES | 240101 | 203506 |
20240317 | 20210529 | 74 | MASCULINO | Criterio virológico | TUMBES | TUMBES | TUMBES | 240101 | 203532 |
20240317 | 20210623 | 72 | FEMENINO | Criterio SINADEF | TACNA | TACNA | ALTO DE LA ALIANZA | 230102 | 203584 |
20240317 | 20210824 | 85 | MASCULINO | Criterio investigación Epidemiológica | TUMBES | TUMBES | TUMBES | 240101 | 212541 |
20240317 | 20210627 | 46 | MASCULINO | Criterio virológico | TACNA | TACNA | ALTO DE LA ALIANZA | 230102 | 203665 |
20240317 | 20210423 | 58 | MASCULINO | Criterio clínico | TUMBES | ZARUMILLA | ZARUMILLA | 240301 | 221184 |
20240317 | 20210401 | 73 | FEMENINO | Criterio virológico | TUMBES | ZARUMILLA | ZARUMILLA | 240301 | 221211 |
20240317 | 20220914 | 92 | FEMENINO | Criterio virológico | TUMBES | TUMBES | CORRALES | 240102 | 229901 |
20240317 | 20210409 | 66 | MASCULINO | Criterio virológico | PIURA | PIURA | CASTILLA | 200104 | 846032 |
20240317 | 20211030 | 64 | FEMENINO | Criterio SINADEF | PUNO | MOHO | MOHO | 210901 | 846152 |
FECHA_CORTE | FECHA_FALLECIMIENTO | EDAD_DECLARADA | SEXO | CLASIFICACION_DEF | DEPARTAMENTO | PROVINCIA | DISTRITO | UBIGEO | UUID | |
---|---|---|---|---|---|---|---|---|---|---|
Min. :20240317 | Min. :20200303 | Min. : 0.00 | Length:220918 | Length:220918 | Length:220918 | Length:220918 | Length:220918 | Min. : 10101 | Min. : 12 | |
1st Qu.:20240317 | 1st Qu.:20200728 | 1st Qu.: 57.00 | Class :character | Class :character | Class :character | Class :character | Class :character | 1st Qu.:110210 | 1st Qu.:10785859 | |
Median :20240317 | Median :20210207 | Median : 68.00 | Mode :character | Mode :character | Mode :character | Mode :character | Mode :character | Median :150110 | Median :36218126 | |
Mean :20240317 | Mean :20207176 | Mean : 66.36 | NA | NA | NA | NA | NA | Mean :134080 | Mean :25369408 | |
3rd Qu.:20240317 | 3rd Qu.:20210426 | 3rd Qu.: 78.00 | NA | NA | NA | NA | NA | 3rd Qu.:150140 | 3rd Qu.:36641219 | |
Max. :20240317 | Max. :20240302 | Max. :114.00 | NA | NA | NA | NA | NA | Max. :250401 | Max. :42004985 | |
NA | NA | NA | NA | NA | NA | NA | NA | NA’s :5 | NA’s :2469 |
Seleccionamos en base a una subdata, las variables que vamos a analizar:
Revisión de las variables
Sacamos las variables numéricas:
library(dplyr)
data_1 <- data %>%
select("EDAD_DECLARADA", "FECHA_FALLECIMIENTO", "FECHA_CORTE")
summary(data_1)
## EDAD_DECLARADA FECHA_FALLECIMIENTO FECHA_CORTE
## Min. : 0.00 Min. :20200303 Min. :20240317
## 1st Qu.: 57.00 1st Qu.:20200728 1st Qu.:20240317
## Median : 68.00 Median :20210207 Median :20240317
## Mean : 66.36 Mean :20207176 Mean :20240317
## 3rd Qu.: 78.00 3rd Qu.:20210426 3rd Qu.:20240317
## Max. :114.00 Max. :20240302 Max. :20240317
Revisamos la cantidad de observaciones:
## n
## 1 220918
Variable: Criterio clínico
Según los fallecidos confirmados por Covid-19, los fallecidos cumplen ciertos criterios clínicos:
##
## Criterio clínico Criterio investigación Epidemiológica
## 8994 10783
## Criterio nexo epidemiológico Criterio radiológico
## 2215 5113
## Criterio serológico Criterio SINADEF
## 42910 66198
## Criterio virológico NotiCovid
## 84557 132
## sinadef
## 16
Gráfico: Evolución de los fallecimientos por Covid-19 por años
Creamos una subdata:
data_2 <- data %>%
select("FECHA_FALLECIMIENTO", "CLASIFICACION_DEF")
data_2$FECHA_FALLECIMIENTO = as.numeric(data_2$FECHA_FALLECIMIENTO)
data_2$FECHA_FALLECIMIENTO <- gsub("[0-9]{4}$", "", data_2$FECHA_FALLECIMIENTO)
data_2 <- table(data_2$FECHA_FALLECIMIENTO)
data_2 <- as.data.frame(data_2)
colnames(data_2) <- c("Año", "Frecuencia") #Renombraoms columnas
Revisamos los datos de la subdata:
#Revisamos que la variable "Año" está como factor y procedemos a cambiarlo
data_2$Año <- as.numeric(data_2$Año)
#Se cambiaron los valores, se corrige:
data_2$Año <- c(2020,2021,2022,2023,2024)
data_2 %>%
kbl() %>%
kable_styling()
Año | Frecuencia |
---|---|
2020 | 95331 |
2021 | 107962 |
2022 | 14742 |
2023 | 2570 |
2024 | 313 |
Graficamos:
#Graficamos:
library(ggplot2)
ggplot(data_2, aes(x = Año, y = Frecuencia)) +
geom_line(color = "black", size = 1) + # Línea
geom_point(color = "red", size = 3) + # Puntos
labs(title = "Evolución de los fallecimientos por Covid-19 por años",
x = "Año", y = "Frecuencia de muertes") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Ahora, debido a que hay una gran cantiddad de fallecimientos durante el año 2021, vamos a filtrar para ver en cuáles semanas se producieron mayor cantidad de fallecimientos:
data_2 <- data %>%
select("FECHA_FALLECIMIENTO", "CLASIFICACION_DEF") %>%
filter(FECHA_FALLECIMIENTO >= 20210000 & FECHA_FALLECIMIENTO <= 20219999)
data_2$FECHA_FALLECIMIENTO = as.numeric(data_2$FECHA_FALLECIMIENTO)
data_2$FECHA_FALLECIMIENTO <- gsub("[0-9]{2}$", "", data_2$FECHA_FALLECIMIENTO)
data_2 <- table(data_2$FECHA_FALLECIMIENTO)
data_2 <- as.data.frame(data_2)
colnames(data_2) <- c("Año", "Frecuencia") #Renombraoms columnas
#Graficamos:
library(ggplot2)
ggplot(data_2, aes(x = Año, y = Frecuencia)) +
geom_line(color = "black", size = 1) + # Línea
geom_point(color = "red", size = 3) + # Puntos
labs(title = "Evolución de los fallecimientos por Covid-19 durante el 2021",
x = "Año", y = "Frecuencia de muertes") +
theme_minimal()
## `geom_line()`: Each group consists of only one observation.
## ℹ Do you need to adjust the group aesthetic?
Variable: Edad declarada
Revisamos la variable de Edad:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00 57.00 68.00 66.36 78.00 114.00
En base a lo anterior, hacemos una subdata con filtros:
Cruce de variables
cruce_1 <- table(data_4$CLASIFICACION_DEF, data_4$EDAD_int)
cruce_1 |>
prop.table(2) |>
addmargins(1)
##
## a_menor_a_25 b_entre_25a60 c_mayor_a_78
## Criterio clínico 0.1805685723 0.0391502809 0.0384293509
## Criterio investigación Epidemiológica 0.0434239300 0.0473724251 0.0495832357
## Criterio nexo epidemiológico 0.0137457045 0.0108848315 0.0095537777
## Criterio radiológico 0.0162449235 0.0201310861 0.0246711077
## Criterio serológico 0.1383942518 0.1976386938 0.1938740669
## Criterio SINADEF 0.2836613558 0.2909058989 0.3039935728
## Criterio virológico 0.3220868479 0.3936534410 0.3790647073
## NotiCovid 0.0015620119 0.0002048221 0.0007565360
## sinadef 0.0003124024 0.0000585206 0.0000736451
## Sum 1.0000000000 1.0000000000 1.0000000000
## CLASIFICACION_DEF Criterio clínico Criterio investigación Epidemiológica Criterio nexo epidemiológico Criterio radiológico Criterio serológico Criterio SINADEF Criterio virológico NotiCovid sinadef
## EDAD_int SEXO
## a_menor_a_25 FEMENINO 253 71 16 20 198 400 439 2 1
## MASCULINO 325 68 28 32 245 508 592 3 0
## b_entre_25a60 FEMENINO 1075 1050 257 435 4577 6258 8919 2 2
## MASCULINO 1601 2188 487 941 8932 13626 17988 12 2
## c_mayor_a_78 FEMENINO 2530 2691 592 1327 11509 17278 21642 55 2
## MASCULINO 3210 4715 835 2358 17449 28128 34977 58 9