From 427d365908088a4b4791f66177bde10bb0e6854e Mon Sep 17 00:00:00 2001
From: Kyle Belanger <kyleb44@hotmail.com>
Date: Fri, 6 Jan 2023 08:46:52 -0500
Subject: [PATCH] Update 0-data_prep.R

---
 ML/0-data_prep.R | 38 ++++++++++++++++++++++++++++++++++----
 1 file changed, 34 insertions(+), 4 deletions(-)

diff --git a/ML/0-data_prep.R b/ML/0-data_prep.R
index 471395d..63ff9d3 100644
--- a/ML/0-data_prep.R
+++ b/ML/0-data_prep.R
@@ -21,7 +21,8 @@ db <- dbConnect(
   ,here("ML","data-unshared","mimicDB.sqlite")
 )
 
-
+#item list shows two different numbers for a few tests, second set of items do not have
+# any results that are on the same samples as TSH and Free T4
 test_list <- c(
   50862 #Albumin
   ,50863	#Alkaline Phosphatase
@@ -38,7 +39,7 @@ test_list <- c(
   ,50885	#Bilirubin, Total
   ,50976	#Protein, Total
   ,50993	#Thyroid Stimulating Hormone
-  ,50995	#Thyroxine (T4), FreE
+  ,50995	#Thyroxine (T4), Free
 )
 
 
@@ -53,10 +54,39 @@ ds <- dplyr$tbl(db, "labevents") %>%
     ,names_from = itemid
     ,values_from = valuenum
     ) %>%
-  dplyr$filter(!is.na(`50993`)) %>%
+  dplyr$filter(!is.na(`50993`) & !is.na(`50995`)) %>%
   dplyr$collect()
 
-ds <- ds %>% dplyr$collect()
+
+ds %>% dplyr$filter(dplyr$across(where(is.numeric), ~!is.na(.x)))
+
+count <- data.frame(colSums(is.na(ds))) %>% tibble::rownames_to_column()
+
+
+testds <- readr::read_csv(
+  here("ML","data-unshared", "labevents.csv")
+  ,col_types = "_d_ddTT_d______"
+  ,n_max = 100
+)
+
+
+
+
+ds1 <- dplyr$tbl(db, "labevents") %>%
+  dplyr$filter(itemid %in% test_list) %>%
+  dplyr$select(-storetime) %>%
+  tidyr$pivot_wider(
+    id_cols = c(subject_id,charttime)
+    ,names_from = itemid
+    ,values_from = valuenum
+  ) %>%
+  dplyr$filter(!is.na(`50993`) & !is.na(`50995`)) %>%
+  dplyr$collect()
+
+count2 <- data.frame(colSums(is.na(ds1))) %>% tibble::rownames_to_column()
+
+counts <- count %>%
+  dplyr$left_join(count2)
 
 # close database ----------------------------------------------------------