데이터 > 활성 데이터셋 > 결측자료 사례 제거하기...
Data > Active data set > Remove cases with missing data...
데이터셋에 결측자료가 포함되는 경우가 흔하다.
https://rcmdr.tistory.com/84
분석을 앞두고 결측자료(결측데이터)를 어떻게 처리할 것인가가 중요한 경우도 많다. 결측데이터(결측자료)를 제거하는 기능이다. 결측자료가 많은 상황에서 모든 결측자료를 제거하면 사례의 수가 크게 감소하는 위험이 발생하기도 한다. 그래서 결측자료를 제거하기전에 분석에 필요한 하위셋을 먼저 만드는 것을 추천한다.
분석에 사용될 하위셋을 만들고, 결측자료를 제거할 때 <모든 변수 포함하기>/<변수 (하나 이상 선택)>을 결정해야 한다. 선택 이후 새로운 데이터셋 이름을 지정하는 것을 추천한다.
출력창의 정보를 보면 na.omit() 함수가 사용된다. 결측치 4개가 제거된다. 행의 수가 102개에서 98개로 축소된다.
새로운데이터셋 <- na.omit(활성데이터셋)
만약, 데이터셋에서 분석에 포함되는 변수 선정이 분명하고, 선정된 변수들 안에 있을 수 있는 결측치를 제거하고자 할 때는 <모든 변수 포함하기> 대신 <변수 (하나 이상 선택) >에서 변수들을 선택하면 된다.
출력창을 보면, <모든 변수 포함하기> 의 명령문보다 복잡하다.
새로운데이터셋 <- na.omit(활성데이터셋[ , c("선택변수1", "선택변수2", "선택변수3", "선택변수4")])
?na.omit # base 패키지의 na.omit 도움말 보기
DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA))
na.omit(DF)
m <- as.matrix(DF)
na.omit(m)
stopifnot(all(na.omit(1:3) == 1:3)) # does not affect objects with no NA's
try(na.fail(DF)) #> Error: missing values in ...
options("na.action")
'Data > Active data set' 카테고리의 다른 글
17. Export active data set... (0) | 2019.09.08 |
---|---|
16. Save active data set... (0) | 2019.09.08 |
11. Stack variables in active data set... (0) | 2019.09.08 |
10. Remove row(s) from active data set... (0) | 2019.09.08 |
9. Aggregate variables in active data set... (0) | 2019.09.08 |