본문 바로가기

R5

R - 데이터 정체 [결측치, 이상치] 오늘도 Do it! 쉽게 배우는 R 데이터분석을 참고했습니다 결측치는 NA먼저 결측치가 포함된 데이터 프레임 생성df R에서는 결측치를 대문자 NA로 표기합니다NA 앞뒤에는 따옴표가 없습니다. 따옴표가 있다면 결측치가 아닌 영문자 "NA" 를 의미한다 결측치 확인하기 - is.na()is.na(df) #결측치 확인## sex score##[1,] FALSE FALSE##[2,] FALSE FALSE##[3,] TRUE FALSE##[4,] FALSE FALSE##[5,] FALSE TRUE결측치는 TRUE, 결측치가 아닌 값은 FALSE로 표시한다sex의 3행, score의 5행이 결측치이다 table(is.na(df)) #결측치 빈도 출력##FALSE TRUE ## 8 2table(.. 2024. 7. 12.
R - 데이터 추출하기(dplyr : 문제 복습) 이전 포스팅들은 Do it! 쉽게 배우는 R데이터 분석 책으로 공부하면서 나름 대로 혼자 정리한 건데,오늘은 책에 있는 문제를 풀어보기로 했다이제부터 풀 문제들은 6장 자유자재로 데이터 가공하기에 나와있는 문제이다 혼자서 해보기 -133pmpg 데이터를 이용해 분석 문제를 해결해 보세요.• Q1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 합니다. displ(배기량)이 4 이하인 자동차와 5 이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 알아보세요.# 내 답mpg % filter(displ % filter(displ >=5)mean(displ4); mean(displ5)#답지mpg % filter(displ % filter(displ >= 5) # displ.. 2024. 7. 11.
R 내장 함수 - 데이터 추출 (indexing) 이전 글에서는 filter(행 추출), select(열 추출)를 통해 데이터를 추출했었습니다2024.07.04 - [R/기초] - dplyr 패키지 이용하기 - %>% 파이프라인 연산자% 파이프라인 연산자" data-og-description="파이프라인 연산자 %>%  : 단축키는 ctrl + shitf + m R의 dplyr 패키지는 데이터 처리와 분석을 위한 강력한 도구특히 파이프라인 연산자 %>%를 사용하여 직관적이고 효율적인 코드 작성이 가능 dplyr 함" data-og-host="d22pinsights.tistory.com" data-og-source-url="https://d22pinsights.tistory.com/5" data-og-url="https://d22pinsights.tist.. 2024. 7. 10.
R dplyr 패키지 이용하기 - %>% 파이프라인 연산자 파이프라인 연산자 %>%  : 단축키는 ctrl + shitf + m R의 dplyr 패키지는 데이터 처리와 분석을 위한 강력한 도구특히 파이프라인 연산자 %>%를 사용하여 직관적이고 효율적인 코드 작성이 가능 dplyr 함수기능filter()행추출select()열(변수)추출arrange()정렬 : 기본값은 오름차순mutate()변수 추가summarise()통계치 산출group_by()집단별로 나누기left_join()데이터 합치기(열)bind_rows()데이터 합치기(행) 파이프라인 연산자 %>%dplyr 패키지에서는 파이프라인 연산자 %>%를 사용하여 함수들을 연결할 수 있습니다.이를 통해 데이터 처리 과정을 단계별로 작성할 수 있어 코드의 가독성과 유지보수성이 높아집니다.파이프라인 연산자 %>%는 .. 2024. 7. 8.
R 기초문법 - 변수명 수정 rename, 조건문 ifelse dplyr 패키지 설치rename()을 사용하기 위해서는 먼저 "dplyr"패키지를 설치해야함install.packages("dplyr") #dplyr 설치library(dplyr) #dplyr 로드 활용할 데이터 생성데이터 활용할 때는 원본을 복사해서 쓰기틀려도 원본은 살아있으면 다시 시작하면 되니까~# 샘플 데이터 생성df_raw  변수명 바꾸기 rename()# 변수 이름 변경df_new rename( 데이터이름, 바꿀 이름 = 바꾸기 전 이름)바꿀 이름 df_new var1 v21 1 22 2 33 1 2var2 에서 v2로 변수명이 바뀜! 혼자 해보기 5장 19pmpg 데이터의 변수명은 긴 단어를 짧게 줄인 축약어로 되어있습니다. cty 변수는 도시.. 2024. 7. 8.