R14 R - 지도시각화(kormaps2014) : 대한민국 시도별 인구, 결핵 환자 수 단계 구분도 참고 : Do it! 쉽게 배우는 R 데이터분석 패키지 준비하기install.packages("stringi")devtools::install_github("cardiomoon/kormaps2014")library(stringi)library(kormaps2014)kormaps2014 패키지를 이용하면 대한민국의 지역 통계 데이터와 지도 데이터를 사용할 수 있다kormaps2014 패키지를 설치하기 위해, stringi, devtools패키지를 설치한 후 깃허브에서 kormaps2014를 다운로드해준다 대한민국 결핵환자 데이터 준비kormaps2014 패키지에는 지역별 결핵 환자 수에 대한 tbc 데이터가 있다# 결핵환자 데이터 준비changeCode(tbc)# 지도 데이터 준비changeCode(kor.. 2024. 7. 31. R - 지도시각화(ggiraphExtra) : 미국 주 별 강력 범죄율 참고 : Do it! 쉽게 배우는 R 데이터분석 단계 구분도- 지역별 통계치를 색깔의 차이로 표현한 지도- 인구나 소득 같은 특성이 지역별로 얼마나 다른지 쉽게 이해할 수 있다 미국 주별 강력 범죄율 데이터를 이용해 단계 구분도를 만들어보자 패키지 준비install.packages("mapproj")install.packages("ggiraphExtra")library(mapproj)library(ggiraphExtra)library(tidyverse)단계 구분도를 그리기 위해선 ggiraphExtra 패키지를 설치해야한다ggiraphExtra 패키지를 이용하기 위해선 mapproj 패키지가 있어야한다설치 후 library를 통해 불러와 줬다 미국 주별 범죄 데이터 준비head(USArrests)#현재 .. 2024. 7. 30. R - 그래프 살펴보기(텍스트 마이닝) 참고 : Do it! 쉽게 배우는 R 데이터분석텍스트 마이닝- 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법- 텍스트 마이닝을 통해 어떤 단어가 얼마나 많이 등장했는지 확인 가능 KoNLP 패키지 설치한글 텍스트의 형태소를 분석하기 위해서는 KoNLP라는 패키지를 설치해줘야한다# KoNLPinstall.packages("multilinguer")library(multilinguer)# JDKinstall_jdk()# 관련패키지install.packages(c("stringr","hash","tau","Sejong","RSQLite","devtools",type="binary"))# KoNLPinstall.packages("remotes")library(remotes)remotes::inst.. 2024. 7. 29. R - 그래프 살펴보기(ggplot2 - 선그래프, 상자그림) 참고 : Do it! 쉽게 배우는 R 데이터분석SQL만 하다가 R 까먹을까봐... R 그래프 스타투 library(ggplot2)그래프 그릴 때 사용하는 library 먼저 불러줬다 선그래프(line chart) - geom_line()- 시간에 따라 달라지는 데이터를 표현할 때 주로 이용- ex) 환율, 주가지수 등 경제 지수 같은 시계열 데이터 ggplot2 패키지에 들어있는 economics 데이터를 이용할 것이다economics 데이터를 살펴보면, date 열에 날짜 변수가 있는 걸 알 수 있다x축에는 시간을 나타내는 date, y축에는 실업자 수를 나타내는 unemploy를 지정하고 선 그래프를 그려보자ggplot(data=economics, aes(x=date, y=unemploy)) + ge.. 2024. 7. 27. R - 그래프 살펴보기(ggplot2 - 산점도, 막대그래프) 참고 : Do it! 쉽게 배우는 R 데이터분석그래프를 만들 떄 가장 많이 사용하는 패키지는 ggplot2이다library(ggplot2) ggplot2 문법 이해하기배경을 만들고, 그 위에 그래프 형태를 그리고, 마지막으로 축 범위, 색, 표식 등 설정을 추가하는 순서로 그래프를 만든다추가할 때는 (+) 더하기 연산자를 사용한다 산점도(Scatter plot) - geom_point()- 연속 값으로 된 두 변수의 관계를 표현할 때 사용library(ggplot2)mpg ggplot만 하면 x축, y축 배경이 그려진다ggplot(data = mpg, aes(x = displ, y=hwy)) + geom_point()+ 연산자를 통해 그래프 유형을 지정한다. 산점도는 geom_point()# x축 범위 .. 2024. 7. 13. R - 데이터 정체 [결측치, 이상치] 오늘도 Do it! 쉽게 배우는 R 데이터분석을 참고했습니다 결측치는 NA먼저 결측치가 포함된 데이터 프레임 생성df R에서는 결측치를 대문자 NA로 표기합니다NA 앞뒤에는 따옴표가 없습니다. 따옴표가 있다면 결측치가 아닌 영문자 "NA" 를 의미한다 결측치 확인하기 - is.na()is.na(df) #결측치 확인## sex score##[1,] FALSE FALSE##[2,] FALSE FALSE##[3,] TRUE FALSE##[4,] FALSE FALSE##[5,] FALSE TRUE결측치는 TRUE, 결측치가 아닌 값은 FALSE로 표시한다sex의 3행, score의 5행이 결측치이다 table(is.na(df)) #결측치 빈도 출력##FALSE TRUE ## 8 2table(.. 2024. 7. 12. 이전 1 2 3 다음