본문 바로가기

R8

R 포맷 변경법(reshape2 패키지), wide format <-> long format Wide format: 데이터 분석에서 사용하는 표준적인 형태 흔히 보던 가로(열)이 세로(행)보다 넓찍한 형태가 특징이다. Long format: 특정 패키지에서 요구하는 데이터 형태 ggplot2 등 특수한 상황에서 요구된다. 세로로 긴 형태가 특징. if (!require(reshape2)) { install.packages("reshape2") ; library(reshape2) } 이 포맷변경에 필요한 reshape2 패키지를 깔아주자. 1. melt(): Wide -> Long melt(원본데이터, 고정칼럼) melt(data = airquality, id.vars= c("month","day")) -----------------------------------------------------.. 2022. 12. 1.
R 선형회귀, KNN회귀 모형 그리기 (lm(), FNN패키지) linear regression: 선형 회귀 - 독립 변수와 종속 변수 사이의 관계식(함수)를 찾아 예측값을 나타냄 - 추후 새로운 데이터를 넣었을때 관계식에 따라 예측값을 알 수 있음 k-nearest neighbors regression: KNN회귀 - 맞추고자 하는 데이터(새로운 데이터)를 기존에 있는 데이터에서 비슷한 값들을 찾아서 Target값의 평균(mean)내는 것 - 분류되지 않은 새로운 데이터에서 가장 가까운(nearest neighbor) 이웃을 k개 만큼 찾아, 해당 분류에 맞는 것으로 편입시키는 것. - 한마디로, 새로운 데이터를 기존에 분류된 집단 중 어디로 편입시킬 지를 구하는 것 1. 선형회귀 시각화 (lm(): linear model 함수 이용) 1-1. 분석하려는 독립, 종.. 2022. 10. 27.
R plot함수 카카오 화재로 티스토리 접속 안되는 사이에 워드에 막 적어놨던 것 그대로 옮긴 것임. 세세한 설명, 사진이 없으니 참고 바랍니다. 1. plot() plot(x축, y축, ...) plot(mpg~disp, data = mtcars, xlab = "displacement", ylab = "mile/gallon", main = "scatter plot", pch = 20, col = 'darkblue') type: p(점), l(선), b(점과 선), s(계단형) ex) type = ‘p’ * type = ‘n’: 빈 plot 생성 lty: 선 옵션 ex) lty = 2 pch: 점 옵션 ex) pch = 1 col: 그래프 색상 변경 ex) col = “aquamarine1” xlab, ylab(축 이름.. 2022. 10. 27.
R 시각화(그래프 그리기) 전 준비 시각화 연습하라고 R에는 다양한 데이터가 내장되어 있다. data() 입력하면 R에 내장된 데이터와 설명을 볼 수 있다. 1. 데이터 호출 내장 데이터에 있는 mtcars로 실습을 할 것이다. 많은 수업에서 첫 데이터 가공으로 mtcars를 선택하는데 이유는 잘 모르겠다.(데이터 정리가 잘 되어있나?) mtcars는 'Motor Trend Car Road Tests'라고 써져있는데... 대충 자동차에 관한 데이터다. ?mtcars 변수에 대한 설명, 안에 무슨 데이터가 있는지 attach(mtcars) mtcars안 변수명을 mtcars$mpg 등 일일이 알려줄 필요없이 변수명만 부르기 가능 detach(mtcars) 변수명만 부르기 해제 2. 산점도 그리기 plot(mpg ~ disp, data = m.. 2022. 10. 27.
R subset, which함수 & 패키지 다루기(엑셀 등) 원래 시각화 들어가면서 R 시작하기를 끝내려고 했는데, 이러다간 시작만하고 나가리 될 것 같아 좀 바꿔봤다. 다음번엔 진짜 시각화 파트를 할 것이다. 1. subset(조건) R 시작하기1에서 필터링하는 것으로 n[조건]을 배웠다. subset()도 같은 기능을 한다. subset과 n[조건]의 차이점으론 NA를 무시한다는 것이다. * NA는 데이터가 존재하지 않을때를 표현 x = c(6, 1:3, NA, 12) 일때 x[x>5] [1] 6 NA 12 ----------------- subset(x, x>5) [1] 6 12 2. is.na(조건) NA를 판별하는 함수다. 데이터를 가공할때 NA값을 미리 파악해서 제거하거나 임의값을 넣을때 유용하게 사용한다. x [1] 6 1 2 3 NA 12 is.na.. 2022. 10. 11.
R 시작하기3 - list, Factor, 데이터 타입 바꾸기(casting) Environment 창 모두 지우기 = rm(list=ls()) 특정 변수 지우기 = rm(변수) 1. List list는 여러 객체를 하나로 묶은 것이다. type에 제약이 있던 matrix, dataframe과 달리 list는 객체를 여러개 묶은 상위 거대 객체이다. j = list(names='Joe', salary = 55000, union = TRUE) ---------------------------------------------------- j$names [1] "Joe"-> character vector(문자형 벡터) $salary [1] 55000-> numeric vector(수치형 벡터) $union [1] TRUE-> logical vector(논리형 벡터) 1-1. List안의.. 2022. 10. 5.