Data Analysis/R 10

[R] 데이터 형태와 데이터 형변환

R 데이터 형태 = 데이터 타입(자료형) NA : Not Available → 사용 불가능. 데이터에 값이 존재하지 않음 - NULL은 값이 정의되지 않아 아예 없는 것. NA는 정의되지 않은 값 > A_score A_score [1] 90 80 43 50 NA > B_score B_score [1] 90 50 98 59​ -Inf 및 Inf : 음과 양의 무한대 NaN : Not a Number → 수의 연산이 불가능한 경우(0/0, Inf/Inf 등) True or False → T, F로도 표현 가능 > x y x [1] TRUE FALSE > y [1] TRUE FALSE > z Error: object 'z' not found > z z Z Error: object 'Z' not found > ..

Data Analysis/R 2021.06.12

[R] 자주 쓰는 단축키 모음

자주 사용하는 R 단축키 모음 선택된 블록 주석처리하기 : ctrl[cmd] + shift + C Ctrl + Shift + c : 한 줄 주석처리 Ctrl + Shift + n : 새 스크립트 창 열기 Script에서 코드 실행 (커서를 코드 처음이나 끝에 위치시킨 상태로) : ctrl + Enter Ctrl + 1 : script 창으로 이동 Ctrl + 2 : console 창으로 이동 Ctrl + L : 콘솔 창 지우기 Ctrl + S : 스크립트 저장 Ctrl + W : 스크립트 창닫기 Ctrl + Shift + M : %>% Alt + - : keyboard shortcuts help( Alt + Shift + K) 단축키 직접 설정하기 : Tools > Modify KeyBoard Short..

Data Analysis/R 2021.06.10

[R] 프로젝트 관리

각각의 R 섹션은 프로젝트로 관리된다 → R작업에서 항목별로 작업에 따라 별개로 저장한다. 이 때 파일들을 각각의 프로젝트 별로 grouping해서 관리설정한 디렉토리 안에 프로젝트명.RProj 파일이 형성되고, 여기에 작업 내용이 저장된다. e.g. New project → New Directory → New Project ... → 프로젝트이름 설정 프로젝트 안에 R Script 추가해서 이용하는걸 추천 e.g. File → New File → R Script와 동일 프로젝트를 저장하면 분석 중인 소스와 데이터 등 모든 것이 저장됨 → 추후에는 그냥 불러와서 별도의 설정없이 이어가면 됨.

Data Analysis/R 2021.06.10

[R] 자주 사용하는 패캐지와 데이터 경로 함수

# CRAN : The Comprehensive R Archive Network # R과 관련된 코드와 문서를 관리하는 웹 서버 네트워크, R과 패캐지들 등 다운로드 가능한 곳 # HDS : 자주쓰는 R 라이브러리 로딩 from dbook.R source("dbook.R") ?source() #Read R Code from a File, a Connection or Expressions # 패캐지 로드하여 사용할 준비 load.packages("stringr") # 문자열 다루는 것과 정규 표현식 관련 load.packages("ggplot2") # 시각화 load.packages("dplyr") # 데이터 핸들링 load.packages("tidyr") # 데이터셋의 레이아웃 load.packages(..

Data Analysis/R 2021.06.09

[R] 데이터 구조

R 데이터 구조 단일형 : 숫자형 또는 문자형과 같이 한가지 데이터 형태로만 구성된 데이터 다중형 : 여러가지 데이터 형태로 구성된 데이터 구분 1차원 2차원 n차원 단일형 벡터 행렬 배열 다중형 리스트 데이터 프레임 1. 벡터 vector 데이터 구조의 가장 기본으로 1차원으로 구성되어 있는 데이터구조 형태가 다른 원소를 담을 경우엔 자료형 강제 변환coercion이 수행된다. ex_vector1

Data Analysis/R 2021.06.08

[R] 파일 불러오기

## 데이터 불러오기 # R 자체 있는 데이터셋 가져오기 # See the data already we have help(package='datasets') # see the list of dataset R has data() # see the list of data currently loaded from current environment data(package='ggplot2') # see the list of dataset in the package named ggplot2 # readxl 패캐지 설치 및 라이브러리 불러오기 install.packages("readxl") library(readxl) # 데이터 경로 설정 setwd("/Users/seohyeonjeong/workspaceR/Hell..

Data Analysis/R 2021.06.08

[R] R 패캐지와 라이브러리

R 패캐지 (R package) 여러 함수를 상자 하나에 담아 둔 것, 특수한 목적의 로직들과 코드들의 집합 * 함수 Function : 어떤 데이터 값을 미리 정해둔 공식에 따라 처리하여 특정한 결과로 도출해주는 기능 패키지 안에는 활용 가능한 함수(function)들과 재현가능연구를 위한 빌트인 예제 데이터셋 객체, 패키지 사용 방법에 대한 개요 및 설명서(Vignette), 함수 도움말(R document) 파일들로 보통 구성되는 편이다. 패캐지를 사용하기 위해서는 library()함수로 해당 패캐지를 로드해야한다. * 라이브러리 library : 패캐지가 저장되어 있는 디렉토리 # 패캐지 설치 install.packages("패캐지명") # 설치한 패캐지 불러오기(로드) library(패캐지명) ..

Data Analysis/R 2021.06.06

[R] R 스튜디오 설치와 기본 환경 설정

R을 처음 시작했을 때, 프로그래밍에 대한 지식에 전무했던 필자는 "R을 설치했는데 R Studio도 설치하래. 그냥 R Studio만 설치하면 안 돼?"라고 생각했었다. 지금부터 R이란 언어가 무엇이며 다른 프로그래밍 언어와 어떤 차이점을 가지고 있는지 그리고 환경 설정까지 알아보고자 한다. R이 도대체 뭐야? R은 통계학자가 데이터 분석용으로 고안해서 만든 "무료" 프로그램[Open Source Edition]이다. (실제 유료버전도 있지만 무료로도 충분하다) 데이터 분석은 데이터 과학의 붐과 함께 갑자기 뿅 등장한 업무가 아니다. 과거엔 통계 데이터 관리, 통계 분석이란 이름으로 존재했던 일이다. 이를 위해 옛날부터 SPSS, SAS, Stata와 같은 데이터 분석용 프로그램들이 많이 사용되어 왔다..

Data Analysis/R 2021.06.05

[R] tapply 함수 : 그룹별 합계 및 평균 구하기

tapply() : Apply a Function Over a Ragged Array "그룹별"로 각 자료값에 "함수를 적용"하는, apply 계열 함수 → 저장된 데이터를 주어진 기준에 따라 그룹으로 묶은 뒤, 각 그룹에 함수를 적용하고 그 결과를 (배열로) 반환한다 tapply(X, INDEX, FUN = NULL, ..., default = NA, simplify = TRUE) ✔︎ X : 평균을 구할 변수 ✔︎ INDEX : 그룹 변수 - 데이터를 그룹으로 묶을 기준이 되는 index ✔︎ FUN : 평균을 구할 함수 - 각 그룹마다 적용할 함수 [예제 1] 1부터 10까지의 수 중에서 3으로 나누었을 때 나머지가 1인 값 [TRUE] 1 + 4 + 7 + 10 = 22 [FALSE] sum(1:..

Data Analysis/R 2020.07.08

[R] rep() 함수

Replicate Elements of Vectors and Lists rep replicates the values in x. It is a generic function, and the (internal) default method is described here. -> rep는 x에 있는 값들을 반복한다. Replicate의 사전전 의미 : 자기 복제를 하다 즉, rep() 함수는 숫자나 변수의 값을 time 인자에 지정하는 횟수만큼 replicate (반복)한다. > rep(1:5) [1] 1 2 3 4 5 > rep("Apple", time = 3) [1] "Apple" "Apple" "Apple > rep(1:3, each=2) [1] 1 1 2 2 3 3 rep 함수 내에는 time 인자와 ..

Data Analysis/R 2020.07.06