R을 처음 시작했을 때, 프로그래밍에 대한 지식에 전무했던 필자는
"R을 설치했는데 R Studio도 설치하래. 그냥 R Studio만 설치하면 안 돼?"라고 생각했었다.
지금부터 R이란 언어가 무엇이며 다른 프로그래밍 언어와 어떤 차이점을 가지고 있는지 그리고 환경 설정까지 알아보고자 한다.
R이 도대체 뭐야?
R은 통계학자가 데이터 분석용으로 고안해서 만든 "무료" 프로그램[Open Source Edition]이다.
(실제 유료버전도 있지만 무료로도 충분하다)
데이터 분석은 데이터 과학의 붐과 함께 갑자기 뿅 등장한 업무가 아니다. 과거엔 통계 데이터 관리, 통계 분석이란 이름으로 존재했던 일이다. 이를 위해 옛날부터 SPSS, SAS, Stata와 같은 데이터 분석용 프로그램들이 많이 사용되어 왔다. 우리에게 끔찍하고 친숙한 Excel 역시도 기본적인 데이터 분석에 있어서는 건재하다. 최근에 가장 핫한 개발 언어인 Python은 데이터 분석용으로도 많이 사용되고 있다. 이 언어들에 비해 R의 장점은 무엇이길래 아직까지 사용되고 있는 것일까?
R의 특징 및 장점
1. 무료로 사용할 수 있다는 것 + 사용자 커뮤니티가 활발하다.
필자는 업무에서 다양한 툴을 사용하지만, 실제로 가장 많이 사용하는건 SAS이다.
SAS는 옛날부터 통계분석으로 유명한 언어이며 대용량 처리에 강한 언어이다. 하지만 가장 큰 문제점은 일단 가격.
학생용 어카운트도 몇백만원이 우습게 넘어가는 SAS는 입문자나 개인 유저들이 사용하기엔 무리가 있다. 현재 회사에서도 경비를 삭감하기 위해서 금융과 의료 업계가 아닌 회사들은 대부분 Python과 R로 갈아타고 있는 추세이다.
R은 무료이기 때문에 학습자들이 쉽게 접할 수 있으며, 커뮤니티도 활발해 학습에 필요한 정보도 쉽게 얻을 수 있다. 기업 입장에서도 R에 능숙한 구직자들을 쉽게 구할 수 있어서 이점이 있다.
2. 통계학자들이 고안한 프로그램이라 통계 분석에 보다 특화된 언어이다.
통계 분석에 활용할 수 있는 패캐지(유용한 함수들의 묶음)이 존재하며,
통계 분석 특히 그래프 형태의 시각화에 있어서는 Python보다 뛰어나다.
Python도 사실 분석용 패캐지가 다수 존재하며 데이터 분석에 있어서 R과 Python의 격차는 점점 줄어들고 있다. 또한 Python은 개발언어로 각광받고 있는 언어로 범용성, 확장성이 우수하다. 하지만 그 말은 반대로 말하면 분석에 특화된 언어는 아니라는 것. 필자로서는 개발자 출신인 사람이라면 파이썬을 추천하지만, 통계/수리를 전공한 IT와는 친숙하지 않은 사람이라면 R로 시작하는 걸 추천한다. (결국은 실무에서는 필자처럼 다 써야할 수도 있다.)
R의 단점
1. 범용 프로그래밍 언어(파이썬, 자바 등)에 비해 처리 속도가 느리다.
2. 분석에만 특화되어 있어서 대규모 IT 서비스 개발에 접목하기 어렵다.
R을 설치하고 실행하기
1. CRAN Mirrors 웹 페이지로 이동하기(국가 선택)
2. 운영체제별 설치 파일 다운하기 → R 최신 버전으로 다운
(macOS환경에서 R을 설치하려면 사용하는 masOS 버전에 맞는 R버전을 선택!)
R 스튜디오 설치와 기본 환경 설정하기
R Studio는 R을 편리하게 사용할 수 있도록 돕는 통합 개발 환경이다.
- 통합 개발 환경(Integrated Development Environment, IDE)은 코딩, 디버그, 컴파일, 배포 등 프로그램 개발에 관련된 모든 작업을 하나의 프로그램 안에서 처리하는 환경을 제공하는 소프트웨어
R만 설치하면 그걸로도 R 프로그래밍의 사용은 가능하지만 명령을 한 줄씩 입력하고 실행해야 해서 상당히 불편하다.
코드를 작성하다보면 한줄로 끝나지 않는 경우도 많고, 임포트한 변수들을 Status도 볼 수 없다.
이런 걸 해결해주는 소프트웨어가 R Studio이다.
1. R Studio 웹 사이트에 접속한 후 [R Studio Desktop] → [DOWNLOAD RSTUDIO DESKTOP]버튼을 클릭
https://www.rstudio.com/products/rstudio/download/
2. 운영체제별 설치파일을 선택한 후 다운로드
'Data Analysis > R' 카테고리의 다른 글
[R] 데이터 구조 (0) | 2021.06.08 |
---|---|
[R] 파일 불러오기 (0) | 2021.06.08 |
[R] R 패캐지와 라이브러리 (0) | 2021.06.06 |
[R] tapply 함수 : 그룹별 합계 및 평균 구하기 (0) | 2020.07.08 |
[R] rep() 함수 (0) | 2020.07.06 |