전체 글 65

[SAS] PUT, INPUT

숫자형 -> 문자형 : PUT PUT(source, 숫자형format) 문자형 -> 숫자형 : INPUT INPUT(source, 숫자형informat) proc format; value GENDERF 1="남성" 2="여성"; /* GENDERF라는 새로운 포맷 생성*/ run; data _PUT_INPUT; input GENDER1 DATE1 $9.; /* GENDER1(숫자형), DATE1(9자리의 문자형)*/ GENDER2 = put(GENDER1, GENDERF.); /* 숫자형 GENDER1 -> 문자형GENDERF 형식으로 */ DATE2 = input(DATE1, DATE9.);/* DATE1이라는 문자를 DATE9.(9자리 DDMMMYYYY)으로 변경 */ cards; 1 14MAR201..

[R] 자주 사용하는 패캐지와 데이터 경로 함수

# CRAN : The Comprehensive R Archive Network # R과 관련된 코드와 문서를 관리하는 웹 서버 네트워크, R과 패캐지들 등 다운로드 가능한 곳 # HDS : 자주쓰는 R 라이브러리 로딩 from dbook.R source("dbook.R") ?source() #Read R Code from a File, a Connection or Expressions # 패캐지 로드하여 사용할 준비 load.packages("stringr") # 문자열 다루는 것과 정규 표현식 관련 load.packages("ggplot2") # 시각화 load.packages("dplyr") # 데이터 핸들링 load.packages("tidyr") # 데이터셋의 레이아웃 load.packages(..

Data Analysis/R 2021.06.09

[R] 데이터 구조

R 데이터 구조 단일형 : 숫자형 또는 문자형과 같이 한가지 데이터 형태로만 구성된 데이터 다중형 : 여러가지 데이터 형태로 구성된 데이터 구분 1차원 2차원 n차원 단일형 벡터 행렬 배열 다중형 리스트 데이터 프레임 1. 벡터 vector 데이터 구조의 가장 기본으로 1차원으로 구성되어 있는 데이터구조 형태가 다른 원소를 담을 경우엔 자료형 강제 변환coercion이 수행된다. ex_vector1

Data Analysis/R 2021.06.08

[R] 파일 불러오기

## 데이터 불러오기 # R 자체 있는 데이터셋 가져오기 # See the data already we have help(package='datasets') # see the list of dataset R has data() # see the list of data currently loaded from current environment data(package='ggplot2') # see the list of dataset in the package named ggplot2 # readxl 패캐지 설치 및 라이브러리 불러오기 install.packages("readxl") library(readxl) # 데이터 경로 설정 setwd("/Users/seohyeonjeong/workspaceR/Hell..

Data Analysis/R 2021.06.08

[SAS] 레코드, 행의 수 세기

전체 SAS obs 개수, 데이터 레코드(=행)의 개수 세기 : PROC SQL 이용 데이터 프로시저 PROC DATA로도 가능하지만 PROC SQL을 이용하는편이 훨씬 간단하다. 전체 데이터 정보를 보기 위한 PROC CONTENTS로도 확인가능하다! PROC SQL; CREATE TABLE count AS SELECT COUNT(*) AS cnt FROM test; QUIT; DATA count (KEEP = cnt); /* KEEP= : 변수cnt만을 데이터셋으로 보존 */ * 데이터 세트 "test"를 불러온다; SET test END = last; /* END = : 지막 obs를 읽어들일 때의 동작 설정 */ * RETAIN 문은 이전 obs 변수의 cnt 값을 유지; RETAIN cnt 0;..

[SAS] proc contests, proc freq 데이터셋 확인하기

SAS data library/data set 요약 정보 보기 | proc contents proc contents data=(라이브러리이름.)데이터셋이름 options; # summary information about the contents of a dataset, including The variables' names, types, and attributes (including formats, informats, and labels) NODS(NODETAILS) 각 file의 상세정보를 출력하지 않을 때. _ALL을 지정할 때만 지정 가능 position 변수명을 알파벳 순서와 SAS dataset에 들어있는 순서 (Program Data Vector)로 출력 varnum 변수명 SAS datase..

[R] R 패캐지와 라이브러리

R 패캐지 (R package) 여러 함수를 상자 하나에 담아 둔 것, 특수한 목적의 로직들과 코드들의 집합 * 함수 Function : 어떤 데이터 값을 미리 정해둔 공식에 따라 처리하여 특정한 결과로 도출해주는 기능 패키지 안에는 활용 가능한 함수(function)들과 재현가능연구를 위한 빌트인 예제 데이터셋 객체, 패키지 사용 방법에 대한 개요 및 설명서(Vignette), 함수 도움말(R document) 파일들로 보통 구성되는 편이다. 패캐지를 사용하기 위해서는 library()함수로 해당 패캐지를 로드해야한다. * 라이브러리 library : 패캐지가 저장되어 있는 디렉토리 # 패캐지 설치 install.packages("패캐지명") # 설치한 패캐지 불러오기(로드) library(패캐지명) ..

Data Analysis/R 2021.06.06

[R] R 스튜디오 설치와 기본 환경 설정

R을 처음 시작했을 때, 프로그래밍에 대한 지식에 전무했던 필자는 "R을 설치했는데 R Studio도 설치하래. 그냥 R Studio만 설치하면 안 돼?"라고 생각했었다. 지금부터 R이란 언어가 무엇이며 다른 프로그래밍 언어와 어떤 차이점을 가지고 있는지 그리고 환경 설정까지 알아보고자 한다. R이 도대체 뭐야? R은 통계학자가 데이터 분석용으로 고안해서 만든 "무료" 프로그램[Open Source Edition]이다. (실제 유료버전도 있지만 무료로도 충분하다) 데이터 분석은 데이터 과학의 붐과 함께 갑자기 뿅 등장한 업무가 아니다. 과거엔 통계 데이터 관리, 통계 분석이란 이름으로 존재했던 일이다. 이를 위해 옛날부터 SPSS, SAS, Stata와 같은 데이터 분석용 프로그램들이 많이 사용되어 왔다..

Data Analysis/R 2021.06.05

데이터 과학의 업무 프로세스 및 데이터 분석 실무 이야기

데이터 과학의 업무 프로세스 문제 정의 problem definition 현실의 구체적인 문제를 명확하게 표현하고 통계적, 수리적 언어로 번역하는 작업 데이터 정의 data definition 변수variable, 지표metric 등을 정의한다. 실험 계획 design of experiment 혹은 표본화 sampling - 어떤 처리의 효과를 알아내기 위한 통제실험 randomized controlled experiment - 모집단을 대표하는 표본을 얻기 위한 표본화 sampling→ 필요한 정확도와 검정력을 얻기 위한 표본 크기가 중요 데이터 취득 data acquisition 다양한 형태의, 다양한 시스템에 저장된 원데이터를 분석 시스템으로 가져오는 활동 데이터 가공 data processing,..

Data Analysis 2021.06.04