Data Analysis 37

데이터 분석가가 갖추어야 할 능력

데이터 과학자/분석가가 갖추어야 할 능력 실제적인 문제를 통계적으로 표현 컴퓨터 도구를 사용하여 시각화와 데이터 가공과 모형화 2를 이용하여 실제적인 언어로 의미있는 결과 도출 (+) 다른 사람들과 협업할 수 있는 태도. 문서나 말로 협업자들과 대화할 수 있는 소통 능력 추가로 적었던 저 소통능력이 데이터 분석가에게는 가장 많이 요구되는 핵심적 역량이 아닐까 생각된다. 데이터 분석일은 타부서와 긴밀한 협력이 필요한 프로젝트도 많으며, 데이터 분석이라는 스킬/툴을 가지고 도출한 결과를 바탕으로 의사결정권자들을 설득하는 직업이기 때문

Data Analysis 2021.06.03

빅데이터와 데이터 과학

주니어 데이터 분석가/과학자로 전직을 준비할 때, 다양한 분석 기법이나 분석 관련 업무 경력 및 데이터 해석력에 대한 질문도 많지만 우리가 흔히 사용하는 업계 용어에 대해 자신이 내린 정의에 대해 물어보기도 한다. 그 관점에서 '빅데이터'와 '데이터 과학'을 정의해보고자 한다. 빅데이터 Big data 의 정의 빅데이터는 단순히 대용량 데이터를 지칭하는 용어이기도 하지만, 미국의 유명 IT 컨설팅업체인 가트너 Gartner Inc.에 따르면 빅데이터는 3V로 정의할 수 있다. ## 빅데이터의 3V 1. High-Volume 대용량의 데이터 규모 (데이터의 기하급수적인 성장) 2. High-Velocity 빠른 입출력 속도 (데이터의 가용성) 3. High-Variety 다양성 (데이터의 정보화) 빅데이터..

Data Analysis 2021.06.02

[Google Colab] 구글 코랩 팁과 환경 설정 방법

구글 코랩이란? Google Colab (Google Colaboratory) 웹 브라우저에서 무료로 파이썬 프로그램을 테스트하고 저장할 수 있는 서비스. 클라우드 기반의 주피터 노트북 개발 환경. (구글 어카운트 - 구글 클라우드와 연동하여 사용) Google Colaboratory colab.research.google.com - 왜 사용하는가? 대용량 데이터를 가지고 머신러닝을 수행할 경우 컴퓨터 사양이 중요하다. 구글 코랩은 구글에서 제공하는 클라우드 환경, GPU에서 코드를 무료로 실행할 수 있게 해준다. - 주의점 나의 개인 로컬에서 돌리는 것이 아니기 때문에 데이터를 로컬 패스로부터 직접 가져올 수 없다. 구글 어카운트 및 구글 클라우드와의 연동이 필요하다. - 팁 Windows 사용자의 경..

인공지능과 머신러닝, 딥러닝의 정의

인공지능 Artificial Intelligence 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술 머신러닝 Machine Learning 규칙을 일일이 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야. 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야 - 대표적인 라이브러리 : 사이킷런 scikit-learn 딥러닝 Deep Learning 머신러닝 알고리즘 중에서 "인공신경망"을 기반으로 한 방법들을 통칭한 것 - 대표적인 라이브러리 : 구글 텐서플로우, 페이스북 파이토치

[R] tapply 함수 : 그룹별 합계 및 평균 구하기

tapply() : Apply a Function Over a Ragged Array "그룹별"로 각 자료값에 "함수를 적용"하는, apply 계열 함수 → 저장된 데이터를 주어진 기준에 따라 그룹으로 묶은 뒤, 각 그룹에 함수를 적용하고 그 결과를 (배열로) 반환한다 tapply(X, INDEX, FUN = NULL, ..., default = NA, simplify = TRUE) ✔︎ X : 평균을 구할 변수 ✔︎ INDEX : 그룹 변수 - 데이터를 그룹으로 묶을 기준이 되는 index ✔︎ FUN : 평균을 구할 함수 - 각 그룹마다 적용할 함수 [예제 1] 1부터 10까지의 수 중에서 3으로 나누었을 때 나머지가 1인 값 [TRUE] 1 + 4 + 7 + 10 = 22 [FALSE] sum(1:..

Data Analysis/R 2020.07.08

[R] rep() 함수

Replicate Elements of Vectors and Lists rep replicates the values in x. It is a generic function, and the (internal) default method is described here. -> rep는 x에 있는 값들을 반복한다. Replicate의 사전전 의미 : 자기 복제를 하다 즉, rep() 함수는 숫자나 변수의 값을 time 인자에 지정하는 횟수만큼 replicate (반복)한다. > rep(1:5) [1] 1 2 3 4 5 > rep("Apple", time = 3) [1] "Apple" "Apple" "Apple > rep(1:3, each=2) [1] 1 1 2 2 3 3 rep 함수 내에는 time 인자와 ..

Data Analysis/R 2020.07.06

데이터베이스 튜닝

데이터베이스 애플리케이션, 데이터베이스 자체나 운영체제 등의 조정을 통하여 데이터베이스 시스템의 성능을 향상시키는 작업을 말한다. 데이터베이스의 튜닝이 필요한 이유는 데이터베이스 시스템 운영 중에 다양한 애플리케이션의 도입과 데이터의 대용량화로 인해 데이터베이스 시스템의 성능이 저하될 수 있기 때문이다. 데이터베이스 튜닝을 수행하면 데이터베이스를 활용하는 시스템의 안정과 사용자의 만족, 관리자의 관리 능력을 향상시키는 데 기여할 수 있다. 한편 데이터베이스 서버에 문제가 발생할 시 하드웨어를 교체하지 않고 인덱스 설정, 키 배치, 프로시저 이용 등의 튜닝만으로도 10배 이상 개선효과를 줄 수 있다. 데이터베이스 튜닝은 투자한 비용에 비해서 탁월한 효과를 거둘 수 있다는 점에서 큰 주목을 받고 있다.[네이..

Data Analysis/SQL 2019.03.05

IDENTITY 초기화

오라클의 SEQUENCE와 유사한 개념인 IDENTITY 이걸 설정해두면, 테이블에 데이터 입력시 에러가 걸리거나 잘못 입력해서 지우거나했을 때, 그 때도 사실상 IDENTITY가 카운트되어 증가해버리기 때문에 실데이터의 SEQUENCE를 SERIAL하는 것이 아니게 된다.이게 신경쓰일때 IDENTITY를 초기화해주는 방법 # 테이블 데이터 입력 실수 또는 삭제 후 다시 입력시 identity 값이 증가된걸 되돌리는 방법 DBCC CHECKIDENT('테이블명', RESEED, 초기값); USE tableDB;DBCC CHECKIDENT('buyTbl');DBCC CHECKIDENT('buyTbl', RESEED, 0); -- 다시 identity카운트 1부터 시작

MS SQL의 GO 의 의미

습관적으로 쓰는 GO 의 의미를 정확히 정의해보자. 1. GO 를 쓰는 이유 MS SQL에서 Go는 일괄처리batch의 단위라고 볼 수 있다. 매번 한줄 한줄 명령어를 실행할 때마다 데이터베이스에 접속해서 왔다갔다하면 처리시간도 많이 걸리고 효율적이지 못하다. 따라서 큰 덩어리 단위로, 묶음 단위로 처리할 것을 묶어서 보내주는 batch라는 개념이 나오게 된다. GO는 그 구분점! 예를 들어, CREATE TABLE 문을 실행해서 테이블을 만들었다고 하자. 그런데 이 밑에 바로 INSERT문을 사용해서 해당 테이블에 데이터를 넣으면 에러가 나올 것이다.일괄처리로 한번에 처리하려 하는데 테이블만드려하는데 옆에선 아직 생성중인 테이블에 바로 데이터 넣으려고하니까 2. GO 의 분류 독립적인 명령어로써 SQL..