Data Analysis

데이터 과학의 업무 프로세스 및 데이터 분석 실무 이야기

AubreyJeong 2021. 6. 4. 10:00

데이터 과학의 업무 프로세스

  1. 문제 정의 problem definition
    현실의 구체적인 문제를 명확하게 표현하고 통계적, 수리적 언어로 번역하는 작업

  2. 데이터 정의 data definition
    변수variable, 지표metric 등을 정의한다.

  3. 실험 계획 design of experiment 혹은 표본화 sampling
    - 어떤 처리의 효과를 알아내기 위한 통제실험 randomized controlled experiment
    - 모집단을 대표하는 표본을 얻기 위한 표본화 sampling→ 필요한 정확도와 검정력을 얻기 위한 표본 크기가 중요

  4. 데이터 취득 data acquisition
    다양한 형태의, 다양한 시스템에 저장된 원데이터를 분석 시스템으로 가져오는 활동

  5. 데이터 가공 data processing, data wrangling = 데이터 변환
    데이터를 분석하기 적당한 표 형태(column : variables. row : observations)로 가공하는 작업

  6. 탐색적 분석 exploratory data analysis과 데이터 시각화 data visualization
    시각화와 간단한 기초 통계량 계산을 통하여 데이터의 패턴 발견하고 이상치 점검하는 분석

  7. 모형화 modeling
    모수 추정, 가설검정 등의 활동과 모형분석, 예측분석 등을 포괄

  8. 분석 결과 정리 reporting
    분석 결과를 현실적인 언어로 이해하기 쉽도록 번역해내는 작업

 

실제 업무에서는 대부분의 시간을 소요하는 곳은 데이터 추출 및 가공 부분이다. 

 

요즘은 Azure나 AWS의 클라우드 서비스에서 데이터 통합 관리 및 분석/시각화를 위해 데이터베이스를 구축하는 경우가 많지만, 데이터 보완 관리나 재정상의 이유로 여전히 온프레미스 DB안에서 데이터 저장, 관리하고 있는 회사도 많다.  이 경우 주로 사업부에 따라 데이터베이스를 관리하게 되어 분석을 위한 통합 데이터베이스가 구축되어있지 않은 경우가 더러 있기 마련.

 

예를 들어 영업의 활동 데이터를 바탕으로 계약 성사율이 높은 잠재고객을 찾는 분석을 하고자 한다.

이때 분석에 필요한 데이터가 다음과 같이 존재하며 각 데이터베이스에 대한 열람 권한은 제한되어 있는 경우가 많다. (하나의 안건에 대한 영업 활동 데이터는 AA에, 담당 영업에 대한 상세 정보는 BB에, 기업에 대한 재무정보는 CC에, 기존 계약 고객에 대한 정보는 DD에 존재) 

데이터베이스로의 접속 권한을 신청하는 것부터 직접 각각의 데이터 베이스에서 필요한 변수가 데이터를 추출해내서 분석에 적합한 형태로 (하나의 데이터 프레임으로) 가공하는 작업의 업무의 60~70%를 차지한다. 

 

하지만 그럼에도 불구하고 데이터 가공 스킬보다 더 중요한 것은 역시 문제 정의 및 결과 해석 능력일 것이다. 

주어진 문제에 대해서 습득할 수 있는 데이터를 바탕으로 설득력 있는 가설을 세우고 변수를 그에 맞게 정의하는 것.

그리고 사용한 분석 모델과 결과를 바탕으로 현실의 문제를 재해석하는 능력.

 

혹자는 말한다 데이터 분석의 문제의 80%는 전에 머신러닝 모델의 20%에 지나지 않는 가장 기본적인 모델로 해결 가능하다고.

나는 대부분의 사업회사에서 실행하고 있는 데이터 분석 일에 해당하는 말이라고 생각한다. 보다 일반화 가능하고 분석 실무자가 아닌 사람들도 이해하기 쉬운 심플한 모델이 더 선호되는 경우가 많기 때문이다. 특히 데이터 과학자가 아닌 데이터 '분석가'로서는 데이터에 대한 이해를 바탕으로 한 문제 정의 능력과 해석 능력이 보다 실용성 있는 결과를 이끌어낸다고 생각한다. 

 

물론 자사에 적합한 최신형 머신러닝 모델을 연구하고 발 빠르게 변화해가야 하는 IT업계에서는 확실히 더 엔지니어링적인 스킬이나 복잡한 머신러닝/딥러닝 모델에 대한 지식을 요구한다. (이는 면접에서도 확인할 수 있는데, 필자가 내정을 받았던 IT기업의 Data Lab과의 면접에서는 최근에 가장 화제가 되고 있는 머신러닝 모델들의 장단점과 각 계수에 대한 상세한 내용 및 특정 딥러닝 모델의 베이스가 되는 수식에 대한 설명이 요구되었다.)

 

'Data Analysis' 카테고리의 다른 글

데이터 분석가가 갖추어야 할 능력  (0) 2021.06.03
빅데이터와 데이터 과학  (0) 2021.06.02
DS 관련 팁 (1) 구인 구직 관련  (0) 2019.01.22