ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [B.D.A x 영진닷컴] ADsP 셋째주 스터디
    ADsP스터디 2024. 4. 11. 17:16

    3주차(2024.04.09 ~ 2024.04.15)

     

    p.66 ~ p.113

    [PART 02]

    chapter 01 데이터 분석 기획의 이해, chapter 02 분석 마스터 프랜

     

    스터디 느낀점 :

    이 전 주차에 비하여 단순 암기인 개념의 내용이 많은 주였기에 주요 내용을 확인하고 축약하는 과정이 더욱 중요했던 거 같다.

     

    스터디 내용:

    CHAPTER 01 데이터 분석 기획의 이해

    01. 분석 기획 방향성 도출

    1) 분석 기획 : 실제 데이터 분석을 수행하기 전에 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업으로, 어떤 목표(what)를 달성하기 위해 어떤 데이터를 가지고 어떤 방식(how)으로 수행할지에 대한 일련의 계획을 수립하는 작업으로서, 성공적인 분석 결과를 도출하기 위한 중요 사전 작업이다.

     

    - 분석주제는 분석의 대상(what), 분석의 방법(how에 따라 4가지로 구분한다.

    1. 최적화 : 분석 대상이 무엇인지 인지하고 이해하며(Known), 분석 방법 또한 알아(Known) 현 문제를 최적화의 형태로 수행한다.

    2. 솔루션 : 분석 대상이 무엇인지 인지하고(Known) 있지만, 분석 방법을 알지 못하는(Unknown) 경우에는 솔루션을 찾는 방식으로 과제를 수행한다.

    3. 통찰 : 분석 대상이 불분명하고(Unknown), 분석 방법을 알고 있는(Known) 경우에 사용하는 방법이다.

    4. 발견 : 분석 대상과 분석 방법을 모두 모르는(Unknown) 경우에는 발견을 통해 분석 대상 자체를 새롭게 도출한다.

     

    2) 분석 기획 방안 및 고려사항

    - 목표 시점별 분석 기획 방안 : 과제를 빠르게 수행하는 과제 중심적인 접근 방식의 단기 방안과 장기적인 마스터 플랜 단위의 방안으로 구분할 수 있으며 단기방안과 중장기 방안을 융합적으로 적용하는 것이 가장 바람직하다.

    구분 과제 중심적인 접근방식의 단기 방안 마스터 플랜 단위의 중장기 방안
    1차 목표 - Speed & Test
    - 과제 단위로 당면한 분석 주제 해결
    - Accuracy & Deploy
    - 장기적 마스터 플랜을 세워 지속적인 분석 문화를 내재화
    과제의 유형 - Quick-Win 방식, 프로세스 진행 과정에서 일반적인 상식과 경험으로 원인이 명백한 경우 바로 개선함으로써 과제를 단기로 달성하고, 추진하는 과정
    - 즉각적인 실행을 통한 성과 도출
    Long Term View로 분석 과제 도출 및 계속적인 과제 수행에 따른 데이터 분석 문화 내재화
    접근 방식 문제 해결을 위한 단기적인 접근 방법 문제 정의를 위한 장기적인 마스터플랜 접근 방법

    ** Deploy : 프로그램, 어플리케이션 또는 서비스를 사용 가능한 상태로 만들고 실행하는 것

     

    - 분석 기획 시 고려사항 : 가용한 데이터, 적절한 유스케이스 탐색, 장애요소들에 대한 사전 계획 수립이 있다.

    1. 가용한 데이터(Available Data)에 대한 고려 : 분석을 위한 데이터 확보를 필수적이며 데이터 유형(정형, 비정형, 반정형)에 따라 적용 가능한 솔루션 및 분석 방법이 다르므로 데이터의 유형 분석이 선행적으로 이루어져야 한다.

     

    2. 분석 수행 시 발생하는 장애 요소들에 대한 사전 계획 수립(Low Barrier of Execution) : 분석 수행 시 장애 요소들에 대한 사전 계획 수립이 필요하고 조직의 역량을 내재화하기 위해서는 일회성 분석이 아닌 충분하고 지속적인 교육 및 활용 방안등의 변화 관리가 고려되어야 한다.

     

    3. 분석을 통해 가치가 창출될 수 있는 적절한 유스케이스 탐색(Proper Use-case) : 유사 분석 시나리오 및 솔루션이 있다면 최대한 활용하고 기존에 잘 구현되고 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다.

     

    02. 분석 방법론

    1) 데이터 분석 방법론 : 체계적인 절차와 그 처리 방법을 정리한 것으로 데이터 분석을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법론 수립이 필요하다.

     

    - 분석 방법론의 적용 업무 특성에 다른 모델

    1. 폭포수 모델(Waterfall Model) : 단계를 순차적으로, 즉 이전 단계가 완료되어야 다음 단계로 진행하는 하향식 진행방식으로 문제점이 발견되면 이전 단계로 돌아가는 피드백을 수행한다.

     

    2. 나선형 모델(Spiral Model) : 반복을 통해 점층적으로 개발하는 방법으로 처음 시도하는 프로젝트에 용이하며 반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

     

    3. 프로토타입 모델(Prototype Model) : 고객의 요구사항을 완전이 이해하고 있지 못하거나 완벽한 요구사항 분석의 어려움을 해결하기 위한 방식으로 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 상향식 접근 방법이다.

    ** 사용자 요구사항의 도출이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 사용

     

    > 개발이 완료되는 시점에서 오류가 발생하는 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발한다.

    > 완전하진 않더라도 신속하게 모델을 제시하며 이를 바탕으로 문제를 좀 더 명확히 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 한다.

     

    - 분석 방법론의 종류 : 데이터 분석 방법에는 통계적 분석 방법론, 데이터 마이닝 분석 방법론, 빅데이터 분석 방법론으로 구분할 수 있다.

    1. 통계적 분석 방법론 : 전통적인 통계 분석을 위한 방법론으로 주로 학술 연구에 많이 이용되는 방법론으로 통계적 이론을 발굴하는데 중점을 두기 때문에 비즈니스 목적으로는 적합하지 않다.

     

    2. 데이터 마이닝 분석 방법론 : 분석을 통해 비즈니스 활용을 위한 절차와 방법이 정리되어 있는 데이터 분석 방법론으로 대용량의 자료로부터 패턴을 파악해 유의미한 데이터를 추출한다.

    > 성능에 집착하면 분석 모델링의 주목적인 실무 적용에 반하여 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단한다.

     

    3. 빅데이터 분석 방법론 : 빅데이터 출현으로 인한 비정형 데이터 활용을 위한 새로운 분석 방법론으로 데이터 마이닝 방법론이 관계형 데이터베이스(RDBMS) 기반인 반면에 빅데이터 방법론은 RDBMS + NoSQL 기반이다.

     

     

    2) 데이터 마이닝 분석 방법론 : 데이터 마이닝을 잘 수행하기 위해 체계적인 절차와 방법을 정리한 것으로 통계 및 수학적 방법 뿐만 아니라 패턴인식 기법들을 사용하여 데이터 저장소에 저장된 대용량 데이터를 조사함으로써 의미있는 상관관계, 패턴, 추세 등을 발견하는 과정이 데이터 마이닝이다.(가트너)

     

    1. SEMMA 분석 방법론 : SAS사에서 만든 방법론으로 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하여 개선하는 방식으로 일반적으로 대량의 센서 데이터에서 많이 요구 된다.

    > Sampling(분석 데이터 추출) -> Exploration(분석 대상 데이터 탐색) -> Modification(변수 생성) -> Modeling(예측 모형 생성) -> Assessment(모델 평가)

     

    2. KDD(Knowledge Discovery in Database, 지식탐색 중심) 분석 방법론 : 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 활용되며 데이터베이스에서 의미있는 지식을 탐색한다.

    > 데이터셋 선택(Selection) -> 데이터 전처리(Preprocessing) -> 데이터 변환(Transformation) -> 데이터 마이닝(Mining) -> 데이터 마이닝 결과 평가(Interpretation/Evluation)

     

    3. CRISP-DM(Cross-Industry Standard Process for Data Mining) 분석 방법론 : 전 세계 비즈니스 현장에서 가장 많이 사용되는 데이터 마이닝 표준 분석방법론으로 4개 레벨과 6단계 프로세스로 구성된 계층적 프로세스 모델이다.

    ** KDD 방법론은 5단계, CRISP-DM은 6단계

     

    > 4개 레벨 : 단계 - 일반화 작업- 세부 작업 - 프로세스 실행

    > 6단계 : 업무 이해 - 데이터 이해 - 데이터 준비 - 모델링 - 평가 - 전개

    ** 6단계 프로레스들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간의 반복 수행을 통해 분석의 품질을 향상시킨다.

     

     

    3) 빅데이터 분석 방법론 : 단계, 태스크, 스탭으로 구성되는 3계층 빅데이터 분석 방법론으로 분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개과정으로 진행된다.

    3계층 설명
    단계(Phase) - 빅데이터를 분석하기 위한 절차
    - 각 단계에는 고객에게 제공될 산출물의 기준선(Baseline)을 설정
    - 각 단계는 여러 개의 태스크로 구성
    태스크(Task) - 각 단계별로 수행해야 하는 단위 활동
    - 각 태스크는 물리/논리 단위로 품질 검토의 항목이 될 수 있음
    스탭(Step) - WBS(작업 분할 구조도)에서 1~2주 이내에 완료 가능한 산출물을 의미하는 Work Package에 해당
    - 입력자료 -> 도구 -> 출력자료로 구성된 단위 프로세스

    ** WBS(Work Breakdown Structure) : 프로젝트 목표를 달성하기 위해 필요한 활동과 업무를 세분화하는 작업

     

    - 분석 기획(Planning)

    1. 비즈니스 이해 및 프로젝트 범위 설정 : 분석 대상인 업무 도메인을 이해하기 위해 내부 업무 메뉴얼과 관련 자료, 외보의 관련 비즈니스 자료 조사 및 프로젝트 진행을 위해 프로젝트 목적에 부합하는 범위를 명확히 설정한다.

    > 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서 SOW(작업 기술서/명세서)를 작성한다.

    ** SOW(Statement of Work) : 프로젝트 작업 요구 사항에 대한 설명서

     

    2. 데이터 분석 프로젝트 정의 및 수행 계획 수립 : 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명확하게 하기 위해 모델 이미지 및 평가 기준을 설정하고 프로젝트의 목적, 배경, 기대효과, 수행 방법, 일정 추진 조직이 포함된 프로젝트 수행 계획서, WBS를 작성한다.

     

    3. 프로젝트 위험 계획 수립 : 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별하고 프로젝트 위험을 식별하기 위한 위험 관리 계획서를 작성한다.

    > 위험에 대한 대응 방법

    대응 방법 내용
    회피(Avoid) 계획 변경 등 원인 제거(기간 연장, 범위 축소)
    전이(Transfer) 보험, 사후 보증
    완화(Mitigate) 허용 가능한 임계치까지 절감 노력
    수용(Accept) 적극적 수용(긴급 대책), 소극적 수용(조치 안함), Fallback Plan(위험의 영향이 클 경우)

     

    - 데이터 준비(Preparing)

    1. 필요 데이터 정의 : 데이터 분석을 수행하기 위해 필요한 데이터를 정의한다.

     

    2. 데이터 스토어 설계 : 데이터가 저장될 저장소를 설계한다.

     

    3. 데이터 수집 및 정합성 점검 : 크롤링, ETL, API, 스크립트 프로그램 등으로 데이터를 수집하고 수집된 데이터를 설계된 데이터 저장소에 저장한다.

    데이터 저장소의 품질 점검을 통해 데이터의 정합성(무결성)을 확보하고 데이터 품질 개선이 필요한 부분에 대해 보완 작업을 진행한다.

    ** 크롤링 : 웹사이트, 하이퍼링크, 데이터 등을 자동화된 방법으로 수집, 분류, 저장하는 것

    ** ETL : 데이터 수집을 위해 다양한 데이터 원천으로부터 데이터를 추출하고 변환하여 데이터베이스에 적재하는 작업

    ** API : Application Programming Interface 라이브러리에 접근하기 위한 규칙들을 정의한 것

     

    - 데이터 분석(Analyzing)

    1. 분석용 데이터 준비 : 비즈니스 규칙을 확인하고 분석용 데이터셋을 준비한다.

    데이터 저장소에 저장된 정형 및 비정형 데이터를 추출하는 단계이다.

     

    2. 텍스트 분석 : 텍스트 데이터를 확인 및 추출하고 분석한다.

     

    3. 탐색적 분석 : 탐색적 데이터 분석(EDA)은 다양한 각도에서 데이터를 관찰하고 이해하는 과정을 의미한다.

    데이터 시각화 등의 다양한 방법으로 분포를 비교하고, 결측치, 이상치 등을 확인하며 주어진 데이터만 가지고도 충분한 정보를 찾을 수 있도록 개발한 방법이다.

     

    4. 모델링 : 훈련 데이터와 테스트 데이터로 분할한다.

    빅데이터 분석 프로세스에서 데이터를 이용한 분류, 예측, 군집 등의 기능을 수행하는 것은 만드는 과정이 데이터 모델링이며 모델의 적용 및 안정적 운영을 모니터링 하기 위한 방안을 수립한다.

     

    5. 모델 평가 및 검증 : 모델을 객관적으로 평가하고 품질을 관리한다.

    검증용 데이터를 이용하여 모델의 품질을 최종적으로 검증하고 모델링 검증 보고서를 작성한다.

     

    - 시스템 구현(Developing)

    1. 시스템 분석 설계 및 구현: 분석 기획 및 설계에 따른 모델을 도출하고 이를 운영 중인 가동시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다.

     

    - 평가 및 전개(Deploying)

    1. 모델 발전 계획 : 모델의 생명주기를 설정하고 유지보수, 발전 계획을 수립한다.

     

    2. 프로젝트 평가 보고,종료 : 프로젝트 성과를 평가하고 정리하여 차기분석 기획으로 전달하고 프로젝트를 종료한다.

     

     

    03. 분석 과제 도출

    1) 데이터 분석 과제 도출 : 풀어야 할 다양한 문제를 분석 문제로 변환한 후 관련자들이 그 문제를 이해하고 프로젝트로 수행할 수 있는 분석 과제 정의서 형태로 도출하고 데이터 분석의 지속적인 반복 및 개선을 통해  의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될 수 있도록 적절한 관리방안 수립이 사전에 필요하다.

    ** 분석 프로젝트는 데이터 영역과 비즈니스 영역에 대한 이해뿐만 아니라 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해한 프로젝트 관리방안 수립이 중요

    ** 애자일 기법 : 빠르게 반복 작업을 통해 실제 작동 가능한 소프트웨어를 개발하여 지속적으로 제공하기 위한 소프트웨어 개발 방식이다.

     

    - 분석 과제 도출 방법 : 분석 과제를 도출하기 위한 방식으로는 크게 하향식 접근 방법과 상향식 접근방법이 있다.

    > 분석 과제 도출 방법

    구분 설명
    하향식 접근 방법 - 분석 문제가 확실할 때 사용
    - 분석 문제가 주어지고 해법을 찾기 위해 체계적으로 분석
    - 전통적인 문제 도출 접근 방법
    - 지도 학습
    상향식 접근 방법 - 문제의 정의 자체가 어려운 경우 사용
    - 많은 양의 데이터 자체의 분석을 통한 통찰력과 지식을 얻는 방법
    > 답을 도출하는 게 아닌 데이터 자체를 그대로 인식하는 관점으로 접근
    - 비지도 학습
    디자인 싱킹(Design Thinking) - 기존의 논리적인 단계별 접근법에 기반한 문제 해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있음
    - 상향식 접근의 발산 단계와 하향식 접근의 수렴 단계를 반복적으로 수행하는 등 상호보완적 동적 환경을 통해 분석가치를 높이는 의사결정 방식

     

    2) 하향식 접근 방식 : 분석 문제가 주어지고 해법을 찾기 위해 체계적으로 분석하는 방법이다.

    - 문제 탐색 단계(Problem Discovery)

    1. 비즈니스 모델 기반 문제 탐색 : 비즈니스 모델 기반 문제 탐색 방법에는 비즈니스 모델 캔버스 기반 문제 탐색, 거시적 관점 분석 모델(STEEP), 경쟁자 확대 관점 분석 모델, 시장의 니즈 탐색 관점 분석 모델이 있다.

    ** 비즈니스 모델 : 기업이 어떤 제품이나 서비스를 어떻게 소비자에게 제공하고 어떻게 마케팅하며 수익을 얻을 것인지에 대한 계획 또는 사업 아이디어.

     

    > 비즈니스 모델 캔버스 기반 문제 탐색

    : 기업 내부 및 외부 환경을 포괄하고 있는 비즈니스 모델이라는 틀을 활용해 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제를 발굴하고, 규체 및 감사 영역, 지원 인프라 영역을 통해 발굴한 문제에 대한 관리 작업을 수행한다.

    ** 비즈니스 모델 캔버스 : 9개로 구성된 중요한 비즈니스 여역들의 유기적인 연결을 통해 기업이 어떻게 수익을 창출하는지, 즉 가치를 창출하고 전달하고 획득하는 원리를 분석

     

    > 거시적 관점 분석 모델(STEEP)

    : 사회, 기술, 경제, 환경, 정치영역으로 나누어 비즈니스를 분석한다.

     

    > 경쟁자 확대 관점 분석 모델

    : 대체재, 경쟁자, 신규 진입자의 관점에서 분석하는 모델이다.

     

    > 시장의 니즈 탐색 관점 분석 모델

    : 고객, 채널, 영향자들의 관점에서 분석하는 모델이다.

    분류 분석 내용
    고객 고객의 구매 동향 등을 이해하고, 제품 및 서비스 개선에 필요한 분석
    채널 제품 및 서비스가 고객에게 전달되는 모든 경로를 파악하여 분석
    영향자 기업의 의사 결정에 영향을 주는 모든 이해 관계자의 관심 사항을 파악하고 분석

     

    > 역량의 재해석 관점 분석 모델

    : 내부 역량, 파트너 네트워크 관점에서 분석하는 모델이다.

     

    2. 외부 참조 모델 기반 문제 탐색 : 유사하거나 동종 업계의 사례를 벤치마킹하여 분석 기회를 도출하고 분석 기회에 대한 아이디어를 산업별, 업무 서비스별로 분석 주제의 후보 그룹을 구성하여 Quick&Easy 방식으로 얻어내고, 기업에 적용할 분석 주제의 후보 목록을 브레인스토밍 기법으로 빠르게 도출한다.

     

    3. 분석 유스 케이스 : 도출한 분석 기회들에 대해 구체적인 과제로 만들기 전에 분석 유스 케이스로 정의하는 것이 필요하고 분석 유스 케이스는 해결해야 할 문제에 대한 상세한 설명과 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용한다.

     

    - 문제 정의 단계(Problem Definition) : 데이터 분석 문제 변환 : 문제 탐색을 통해 식별된 비즈니스 문제를 데이터 분석 문제로 변환하여 정의하는 단계로 데이터 분석은 분석을 수행하는 당사자뿐만 아니라 해당 문제가 해결되었을 때, 효용을 얻을 수 있는 최종 사용자 관점에서 이루어져야 한다.

     

    - 해결 방안 탐색 단계(Solution Search) : 수행 옵션 도출 : 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색되는 단계로서 어떤 데이터 또는 분석 시스템을 사용할 것인지를 검토하는 단계로 데이터 및 분석 시스템에 따라 소요되는 예산 및 활용 가능한 도구가 다르다.

     

    - 타당성 검토 단계(Feasibility Study) : 타당성 평가 -> 과제 선정 : 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 다각적인 타당성 분석이 수행되어야 하고 경제적 타당도는 비용 대비 편익(효익) 분석 관점의 접근이 필요하다.

     

    3) 상향식 접근 방식 : 분석 과제의 문제 정의가 어려운 경우에 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식이다.

    -상향식 접근 방식의 등장 : 상향식 접근 방식은 기존 하향식 접근 방식의 한계를 극복하기 위한 분석 방법론으로 상향식 접근 방식으로 분석 과제를 도출하는 방법론에는 디자인 싱킹, 프로토타이핑 모델, 비지도 학습이 있다.

     

    - 상향식 접근 방식의 수행 : 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행되고 인사이트 도출 후 반복적인 시행착오를 통해 수정하며 문제를 도출하는 일련의 과정이다.

     

    - 디자인 싱킹(Design Thinking) : 인간과 사물을 관찰하고 공감, 이해하고 다양한 방법을 찾는 창의적 문제 해결 방법으로 사람과 사물에 대한 공감적 관찰을 통해 문제를 재해석하고, 시각적 아이디어 도출을 통해 직접적인 고객(사용자)을 포함한 이해 관계자를 이끌어내, 빠른 시일 내에 가시적인 프로토 타입을 공동 제작하는 액션전략이다.

     

    - 프로토타이핑 모델 : 사용자 요구사항을 정확히 파악하기 어렵고 데이터를 규정하기 어려운 상황에서 먼저 분석을 시도해보고 결과를 확인해가며 반복적으로 모델을 개선해나가는 방법으로 계속적인 반복 과정을 통해 목표했던 결과에 가까운 형태로 프로젝트를 진행한다.

     

    - 비지도 학습 : 학습 알고리즘의 결과물이라고 할 수 있는 레이블(정답)을 제공하지 않고 인공지능(AI)이 입력 데이터셋에서 패턴과 상관관계를 찾아내는 머신러닝 알고리즘으로 입력만 제시되고, 결과 값이 제시되지 않은 데이터로 학습을 수행한다.

    > 상향식 접근 방식의 절차

    단계 내용
    1. 프로세스 분류 가치 사슬 -> 메가 프로세스 -> 메이저 프로세스 -> 프로세스 단계로 업무 프로세스 구조화
    2. 프로세스 흐름 분석 프로세스별로 프로세스 맵을 통해 업무 흐름을 상세하게 표현
    3. 분석요건 식별 각 프로세스 맵 상의 주요 의사 결정 포인트 식별
    4. 분석 요건 정의 각 의사결정 시점에 무엇을 알아야 의사결정을 할 수 있는지 분석의 요건을 정의

     

    4) 분석 프로젝트 특징 : 분석 프로젝트는 다른 프로젝트 유형처럼 품질, 리스크, 의사소통, 범위, 일정 등 영역별 관리가 수행되어야 하고 다양한 데이터에 기반한 분석 기법을 적용하기 때문에 5가지 주요 특성을 고려하여 추가적 관리가 필요하다.

    ** 분석 과제 5가지 주요 특성 : 데이터 크기, 데이터 복잡도, 속도, 분석 복잡도, 정확도와 정밀도

     

    04. 분석 프로젝트 관리 방안

    1) 분석 과제 관리 영역

    - 데이터 크기 : 분석하고자 하는 데이터의 양을 고려하는 관리 방안 수립이 필요하다.

     

    - 데이터 복잡도 : 비정형 데이터 및 다양한 시스템에 산재되어 있는 데이터들을 통합해서 분석 프로젝트를 진행할 때는 해당 데이터에 잘 적용될 수 있는 분석 모델 선정에 대한 고려가 필요하다.

     

    - 속도 : 분석 결과가 도출된 다음, 분석 결과를 활용하는 시나리오 측면에서의 속도가 고려되어야 한다.

     

    - 분석 복잡도 : 분석 모델의 정확도와 복잡도는 트레이드 오프관계가 존재하므로 이에 대한 기준점을 사전에 정의해두어야 한다.

    ** 트레이드 오프 : 두 목표 가운데 하나를 달성하려고 하면 다른 목표의 달성이 늦어지거나 희생되는 관계

     

    - 정확도와 정밀도

    1. 정확도(Accuracy) : 모델의 예측값과 실제값의 차이를 나타내며, 데이터 분석의 활용적인 측면에서 중요한 척도이다.

     

    2. 정밀도(Precision) : 모델을 반복적으로 수행했을 때 예측 값과 실제 값 사이의 편차의 수준을 의미하며 정확도와 정밀도는 트레이드 오프 관계로, 모델의 해석 및 적용시에 사전에 고려해야 한다.

    ** 분석의 활용적인 측면에서는 Accuracy, 안정성 측면에서는 Precision이 중요하다.

     

    2) 주제별 프로젝트 관리 체계(방안) : 데이터 분석가가 분석 프로젝트에서 프로젝트 관리자의 역할을 수행하는 경우가 많아 프로젝트 관리 영역에 대한 주요한 사항들을 체크 포인트 형태로 관리하여, 발생할 수 있는 이슈와 리스크를 사전에 숙지하고 방지할 필요가 있다.

    ** 분석 프로젝트의 경우 관리 영역에서 일반 프로젝트와 다르게 관리해야 할 요소들이 존재

     

     

    CHAPTER 02 분석 마스터 플랜

    01. 마스터 플랜 수립

    1) 분석 마스터 플랜 : 기업에서 필요로 하는 데이터 분석 과제를 모두 도출한 후, 제한된 자원과 예산을 효율적으로 사용하기 위해 과제의 우선순위를 결정하고 단기 및 중장기로 나누어 계획을 수립하는 것으로 분석 마스터 플랜 과정에서는 전략적 중요도, 비즈니스 성과와 ROI 및 분석 과제의 실행 용이성을 고려하여 과제의 우선순위를 설정한다.

    ** ROI : Return On Investment, 투자 혹은 비용에 대한 순수익

    ** ISP(Information Strategy Planning, 정보 전략 계획) : 기업의 경영 목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출하며, 이를 수행하기 위한 전략 및 실행 계획을 수립하는 전사적인 종합추진 계획이다.

     

    2) 분석 마스터플랜 수립 프레임워크

    - 분석 과제 도출 및 우선순위 평가 방법과 절차 : 분석 과제에 대한 실행 순서를 결정하는 방법으로 업무별 도출된 분석 과제를 우선순위 평가 기준에 따라 평가한 다음, 분석 과제 수행의 선후행 관계를 고려해 적용순위를 조정한다.

    > 분석 과제 우선순위 평가 기준

    평가기준 내용
    시급성 - 전략적 중요도와 목표 가치에 부합하는 지에 따라 시급성이 가장 중요한 기준
    - 시급성 판단 기준은 전략적 중요도가 핵심
    - 현재의 관점에서 전략적 가치를 둘 것인지, 미래의 중장기적 관점에서 전략적인 가치를 둘 것인지를 고려
    - 분석 과제의 목표 가치를 함께 고려하여 시급성 여부를 판단
    난이도 - 데이터 생성, 저장, 가공에 따른 비용, 분석 적용 비용, 기업의 분석 수준을 고려
    - 난이도는 현 시점에서 과제를 추진하는 것이 적용 비용 및 범위 측면에서 고려했을 때 바로 적용하기 쉬운 것인지 또는 어려운 것인지를 판단
    - 분석 난이도는 분석 준비도와 성숙도 진단 결과에 따라 기업의 분석 수준을 파악하고 이를 바탕으로 결정

     

    > 난이도와 시급성에 따른 분석 과제 우선순위 선정

    I - 전략적으로 중요도가 높아 경영에 미치는 영향이 커서 시급히 추진할 필요가 있음
    - 난이도가 높아 현재 수준에서 과제를 바로 적용하기에 어려움
    II - 현재 시점에서는 전략적 중요도가 높지 않지만 중장기적 관점에서 반드시 추진되어야 함
    - 분석 과제를 바로 적용하기에는 난이도 높음
    III - 전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있음
    - 과제 추진의 난이도가 어렵지 않아 우선적으로 바로 적용 가능
    IV - 현재 시점에서는 전략적 중요도가 높지 않아 중장기적 관점에서 과제 추진이 바람직함
    - 과제를 바로 적용하는 것은 어렵지 않음

    우선순위를 '시급성'에 둔다면 III -> IV -> II 순서로 진행하고, 우선순위를 '난이도'에 둔다면 III -> I -> II 순서로 진행된다.

     

    3) 로드맵 수립 : 결정된 분석 과제별 적용 범위 및 방식을 고려해 최종적인 실행 우선순위를 결정한 다음, 단계적 구현 로드맵을 수립하고 분석 과제에 대한 포트폴리오 사분면 분석을 통해 과제의 우선순위를 결정한다.

    4) 세부 이행계획 수립 : 데이터 분석 체계는 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적으로 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 적용하며 프로젝트의 세부 일정 계획은 데이터 분석 체계를 고려해 작성한다.

     

    02. 분석 거버넌스 체계

    1) 분석 거버넌스 : 어떤 목적으로 분석을 수행하며, 분석을 위해 데이터를 어떻게 활용할 것인지 결정하는 즉, 기업의 문화로서 데이터 분석을 정착시켜 분석 업무를 지속적으로 고도화하기 위한 데이터 관리 체계를 의미하며 분석 거버넌스 체계를 수립하기 위해서는 기업의 전체적인 분석 기준과 환경을 파악하여, 가지고 있는 현재 자원이 타 경쟁사 및 유사 업종과 비교해 어느 정도 수준에 있는지를 평가해야 한다.

    ** 거버넌스 : 기업, 비영리 기관 등에서 규칙, 규범 및 행동이 구조화, 유지, 규제되고 책임을 지는 프로세스.

     

    - 데이터 분석 준비도 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법으로서, 6가지 영역을 대상으로 현 수준을 파악한다.

     

    1. 6가지 영역

    : 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라(분석 인프라)

     

    2. 진단 과정

    : 영역별로 세부 항목에 대한 수준을 파악하고 진단 결과 전체 요건 중 일정 수준 이상을 충족하면 분석 업무를 도입하고, 충족하지 못할 경우에는 분석환경을 조성한다.

     

    - 데이터 분석 성숙도 : 시스템 개발 업무 능력과 조직의 성숙도 파악을 위해 CMMI 모델을 시반으로 분석 성숙도를 평가하며 비즈니스 부문, 조직/역량 부문, IT 부문을 대상으로 성숙도 수준에 따라 도입, 활용, 확산, 최적화의 4단계로 구분해 살펴볼 수 있다.

    ** CMMI : 능력 성숙도 통합 모델, 소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델

    1. 도입 단계

    : 분석을 시작하여 환경과 시스템이 구축된 단계

     

    2. 활용 단계

    : 분석 결과를 실제 업무에 적용할 수 있는 단계

     

    3. 확산 단계

    : 전사 차원에서 분석을 관리하고 공유하는 단계

     

    4. 최적화 단계

    : 분석을 진화시켜 혁신 및 성과향상에 기여할 수 있는 단계

     

    - 분석 플랫폼 : 분석 마스터 플랜을 기획하는 단계부터 장기적, 안정적으로 활용할 수 있는 확장성을 고려한 플랫폼 구조를 도입하는 것이 적절하며 분석 플랫폼은 데이터 분석에 필요한 환경과 실행 및 서비스 환경을 제공한다.

     

     

    2) 데이터 거버넌스 : 데이터 표준 및 정책에 따라 데이터를 생성 및 변경하고 데이터의 품질과 보안 등 전사적 차원에서 데이터 관리 체계를 구축하는 활동이다.

    > 데이터 거버넌스 주요 관리 대상

    관리 대상 내용
    데이터 사전 - 자료에 관한 정보를 모아두는 저장소
    - 자료의 이름, 표현 방식, 자료의 의미와 사용 방식, 그리고 다른 자료와의 관계를 저장
    마스터 데이터 - 전사 업무에 동일한 기준으로 사용되는 핵심 업무 데이터로서 여러 부서가 사용하는 데이터
    - 자주 변하지 않고 자료처리 운용에 기본 자료로 제공되는 자료의 집합
    메타 데이터 - 구조화된 데이터로 다른 데이터를 설명해주는 데이터
    - 주로 데이터를 표현하기 위한 목적 또는 데이터를 빨리 찾기 위한 목적으로 사용

     

    - 데이터 거버넌스 구성 요소 : 데이터 거버넌스는 원칙, 조직, 프로세스로 구성되며 구성 요소를 유기적으로 결합하고 효과적으로 관리하여 데이터를 비즈니스 목적에 부합되도록 하며, 최적의 정보서비스를 제공할 수 있도록 한다.

     

    > 데이터 거버넌스 체계 요소

    체계 요소 설명
    데이터 표준화 - 데이터 표준화는 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축, 데이터 생명주기 관리 등의 업무로 구성
    - 데이터 표준 용어는 표준 단어 사전, 표준 도메인 사전, 표준 코드 등이며 사전 간 상호 검증이 가능하도록 점검 프로세스를 포함해야 함
    - 명명 규칙은 필요시 언어별로 작성되어 매핑 상태를 유지해야 함
    데이터 관리 체계 - 데이터 정합성 및 활용의 효율성을 위해 표준데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립
    - 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비
    - 데이터의 생명주기 관리방안을 수립하지 않으며 데이터 양의 급증 시 데이터 가용성 및 관리비용 증대 문제에 직면하게 될 수 있음
    데이터 저장소 관리 - 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성
    - 데이터 저장소는 데이터 관리체계 자원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함
    - 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적으로 활용이 가능
    표준화 활동 - 데이터 거버넌스 체계를 구축한 후, 표준 준수 여부를 주기적으로 점검하고 모니터링 실시
    - 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화 관리 및 주기적인 교육 진행
    - 지속적인 데이터 표준화 개선 활동을 통해 실용성을 높여야 함

     

    - 빅데이터 거버넌스 특징 : 기업이 가진 과거 및 현재의 모든 빅데이터를 분석하여 비즈니스 인사이트를 찾는 노력은 비용면에서 효율적이지 않고 빅데이터 분석에서 품질 관리도 중요하지만, 데이터 수명 주기 관리방안을 수립하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면할 수 있다.

     

    3) 소프트웨어 프로세스

    - 소프트웨어 프로세스 품질 : 개발자의 개발 경험이 부족한 경우, 제대로 된 소프트웨어 개발 프로세스 및 관리 체계가 없어 소프트웨어 품질 저하가 초래되며 대표적인 소프트웨어 개발 표준으로 미 국방성의 CMM과 ISO의 SPICE 그리고 ISO/IEC 12207이 있다.

     

    - SPICE : 정보 시슽메 분야에서 소프트웨어의 품질 및 생산성 향상을 위해 소프트웨어 프로세스를 평가 및 개선하는 국제 표준으로 5개의 프로세스 범주와 40개의 세부 프로세스로 구성된다.

    ** SPICE 모델 사용 목적 : 프로세스 개선을 위해 기관이 스스로 평가하기 위해 기관에서 지정한 요구조건의 만족 여부를 개발 조직이 스스로 평가한다.

     

    SPICE는 프로세스 수행 능력 단계를 불완전, 수행, 관리, 확립, 예측, 최적화의 6단계로 구분한다.

    > SPICE의 프로세스 수행 능력 단계

    단계 특징
    불완전(Incomplete) 프로세스가 구현되지 않았거나 목적을 달성하지 못한 단계
    수행(Performed) 프로세스가 수행되고 목적이 달성된 단계
    관리(Managed) 정의된 자원의 한도 내에서 그 프로세스가 작업산출물을 인도하는 단계
    확립(Estabilished) 소프트웨어 공학 원칙에 기반해 정의된 프로세스가 수행되는 단계
    예측(Predictable) 프로세스가 목적 달성을 위해 통제되고, 양적인 측정을 통해서 일관되게 수행되는 단계
    최적화(Optimizing) 프로세스 수행을 최적화하고, 지속적인 개선을 통해 업무 목적을 만족시키는 단계

     

    - ISO/IEC 12207 : ISO에서 만든 표준 소프트웨어 생명 주기 프로세스로서 소프트웨어의 개발, 운영, 유지보수 등을 체계적으로 관리하기 위한 소프트웨어 생명주기 표준을 제공한다.

     

    03. 데이터 분석 조직

    1) 분석 조직 : 빅데이터 등장에 다라 기업의 비즈니스도 많은 변화를 겪고 있으며, 이러한 비즈니스 변화를 인식하고 기업의 차별화된 경쟁력을 확보하는 수단으로서, 데이터 과제 발굴, 기술 검토 및 전사 업무 적용계획수립 등 데이터를 효과적으로 분석 및 활용하기 위해 기획, 운영 및 관리를 전담할 수 있는 전문 분석 조직의 필요성이 제기되고 있다.

     

    - 분석 조직 및 인력구성 시 고려사항

    1. 조직 구조에 대한 고려사항

    2. 인력 구조에 대한 고려사항

     

    > 분석 조직 구조 유형

    구조 유형 특징
    집중형 조직 구조 - 조직내 별도 독립적인 분석 전담 조직 구성, 분석 전담 조직에서 회사의 모든 분석 업무를 담당
    - 전사분석 과제의 전략적 중요도에 따라 우선순위를 정해 추진
    - 일부 현업 부서와 분석 업무가 중복 또는 이원화될 가능성이 있음
    기능 중심 조직 구조 - 일반적인 분석 수행구조로 별도 분석 조직을 구성하지 않고 각 해당 업무부서에서 직접 분석
    - 특정 업무 부서에 국한된 분석 수행의 가능성이 높고 일부 중복된 분석 업무를 수행할 수 있음
    - 전사적 핵심분석이 어려우며, 부서현황 및 실적통계 등 과거 실적에 국한된 분석 수행 가능성이 높음
    분산 조직 구조 - 분석 조직의 인력들이 현업부서에 배치되어 업무를 수행
    - 전사 차원에서 분석 과제의 우선순위를 선정해 수행이 가능, 분석 결과를 신속하게 실무적용 가능
    - 분석 결과에 따른 신속한 Action 가능
    - 베스트 프랙티스 공유 가능
    - 부서 분석 업무와 역할 분담을 명확히 해야함(업무 과다 이원화 가능성)

     

    2) 분석 과제 기획 및 운영

    - 분석 과제 관리 프로세스 수립 : 분석 마스터플랜이 수립되고 초기 데이터 분석 과제가 성공적으로 수행되는 경우, 지속적인 분석 니즈 및 기회가 분석 과제 형태로 도출될 수 있고 이런 과정에서 분석 조직이 수행할 중요한 역할 중 하나가 분석 과제의 기획 및 운영이므로 이를 체계적으로 관리하기 위한 프로세스를 수립해야 한다.

     

    - 분석 조직의 변화 관리 : 기업 내 데이터 분석가가 담당했던 일을 모든 구성원이 데이터를 분석하고 업무에 활용할 수 있도록 조직 전반에 문화를 정착시키고 변화시키려는 시도가 있어 분석 조직 및 인력에 대한 지속적인 교육과 훈련이 필요하다.

     

    - 분석 교육 : 빅데이터의 등장은 비즈니스 영역에서 많은 변화를 불러일으키며 새로운 체계를 도입하는 계기가 되었으며 새로운 체계의 도입 시에는 저항 및 기존 형태로 되돌아가는 관성이 존재하기 때문에, 분석 가치를 극대화하고 내재화하는 안정적인 추진기로 접어들기 위해서는 분석 관련 교육 및 마인드 육성을 위한 적극적인 변화 관리가 필요하다.

     

Designed by Tistory.