ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Part 1. 빅데이터 분석기획_빅데이터의 이해3️⃣
    빅데이터분석기사 2024. 2. 21. 15:55

    03. 빅데이터 개요

    빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미한다.

    빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다. (Mckinsey, 2011)

    빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다. (IDC, 2011)

    빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것이다. (Mayer-Schonberger & Cukier, 2013)

    ** 빅데이터에 대한 인식은 데이터 규모와 기술 측면에서 시작했지만, 빅데이터의 가치와 효과 측면으로 최근 그 의미가 확대되고 있다.

     

    - 빅데이터의 등장과 변화 

    1. 빅데이터의 등장 배경: 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술이 빠르게 발전하고 있다.

    기업에서는 온/오프라인 고객 데이터가 많이 축적되면서 데이터에 숨어 있는 가치를 발굴해 새로운 성장동력으로 활용하고 있다.

    학계에서는 인간 게놈 프로젝트, 기후 관찰 등 거대 데이터를 다루는 학문 분야가 확산되면서 필요한 기술 아키텍처 및 분석 기법들이 발전하고 있다.

     

    2. 빅데이터의 등장으로 인한 변화: 

    데이터 처리 시점이 사전 처리(pre-processing)에서 사후 처리(post-processing)로 이동

       + 기존에 필요한 정보만 수집하는 시스템에서, 가능한 한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 정보를 얻는 방식으로 변화하였다.

     

    데이터 처리 범주가 표본조사에서 전수조사로 확대

       + 기술 발전으로 인한 데이터 처리 비용 감소로 표본 조사가 아닌 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 변화하였다.

     

    데이터의 가치 판단 기준이 질(quality)보다 양(quantity)으로 그 중요도가 달라짐

       + 데이터의 지속적 추가는 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과를 산출하는데 긍정적인 영향을 미친다는 추론을 바탕으로 변화되었다.

     

    데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관관계로 변화되는 경향

       + 데이터 기반의 상관관계 분석으로 특정 현상의 발생 가능성을 포착하여 대응하는 방식으로 변화한다.

     

     

     

    - 빅데이터의 특징 : 빅데이터 용어가 사용된 초기에 가트너(Gartner) 그룹은 3V(규모, 유형, 속도)로 빅데이터의 특징을 설명했으며, 최근에는 빅데이터 분석을 통해 얻을 수 있는 가치와 데이터에 대한 품질의 중요성이 강조

     

    💡Tip 가트너의 3V 구분

    [3V]

    규모(Volume) : 데이터 양이 급격하게 증가(대용량화), 기존 데이터 관리 시스템의 성능적 한계 도달

    유형(Variety) : 데이터의 종류와 근원 확대(다양화), 정형 데이터 외 반정형 및 비정형 데이터로 확장

    속도(Velocity) : 데이터 수집과 처리 속도의 변화(고속화), 대용량 데이터의 신속하고 즉각적인 분석 요구

     

    [+2V]

    품질(Veracity) : 데이터의 신뢰성, 정확성, 타당성 보장이 필수, 고품질의 데이터에서 고수준 인사이트 도출 가능

    가치(Value) : 대용량의 데이터 안에 숨겨진 가치 발굴이 중요, 다른 데이터들과 연계 시 가치가 배로 증대

     

     

    - 빅데이터의 활용 : 빅데이터 활용을 위한 3대 요소로는 자원, 기술, 인력이 있다.

    자원(Resource)[빅데이터] : 정형, 반정형, 비정형 데이터를 실시간으로 수집, 수집된 데이터를 전처리 과정을 통해 품질을 향상시킨다.

       + 데이터 자원 확보

       + 데이터 품질 확보

     

    기술(Technology)[빅데이터플랫폼, AI] : 분산 파일 시스템을 통해 대용량 데이터를 분산 처리, 데이터마이닝 등을 통해 데이터를 분석 및 시각화, 데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용한다.

       + 데이터 저장, 관리 기술(ETL, NoSQL)

       + 대용량 데이터 처리(Hadoop, MapReduce)

       + 빅데이터 분석(정형 데이터, 비정형 데이터)

       + 시각화(Visualization)

     

    인력(People)[알고리즈미스트, 데이터사이언티스트]:통계학, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖추고 도메인 지식을 습득하여 데이터 분석 및 결과를 해석한다.

       + 경제학, 경영학, 심리학 등 인문학적인 이해

       + 비판적 시각, 커뮤니케이션 능력

       + 스토리텔링, 시각화 능력

     

    [ 빅데이터의 활용을 위한 기본 테크닉]

    연관 규칙 학습 : 변인들 간 주목할 만한 상관관계가 있는지 찾아내는 방법

    ex) 도시락을 구매하는 사람이 음료수를 더 많이 구매하는가?

     

    유형분석 : 문서를 분류하거나 조직을 그룹화할 때 사용

    ex) 이것은 어떤 특성을 가진 집단에 속하는가?

     

    유전 알고리즘 : 최적화가 필요한 문제를 생물 진화의 과정을 모방하여 점진적으로 해결책을 찾는 방법

    ex) 시청률을 최고치로 하기 위해 어떤 프로그램을 어떤 시간에 방송해야 하는가?

     

    기계 학습 : 데이터로부터 학습한 알려진 특성을 활용하여 예측

    ex) 시청 기록을 바탕으로 어떤 영화를 가장 보고 싶어 하는가?

     

    회귀분석 : 독립변수가 종속변수에 미치는 영향을 분석할 때 사용

    ex) 경력과 학력이 연봉에 미치는 영향은?

     

    감정분석 : 특정 주제에 대해 말을 하거나 글을 쓴 사람의 감정을 분석

    ex) 새로운 할인 정책에 대한 고객의 평은 어떤가?

     

    소셜네트워크(사회관계망) 분석 : 특정인과 다른 사람의 관계를 파악하고 영향력 있는 사람을 분석할 때 사용

    ex) 고객들 간 관계망은 어떻게 구성되는가?

     

     

Designed by Tistory.