ABOUT ME

Today
Yesterday
Total
  • Part 1. 빅데이터 분석기획_빅데이터의 이해1️⃣
    빅데이터분석기사 2024. 2. 21. 11:48

    빅데이터 분석기획에서는 빅데이터와 분석에 대한 기본적인 이해에 대해 공부하자.

    관련 용어와 기술 및 제도에 대해 알아보고, 분석, 수집, 저장 계획을 수립하는 과정에 대해 알아본다.

     

    01. 빅데이터 개요 및 활용

    데이터는 1646년 영국 문헌에 처음 등장하였으며, '주어진 것'이라는 의미를 갖는 라틴어 dare(주다, to give)의 과거 분사형으로 사용되었다.

    그 후 데이터는 1940년대 이후에 자연과학이 발전함에 따라 함께 다양한 사회과학이 발전하며, 과거 관념적이고 추상적인 개념에서 기술적이며 사실적인 의미로 변화하게 되었다.

     

    - 데이터의 정의 : 데이터는 추론과 추정의 근거를 이루는 사실, 현실 세계에서 관찰하거나 측정하여 수집한 사실이다.

     

     

    - 데이터의 특징 :

    데이터는 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.

    데이터는 객관적 사실이라는 존재적 특성을 갖는다.

    -> 데이터가 주로 객관적이며 사실에 근거하여 생성되고 수집된다.(실제 관측치, 측정값, 레코드 등과 같이 현실 세계에서 발생한 현상을 반영한다는 의미)

    데이터는 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특징을 갖는다.

     -> 데이터가 주로 결정을 내리거나 미래를 예측하기 위한 근거로 사용된다.

     

     

    - 데이터의 구분:

    정량적 데이터(Quantitative Data): 주로 숫자로 이루어진 데이터

    ex) 2020년, 100km/h 등

       + 정형 데이터와 반정형 데이터로 나눌 수 있다.

       + 여러 요소의 결합으로 의미가 부여된다.

       + 주로 객관적인 내용을 담고 수치나 기호 등으로 표현된다.

       +  데이터베이스나 스프레드시트와 같은 구조화된 형태로 저장되고 관리된다.

       + DBMS, 로컬 시스템 등 내부에 위치한다.

       + 통계 분석 시 사용하기 용이하다.

     

    정성적 데이터(Qualitative Data) : 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터

    ex) 철수가 시험에 합격하였다.   + 비정형데이터가 이에 속한다.   + 객체 하나가 함축된 의미를 내포한다.   + 주로 주관적인 내용을 문자나 언어 등으로 표현된다.   + 데이터가 구조화 되지 않고 일반적으로 웹 로그, 텍스트 파일 등처럼 텍스트 형식으로 저장된다.   + 웹사이트, 모바일 플랫폼 등 외부에 위치한다.   + 통계 분서 시 사용하기 어려움이 있다.

     

    ** 정형 데이터는 정해진 형식과 구조와 맞게 저장하여야 하지만, 반정형 데이터는 데이터의 형식과 구조가 비교적 유연하고 비정형 데이터는 구조를 갖지 않은 경우가 대부분이다.

     

     

    - 데이터의 유형 :

    정형 데이터(Structured Data) : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터이며, 연산이 가능

    ex) 관계형 데이터베이스의 테이블에 저장되는 데이터 등

     

    반정형 데이터(Semi-structured Data) : 데이터의 형식과 구조과 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터이며, 연산이 불가능

    ** 스키마 : 자료의 구조, 표현 방법

    ex) JSON, XML, RDF, HTML 등

     

    비정형 데이터(Unstructured Data) : 구조가 정해지지 않은 대부분의 데이터이며, 연산이 불가능

    ex) 동영상, 이미지, 음성, 문서, 메일 등

     

     

    - 데이터 근원에 따른 분류: 데이터의 수집 과정은 데이터의 재생산 과정으로 볼 수 있으며, 원본 데이터로부터 재생산된 데이터는 가역 데이터와 불가역 데이터로 구분할 수 있다.

    가역 데이터 : 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터로 원본과 1:1 관계를 갖는다.

    이력 추적이 가능하여, 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있다.   + 환원성(추적성)이 있다 = 비가공 데이터   + 원본 데이터 그 자체   + 원본과 1:1의 관계   +  원본 데이터를 변형하지 않고 탐색   + 데이터 마트, 데이터 웨어 하우스에 활용된다.   ** 데이터 마트 : 데이터 웨어하우스 환경에서 정의된 접근 계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할

     

    불가역 데이터 : 생산된 데이터의 원본으로 환원이 불가능한 데이터이다.

    원본 데이터와는 전혀 다른 형태로 재생산되기 때문에, 원본 데이터의 내용이 변경되었더라도 변경 사항을 반영할 수 없다.   + 환원성(추적성)이 없다 = 가공 데이터   + 원본 데이터와 독립된 새 개체   + 원본과 1: N, N:1 , M:N의 관계를 맺는다.   +  원본 데이터를 결합해 새로운 형태로 처리   + 데이터 전처리, 프로파일 구성에 활용된다.

     

     

    - 데이터의 기능 : 과학적 발견은 개인의 암묵적 지식에 기초하는 경우가 많으며, 이를 활용하려면 데이터를 기반으로 한 암묵지와 형식지의 상호 작용이 중요하다.

    암묵지 : 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화되어 있으며, 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다.

    ** 학습과 경험을 통하여 개인에게 체계화되어 있지만 겉으로 드러나지 않는 지식

     

    형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.

    ** 명시적으로 알 수 있는 형태, 형식을 갖추어 표현하고 공유가 가능

     

     

    - 지식 창고 매커니즘메커니즘 : 암묵지와 형식지 간 상호 작용을 위한 일본의 경영학자 노나카 이쿠지로의 지식 창조 메커니즘은 다음의 4단계로 구성된다.

    4가지 프로세스는 계속해서 반복된다.

     

     

    1. 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전시킨다.2. 표출화(Externalization) : 암묵지가 구체화 되어 외부(형식지)로 표현된다.3. 연결화(Combibation) : 형식지를 재분류하여 체계화한다.4. 내면화(Internalization) : 전달받은 형식지를 다시 개인의 것으로 만든다.

     

     

    - 데이터, 정보, 지식 지혜: 데이터, 정보, 지식, 지혜는 인간의 사회활동 속에서 가치창출을 위한 일련의 프로레스로 연결되어 기능한다.

    ** 데이터의 정확성은 정보, 지식, 지혜와의 상호관계에서 지대한 영향을 미치며, 가치창출에 있어 핵심적인 역할을 한다.

     

     데이터(Data) : 현실 세계에서 관찰하거나 측정하여 수집한 사실이나 값으로 개별 데이터로는 그 의미가 중요하지 않은 객관적인 사실이다.ex) 온라인 쇼핑 시 노트북 가격은 100만원이며, 오프라인 상점의 노트북 가격은 150만 원이다.정보(Information) : 데이터를 가공하거나 처리하여 데이터 간 관게를 분석하고 그 속에서 도출된 의미를 말하며, 항상 유용한 것은 아니다.ex) 오프라인 상점보다 온라인 쇼핑 시 노트북 가격이 더 저렴하다, 편의점보다 대형마트에서 아이스크림의 가격이 더 저렴하다.지식(Knowledge): 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화한 고유의 결과물이다.ex) 오프라인 상점보다 저렴한 온라인 쇼핑으로 노트북을 구매할 것이다.지혜(Wisdom) : 축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물이다.ex) ek른 상품들도 온라인 쇼핑 시 오프라인 상점보다 저렴할 것이다.

     

    지식의 피라미드(가치창출 프로세스)는 데이터부터 지혜로 연결된다.데이터 > 정보 > 지식 > 지혜

     

     

Designed by Tistory.