-
Part 1. 빅데이터 분석기획_빅데이터의 이해1️⃣빅데이터분석기사 2024. 2. 21. 11:48
빅데이터 분석기획에서는 빅데이터와 분석에 대한 기본적인 이해에 대해 공부하자.
관련 용어와 기술 및 제도에 대해 알아보고, 분석, 수집, 저장 계획을 수립하는 과정에 대해 알아본다.
01. 빅데이터 개요 및 활용
데이터는 1646년 영국 문헌에 처음 등장하였으며, '주어진 것'이라는 의미를 갖는 라틴어 dare(주다, to give)의 과거 분사형으로 사용되었다.
그 후 데이터는 1940년대 이후에 자연과학이 발전함에 따라 함께 다양한 사회과학이 발전하며, 과거 관념적이고 추상적인 개념에서 기술적이며 사실적인 의미로 변화하게 되었다.
- 데이터의 정의 : 데이터는 추론과 추정의 근거를 이루는 사실, 현실 세계에서 관찰하거나 측정하여 수집한 사실이다.
- 데이터의 특징 :
데이터는 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다.
데이터는 객관적 사실이라는 존재적 특성을 갖는다.
-> 데이터가 주로 객관적이며 사실에 근거하여 생성되고 수집된다.(실제 관측치, 측정값, 레코드 등과 같이 현실 세계에서 발생한 현상을 반영한다는 의미)
데이터는 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특징을 갖는다.
-> 데이터가 주로 결정을 내리거나 미래를 예측하기 위한 근거로 사용된다.
- 데이터의 구분:
정량적 데이터(Quantitative Data): 주로 숫자로 이루어진 데이터
ex) 2020년, 100km/h 등
+ 정형 데이터와 반정형 데이터로 나눌 수 있다.
+ 여러 요소의 결합으로 의미가 부여된다.
+ 주로 객관적인 내용을 담고 수치나 기호 등으로 표현된다.
+ 데이터베이스나 스프레드시트와 같은 구조화된 형태로 저장되고 관리된다.
+ DBMS, 로컬 시스템 등 내부에 위치한다.
+ 통계 분석 시 사용하기 용이하다.
정성적 데이터(Qualitative Data) : 문자와 같은 텍스트로 구성되며 함축적 의미를 지니고 있는 데이터
ex) 철수가 시험에 합격하였다. + 비정형데이터가 이에 속한다. + 객체 하나가 함축된 의미를 내포한다. + 주로 주관적인 내용을 문자나 언어 등으로 표현된다. + 데이터가 구조화 되지 않고 일반적으로 웹 로그, 텍스트 파일 등처럼 텍스트 형식으로 저장된다. + 웹사이트, 모바일 플랫폼 등 외부에 위치한다. + 통계 분서 시 사용하기 어려움이 있다.
** 정형 데이터는 정해진 형식과 구조와 맞게 저장하여야 하지만, 반정형 데이터는 데이터의 형식과 구조가 비교적 유연하고 비정형 데이터는 구조를 갖지 않은 경우가 대부분이다.
- 데이터의 유형 :
정형 데이터(Structured Data) : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터이며, 연산이 가능
ex) 관계형 데이터베이스의 테이블에 저장되는 데이터 등
반정형 데이터(Semi-structured Data) : 데이터의 형식과 구조과 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터이며, 연산이 불가능
** 스키마 : 자료의 구조, 표현 방법
ex) JSON, XML, RDF, HTML 등
비정형 데이터(Unstructured Data) : 구조가 정해지지 않은 대부분의 데이터이며, 연산이 불가능
ex) 동영상, 이미지, 음성, 문서, 메일 등
- 데이터 근원에 따른 분류: 데이터의 수집 과정은 데이터의 재생산 과정으로 볼 수 있으며, 원본 데이터로부터 재생산된 데이터는 가역 데이터와 불가역 데이터로 구분할 수 있다.
가역 데이터 : 생산된 데이터의 원본으로 일정 수준 환원이 가능한 데이터로 원본과 1:1 관계를 갖는다.
이력 추적이 가능하여, 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있다. + 환원성(추적성)이 있다 = 비가공 데이터 + 원본 데이터 그 자체 + 원본과 1:1의 관계 + 원본 데이터를 변형하지 않고 탐색 + 데이터 마트, 데이터 웨어 하우스에 활용된다. ** 데이터 마트 : 데이터 웨어하우스 환경에서 정의된 접근 계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할
불가역 데이터 : 생산된 데이터의 원본으로 환원이 불가능한 데이터이다.
원본 데이터와는 전혀 다른 형태로 재생산되기 때문에, 원본 데이터의 내용이 변경되었더라도 변경 사항을 반영할 수 없다. + 환원성(추적성)이 없다 = 가공 데이터 + 원본 데이터와 독립된 새 개체 + 원본과 1: N, N:1 , M:N의 관계를 맺는다. + 원본 데이터를 결합해 새로운 형태로 처리 + 데이터 전처리, 프로파일 구성에 활용된다.
- 데이터의 기능 : 과학적 발견은 개인의 암묵적 지식에 기초하는 경우가 많으며, 이를 활용하려면 데이터를 기반으로 한 암묵지와 형식지의 상호 작용이 중요하다.
암묵지 : 어떠한 시행착오나 다양하고 오랜 경험을 통해 개인에게 체계화되어 있으며, 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다.
** 학습과 경험을 통하여 개인에게 체계화되어 있지만 겉으로 드러나지 않는 지식
형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다.
** 명시적으로 알 수 있는 형태, 형식을 갖추어 표현하고 공유가 가능
- 지식 창고 매커니즘메커니즘 : 암묵지와 형식지 간 상호 작용을 위한 일본의 경영학자 노나카 이쿠지로의 지식 창조 메커니즘은 다음의 4단계로 구성된다.
4가지 프로세스는 계속해서 반복된다.
1. 공통화(Socialization) : 서로의 경험이나 인식을 공유하며 한 차원 높은 암묵지로 발전시킨다.2. 표출화(Externalization) : 암묵지가 구체화 되어 외부(형식지)로 표현된다.3. 연결화(Combibation) : 형식지를 재분류하여 체계화한다.4. 내면화(Internalization) : 전달받은 형식지를 다시 개인의 것으로 만든다.
- 데이터, 정보, 지식 지혜: 데이터, 정보, 지식, 지혜는 인간의 사회활동 속에서 가치창출을 위한 일련의 프로레스로 연결되어 기능한다.
** 데이터의 정확성은 정보, 지식, 지혜와의 상호관계에서 지대한 영향을 미치며, 가치창출에 있어 핵심적인 역할을 한다.
데이터(Data) : 현실 세계에서 관찰하거나 측정하여 수집한 사실이나 값으로 개별 데이터로는 그 의미가 중요하지 않은 객관적인 사실이다.ex) 온라인 쇼핑 시 노트북 가격은 100만원이며, 오프라인 상점의 노트북 가격은 150만 원이다.정보(Information) : 데이터를 가공하거나 처리하여 데이터 간 관게를 분석하고 그 속에서 도출된 의미를 말하며, 항상 유용한 것은 아니다.ex) 오프라인 상점보다 온라인 쇼핑 시 노트북 가격이 더 저렴하다, 편의점보다 대형마트에서 아이스크림의 가격이 더 저렴하다.지식(Knowledge): 상호 연결된 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 내재화한 고유의 결과물이다.ex) 오프라인 상점보다 저렴한 온라인 쇼핑으로 노트북을 구매할 것이다.지혜(Wisdom) : 축적된 지식을 통해 근본적인 원리를 이해하고 아이디어를 결합하여 도출한 창의적 산물이다.ex) ek른 상품들도 온라인 쇼핑 시 오프라인 상점보다 저렴할 것이다.
지식의 피라미드(가치창출 프로세스)는 데이터부터 지혜로 연결된다.데이터 > 정보 > 지식 > 지혜
'빅데이터분석기사' 카테고리의 다른 글
Part1.빅데이터 분석기획_빅데이터의 이해8️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해7️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해4️⃣5️⃣6️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해3️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해2️⃣ (0) 2024.02.21