-
Part 1. 빅데이터 분석기획_빅데이터의 이해2️⃣빅데이터분석기사 2024. 2. 21. 14:56
02. 데이터 베이스
데이터베이스(DataBase)라는 용어는 1963년 6월에 컴퓨터 중심의 데이터베이스 개발과 관리라는 주제로 미국 SDC(System Development Corporation)가 개최한 심포지엄에서 공식적으로 사용되었다.
** 데이터베이스는 1960년대 미국 정부가 세계 각국에 있는 미군의 군비 상황을 집중 관리하기 위해 컴퓨터 기술을 활용하면서 시작되었으며, 이때 수집된 자료를 데이터(Data)의 기지(Base)라는 뜻으로 표현하였다.
- 데이터 베이스의 정의 : 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독집적 저작물, 데이터 또는 기타 소재의 수집물이다.
데이터 베이스는 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것이다.(저작권법)
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라서 편성된 데이터들의 집합이다.
문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방향으로 이용할 수 있도록 정리한 정보의 집합체이다.
** 데이터베이스는 관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리 시스템(DBMS)을 의미한다.
- 데이터베이스 관리 시스템(DBMS: DataBase Management System) : 데이터 베이스를 관리하며 응용 프로그램들이 데이터 베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어이다.
** 데이터베이스를 효율적으로 관리하기 위한 시스템
[데이터 베이스 관리 시스템의 종류]
관계형 DBMS : 데이터를 열과 행을 이루는 테이블로 표현하는 모델이다.
객체지향 DBMS : 정보를 객체 형태로 표현하는 모델이다.
네트워크 DBMS : 그래프 구조를 기반으로 하는 모델이다.
계층형 DBMS : 트리 구조를 기반으로 하는 모델이다.
SQL(Structured Query Language) : 데이터 베이스에 접근할 때 사용하는 언어
단순한 질의 기능 뿐만 아니라 데이터 정의와 조작 기능을 갖추고 있다.
테이블 단위로 연산을 수행하며 초보자들도 비교적 쉽게 사용 가능하다.
- 데이터 베이스의 특징:
1. 통합된 데이터(Intergrated Data) : 동일한 데이터가 중복되어 저장되지 않음을 의미
데이터의 중복은 관리상 복잡하고 다양한 문제를 초래한다.
2. 저장된 데이터(Stroed Data) : 컴퓨터가 접근할 수 있는 저장매체에 데이터를 저장
3. 공용 데이터(Shared Data) : 여러 사용자가 서로 다른 목적으로 데이터를 함께 이용
일반적으로 대용량화되어 있고 구조가 복잡하다.
4. 변화되는 데이터(Changed Data) : 데이터는 현시점의 상태를 나타내며 지속적으로 갱신
갱신으로 변화하면서도 현재의 정확한 데이터를 유지해야 한다.
[데이터베이스의 장점]
+ 데이터 중복 최소화
+ 실시간 접근 가능
+ 데이터 보안 강화
+ 논리적 및 물리적 독립성 제공
+ 데이터 일관성 제공
+ 데이터 무결성 보장
+ 데이터 공유 용이
[데이터베이스의 단점]
+ 구축과 유지에 따른 비용 발생
+ 백업과 복구 등 관리 필요
- 데이터베이스의 활용:
1. OLTP(OnLine Transaction Processing): 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미
여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스 하고, 바로 처리 결과를 돌려보내는 형태를 말한다.
현재 시점의 데이터만을 데이터베이스가 관리한다는 개념이다.
+ 이미 발생된 트랜잭션에 대해서는 데이터값이 과거의 데이터로 다른 디스크나 테이프 등에 보관될 수 있다.
2. OLAP(OnLine Analyfical Processing) : 정보 위주의 분석 처리를 하는 것으로, OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱하는 것을 의미
다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사결정에 활용할 수 있는 정보를 얻을 수 있게 하는 기술이다.
** OLTP가 데이터 갱신 위주라면 OLAP는 데이터 조회 위주라고 할 수 있다.
- 데이터 웨어하우스(DW : Data Warehouse): 사용자의 의사결정에 도움을 주기 위하여 기관시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
데이터 웨어하우스는 일정한 시간 동안의 데이터를 축적하고 의사결정을 위한 다양한 분석 작업을 수행한다.
** 데이터 웨어하우스 : 데이터만이 아닌 분석 방법까지도 포함하여 조직 내 의사결정을 지원하는 정보 관리 시스템
데이터 웨어하우스의 특징
주제지향성(Subject-orientation) : 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 구성된다.
통합성(Intergration) : 데이터가 데이터 웨어하우스에 입력될 때는 일관된 형태로 변환되며, 전시적인 관점에서 통합된다.
시계열성(Time-variant) : 데이터 웨어하우스의 데이터는 일정 기간 동안 시점별로 이어진다.
비휘발성(Non-volatilization) : 데이터 웨어하우스에 일단 데이터가 적재되면 일괄 처리 작업에 의해 갱신 이외에는 변경이 수행되지 않는다.
[데이터 웨어하우스의 구성]
데이터 모델(Data Model) : 주제 중심적으로 구성된 다차원의 개체-관계형(Entity Relation) 모델로 설계된다.
ETL(Extract, Transform, Load) : 기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에 적재한다.
ODS(Operational Data Store) : 다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리한다.
DW 메타데이터 : 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공한다.
OLAP(Online Analytical Processing) : 사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션이다.
데이터 마이닝(Data Mining) : 대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론이다.
분석 도구 : 데이터 마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구이다.
경영기반 솔루션 : KMS, DSS, BI와 같은 경영의사결정을 지원하기 위한 솔루션이다.
** KMS : 지식관리시스템
** DSS : 의사결정지원시스템
** BI : 데이터를 분석해 기업의 의사결정에 활용하는 일련의 프로세스
'빅데이터분석기사' 카테고리의 다른 글
Part1.빅데이터 분석기획_빅데이터의 이해8️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해7️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해4️⃣5️⃣6️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해3️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해1️⃣ (0) 2024.02.21