-
[B.D.A x 영진닷컴] ADsP 넷째주 스터디ADsP스터디 2024. 4. 21. 06:58
4주차(2024.04.16 ~ 2024.04.22)
p.15 ~ p.54
[PART 01]
chapter 01 데이터의 이해, chapter 02 데이터의 가치와 미래
스터디 느낀점 : 간단한 개념들이라 이해하기 어려움이 없었습니다. 몇 부분 암기하는 것을 제외하면 다회독으로 충분히 이해하고 넘어갈 수 있는 범위였습니다.
스터디 내용:CHAPTER 01 데이터의 이해
01. 데이터와 정보
1) 데이터(Data) : 데이터는 객관적인 사실(fact)로서 추론, 전망, 추정, 예측을 하기 위한 근거(basis)로서 사용되는 특성을 지니며, 다른 객체와의 상호 관계를 바탕으로 가지를 갖게 된다.
- 데이터는 정성적 데이터(qualitative data)와 정량적 데이터(quantitative data)유형으로 구분된다.1. 정성적 데이터 : 언어, 문자 등의 형태로 저장(비정형적 데이터)되며 데이터 저장 및 통계 분석 작업에 많은 시간과 비용이 소요된다.
형태가 일정하지 않은 비정형적 데이터 형태로 저장이 되기 때문에 저장, 검색, 통계 분석 작업에 시간과 비용이 많이 소요된다.> 문자, 언어
2. 정량적 데이터 : 수치, 기초, 도형 등으로 표현(정형적 데이터)되며 형태가 일정한 정형적 데이터 형태로 저장되기 때문에 데이터 저장 및 통계 분석이 용이하다.
데이터의 양이 증가하더라도 데이터베이스 관리 시스템에 저장 및 검색, 분석하여 활용하기 용이하다.> 도형, 숫자, 기호
2) 데이터, 정보, 지식, 지혜(DIKW ; Data, Information, Knowledge, Wisdom) : 데이터를 가공 및 처리하여 얻을 있는 것이 정보, 지식, 지혜가 된다.
> DIKW 구분구분 내용 데이터(Data) 데이터의 존재 형식을 불문하고, 타 데이터와 상관관계가 없는 가공 전의 수치나 기호
ex)A마트는 500원, B마트는 300원에 볼펜을 판매한다.정보(Information) 데이터의 가공 및 상관 관계, 연관 관계를 바탕으로 패턴을 인식하고 의미를 부여한 데이터
ex) B마트의 볼펜이 더 싸다.지식(Knowledge) 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
ex) 상대적으로 저렴한 B마트에서 볼펜을 사야겠다.지혜(Wisdom) 근본적인 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
ex) B마트의 다른 상품도 A 마트보다 저렴할 것이다.데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 DIKW 피라미드 계층 구조로 설명한다.
- Polanyi의 지식 구분 : 지식의 차원에 대해 Michael Polanyi는 암묵지와 형식지 두가지 차원으로 구분하였다.1. 암묵지 : 언어나 문자로 표현하기 어려운 지식으로 학습과 체험으로 개인에게 습득하며 겉으로 들어나지 않는 상태의 지식이다.
ex) 김장 김치 담그기, 자전거 타기
2. 형식지 : 언어나 문자로 표현 가능한 지식으로 문서나 메뉴얼 형태로 외부로 표출되며 여러 사람이 공유할 수 있는 지식이다.
ex) 교과서, 비디오, 데이터베이스, 회계 및 재무 관련 대차대조표에 요규되는 지식 메뉴얼
- 암묵지와 형식지의 상호작용 : 공통화 -> 표출화 -> 결합화(연결화) -> 내면화의 4단계로 이루어진다.
1. 암묵지의 상호 작용 : 공통화, 내면화
2. 형식지의 상호 작용 : 표준화, 연결화(언어, 숫자, 기호로 표출화된 지식 -> 개인의 지식으로 연결화)> 암묵지와 형식지 상호작용 4단계와 특성
특성 내용 1단계 공통화(암묵지-암묵지) 다른 사람과의 상호 작용을 통해 개인이 암묵지를 습득하는 단계로서, 암묵적인 지식 노하우를 다른 사람에게 알려주는 것 2단계 표출화(암묵지-형식지) 개인에게 내재되어 있는 암묵적 지식 노하우를 책이나 교본과 같은 문서나 매체로 저장하는 등 형식지로 만드는 것 3단계 결합(연결)화 (형식지-형식지) - 형식지간 상호 결합을 통해 새로운 형식지가 만들어지는 단계
- 책이나 메뉴얼, 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)을 추가하는 것4단계 내면화(형식지-암묵지) - 형식지가 개인의 암묵지로 체화되어 있는 단계
- 만들어진 책이나 메뉴얼, 교본(형식지)을 보고 다른 직원들이 암묵적 지식(노하우)을 습득하는 것02. 데이터베이스의 정의와 특징
1) 데이터베이스(Database) : 사용자가 데이터를 저장 및 공유하며 사용할 수 있는 데이터의 집합을 의미
데이터베이스는 관련된 레코드의 집합이며, 소프트웨어 관점에서 보면 데이터베이스 관리 시스템(DBMS)을 의미
> 데이터베이스 정의구분 설명 통합된 데이터(Integrated Data) - 데이터베이스에 동일한 내용으로 데이터가 중복되어 있지 않음
- 데이터 중복은 관리상의 부작용을 초래저장된 데이터(Stored Data) - 컴퓨터에서 접근 가능한 저장매체에 저장
- 자기 테이프 또는 자기 디스크와 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것
- 데이터베이스는 기본적으로 컴퓨터 기술을 기반공용 데이터(Shared Data) - 여러 사용자 및 응용 시스템들이 다양한 목적으로 데이터베이스의 데이터를 공동으로 사용
- 대용량화되고 구조가 복잡운영되는 데이터(Operational Data) - 사용자의 목적에 맞게 운영되는 데이터
- 여러 응용 시스템들이 공동으로 소유하고 유지하는 데이터- 데이터베이스의 특징 : 데이터베이스는 단순한 데이터 저장소에서 진화하여 첨단 정보기술을 바탕으로 데이터를 저장 및 검색할 수 있는 복합체가 되었다.
> 데이터베이스 특징구분 설명 실시간 접근성(Real-Time Accessibility) - 사용자로부터 데이터 검색, 질의에 대한 요청을 실시간 처리하여 응답
- 비정형적인 질의(조회)에 대하여 실시간 처리를 통한 응답이 가능해야 함지속적 변화(Continueous Evolution) - 새로운 데이터의 삽입(Insert), 삭제(Delete), 갱신(Update)로 항상 최선의 데이터를 유지
- 데이터베이스의 상태는 동적동시 공유(Concurrent Sharing) 데이터베이스는 서로 다른 목적을 가진 여러 사용자들을 위한 것이므로 다수의 사용자가 동시에 같은 내용의 데이터를 접근하고 공유할 수 있어야 함 내용에 의한 참조(Contents Reference) 데이터베이스에 있는 데이터를 참조할 때 데이터의 주소나 위치에 의해서가 아닌 데이터의 내용으로 검색 - 구조적 관점에서 데이터 유형 : 데이터 유형은 구조적 관점에서 정형, 비정형, 반정형 데이터로 구분된다.
1. 정형(Structured) 데이터 : 행과 열에 의해 데이터의 속성이 구별되는 스프레드시트 형태(표 형식)이다.
스키마 구조 형태가 있으며, 관계형 데이터베이스 관리 시스템(RDBMS)에 저장되고 고정된 필드(속성) 형태로 저장되며 연산이 가능하다.
2. 비정형(Unstructured)데이터 : 형태나 구조가 정형화되지 않은 데이터로 잠재적 가치가 가장 높다.
스키마 구조 형태가 없으며 고정 필드 및 메타 데이터가 정의되어 있지 않고 연산이 불가능하며, 유연한 구조로 주로 몽고 DB같은 NoSQL에 저장된다.
3. 반정형(Semi-structured)데이터 : 반정형 데이터는 미리 정의된 구조는 있으나, 형식은 없는 데이터이다.
데이터 구조에 대한 메타 정보를 포함한 데이터로, 파싱을 통해 구조를 파악하고 정보 활용이 가능하며 스키마 형태의 구조가 있어 정형 데이터처럼 특정한 형태가 있고 연산이 불가능하다.
- 데이터 사전(Data Dictionary) : 자료에 관한 정보가 저장된 저장소이다.
자료의 이름, 표현 방식, 자료의 의미와 사용 방식, 다른 자료와의 관계를 저장하고 데이터베이스 스키마 객체 정보, 테이블, 인덱스, 뷰 등의 정보가 저장된다.1. 개체관계도(ERD; Entity Relationship Diagram) : 개체와 개체 사이의 관계를 도형을 이용해 나타낸 그림이다.
ERD는 사용자와 개발자 간의 자료를 공통적으로 이해할 수 있도록 하는 유용한 수단이다.
2. 인덱스(Index) : 데이터베이스에서 테이블에 대한 동작의 속도를 높여주는 자료구조이다.
테이블 내의 1개 혹은 여러 개의 컬럼을 이용해 생성될 수 있다.
3. 메타 데이터(Meta Data) : 데이터에 관한 데이터로서, 데이터를 설명해주는 데이터를 말한다.
데이터에 관한 구조화된 데이터로, 대량의 정보 가운데에서 확인하고자 하는 정보를 효율적으로 검색하기 위해 원시 데이터(Raw Data)를 일정한 규칙에 따라 구조화 또는 표준화한 정보를 의미한다.
ex) 디지털 카메라의 메타 데이터 : 카메라 정보, 촬영 시간, 플래시 사용 여부, 해상도, 사진 크기 등
2) DBMS : 다수의 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어이다.
데이터베이스 계정을 가진 모든 사용자의 접근이 가능하고 다수의 사용자들이 동시에 트랜잭션하는 경우에도 즉각적으로 결과값을 확인할 수 있다.1. 관계형 데이터베이스 (RDBMS ; Relational Database Management System) : 데이터를 행과 열로 구성된 2차원 표 형식으로 관리하는 데이터베이스이다.
정형화된 테이블로 구성된 데이터 항목들의 집합체로 데이터를 열과 행으로 구성된 하나 이상의 테이블로 저장하며, 기본키가 각 행을 식별한다.
2. 객체지향형 데이터베이스(ODBMS ; Object-oriented DBMS) : 사용자 정의 데이터 및 멀티미디어 데이터 등 복잡한 데이터 구조를 표현 및 관리할 수 있다.
객체들을 생성하여 계층에서 체계적으로 정리하며, 하위 계층이 상위계층으로부터 속성과 방법들을 물려받을 수 있다.
3. NoSQL(Non/Non-Relational/ Not-Only SQL) : SQL 또는 관계형 데이터베이스만을 사용하지 않고 여러 유형의 데이터 베이스를 사용하는 확장형 데이터베이스 관리 시스템이다.
비관계형 데이터베이스 유형으로, 관계형 데이터베이스와는 다른 방식으로 데이터를 저장하고 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 매커니즘을 제공한다.
4. 계층형 DBMS(Hierachical DBMS) : 데이터를 트리 형채로 표현한 구조이다.
트리로 구성한 부모 노드와 자식 노드는 일대다의 관계로 구성된다.
5. 네트워크형 DBMS(Network DBMS) : 그래프 구조를 기반으로 데이터를 표현한다.
데이터의 관계를 다대다의 관계로 구성된다.
6. XML(eXtensible Markup Language) DBMS : 데이터를 XML 형식으로 관리한다.
RDBMS를 대체하기 위해 등장했지만 RDBMS를 넘지 못하면서 비주류로 남았다.
- 데이터베이스 설계 및 고려사항 : 데이터베이스를 설계하는 절차는 요구 조건 분석 -> 개념적 설계 -> 논리적 설계 -> 물리적 설계 -> 구현 순서로 진행된다.
** 무결성, 일관성, 보관성, 독립성, 효율성을 고려해야 함
설계 단계 수행 작업 요구 조건 분석 - 데이터베이스 사용자 및 사용 목적, 사용 범위, 제약 조건 등을 정리
- 명세서를 작성개념적 설계 - E-R 모델, 정보를 추상적 개념으로 표현하는 과정
- DBMS에 독립적인 E-R 다이어그램을 작성
- DBMS에 독립적이고 고차원적인 표현 기법으로 기술논리적 설계 - 자료를 컴퓨터가 이해할 수 있도록 특정 DBMS의 논리적 자료 구조로 변환
- DBMS에 종속적으로 설계
- 현실 세계를 표현하기 위한 데이터베이스의 논리적 구조를 결정물리적 설계 - 논리적 구조로 표현된 데이터를 DBMS에 맞는 물리적 구조의 데이터로 변환하는 과정
- 저장 레코드 양식을 설계구현 목표 DBMS DDL로 스키마 작성 - 데이터베이스의 장단점
장점 단점 - 데이터의 중복을 최소화
- 실시간 데이터 접근 용이
- 데이터 보안 유지
- 데이터 공유
- 데이터 저장공간 절약
- 데이터의 논리적, 물리적 독립성 보장
- 데이터 표준화 및 데이터 공유
- 데이터 일관성과 무결성 유지
- 데이터 통합 관리- 데이터 백업과 복구가 복잡함
- 데이터베이스 전문가 필요
- 시스템이 복잡함
- 통합 시스템 구조 특성 상, 일부에서 장애 발생시 시스템 전체에 걸쳐 문제 발생
- 데이터 베이스 구축에 따른 비용 증가- 데이터 무결성 : 데이터 베이스에서 데이터가 정확하고 일관되게 유지되는 것을 의미한다.
데이터 무결성은 데이터베이스의 중요한 특성으로서, 데이터베이스의 신뢰성과 유효성을 보장한다.1. 개체 무결성 : 데이터베이스의 개체가 일관되게 유지되는 것을 의미한다.
예를 들어, 고객 데이터베이스에서 고객의 이름을 고유해야 한다.
2. 참조 무결성 : 데이터베이스의 두 개체 간의 관계가 일관되게 유지되는 것을 의미한다.
예를 들어, 주문 데이터베이스에서 주문의 고객 ID는 고객 데이터베이스에 있는 고객의 ID와 일치해야 한다.
3. 도메인 무결성 : 데이터베이스의 각 열에 저장되는 데이터의 유효성을 보장하는 것을 의미한다.
예를 들어, 고객 데이터베이스의 나이 열에는 숫자만 저장되어야 한다.
3) SQL : 데이터베이스와의 통신을 위해 만들어진 언어이다.
자료 검색 및 관리, 스키마 구조 생성 및 변경, 객체 접근 관리를 하기 위한 구조적 질의어로 관계형 데이터베이스를 사용할 때, 데이터베이스에 접근할 수 있는 하부언어이다.
- SQL 명령어 : SQL은 데이터 정의어(DDL), 데이터 조작어(DML), 데이터 제어어(DCL), 트랜잭션 제어어(TCL)을 사용한다.1. DDL(Data Definition Language) : 데이터베이스 테이블의 구조를 생성, 변경, 삭제하는 명령어이다.
CREATE, ALTER, DROP, RENAME< TRUNCATE 문이 있다.
2. DML(Data Manipulation Language) : 데이터베이스에서 데이터의 검색, 데이터베이스 테이블에 새로운 행 삽입, 기존 행 수정, 삭제하는 명령이다.
SELETE, INSERT, UPDATE, DELETE 문이 있다.
3. DCL(Data Control Lauguage) : 데이터베이스 관리자(DBA)가 보안, 무결성 유지, 병행 제어, 회복을 위해 사용하는 명령이다.
GRANT, REVOKE 문이 있다.
4. TCL(Transaction Control Language) : 데이터 조작어(DML) 명령어 실행, 취소, 임시 저장할 때 사용하는 명령이다.
COMMIT, ROLLBACK, SAVEPOINT 명령이 있다.
- SELECT 검색문
1. SELECT
> SELECT : 하나 또는 그 이상의 테이블에서 데이터를 추출
> FROM : 테이블을 지정해주는 명령
> WHERE : 데이터를 추출하는 선택조건식을 지정
> GROUP BY : 속성값을 그룹 단위로 분류하여 연산할 때 사용
> HAVING : GROUP BY로 분류된 각 그룹에 대한 조건을 지정할 때 사용, 주로 SQL 집계 함수에 대해 조건을 줌
> ORDER BY : 속성값을 정렬하고자 할 때 사용(asc : 오름차순, desc: 내림차순)
2. SQL 집계함수 : 집계 함수는 여러 행으로부터 하나의 결과값을 반환하는 함수이다.
SELECT 구문에서만 사용되며, 열끼리 연산을 수행하고 주로 평균, 합, 최대, 최소 등을 구하는 데 사용된다.
> SQL 집계 함수 종류 : AVG, COUNT, SUM, STDDEV, VARIAN, MIN
3. 데이터베이스 활용
1) 데이터베이스 솔루션
- 데이터 웨어하우스(DW; Data Warehouse) : 기업 내의 합리적 의사결정을 위해 기업 내부 및 외부의 데이터를 하나로 통합한 데이터 저장소로 정보 검색을 위한 데이터베이스이다.1. 데이터 마트(Data Mart) : 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터웨어하우스를 데이터 마트라고 한다.
데이터 마트는 데이터 웨어하우스의 부분이라고 할 수 있으며, 대개는 생산, 재무와 같이 특정한 조직이나 특정한 업무 팀에서 사용하는 것을 목적으로 한다.
2. BI(Business Intellgence) : 데이터 웨어하우스에 저장된 데이터에 접근하여 의사결정에 필요한 정보를 얻고 활용하는 것이다.
데이터를 통합/분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스를 말하며 기업의 데이터 웨어하우스에 저장된 데이터에 접근해 경영의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용하는 것을 말한다.
3. BA(Business Analytics) : BI보다 발전된 빅데이터 분석 방법으로서, BI를 포함하면서도 미래 예측 기능과 통계분석, 확률분석을 포함한 의사결정을 가능하게 하는 방법이다.
경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석 방법이다.
4. EDW(Enterprise Data Warehouse) : 데이터 웨어하우스(DW)를 전사적으로 확장한 솔루션이다.
여러 애플리케이션의 비즈니스 정보를 중앙 집중화하고 조직 전체에서 분석 및 사용할 수 있도록 하는 데이터베이스 또는 데이터베이스 모음으로 엔터프라이즈 데이터 웨어하우스는 사내 서버 또는 클라우드에 보관할 수 있다.
5. 데이터 레이크(Data Lake) : 데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소이다.
제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매 ,재고, 주문, 공급자와의 거래, 고객 서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지로 데이터 레이크는 빅데이터 분석을 위한 강력한 도구로서, 다양한 소스의 다양한 데이터를 저장, 처리 및 분석할 수 있는 기능을 제공한다.
- 조직 관리 솔루션
1. SCM(Supply Chain Management) : 공급망 관리(SCM)는 기업의 생산, 구매, 유통 등 모든 공급망 단계를 최적화해서 고객이 원하는 제품을 원하는 시간과 장소에 제공할 수 있도록 하는 것이다.
제조, 물류, 유통업체 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술(Information Technology)을 활용, 재고를 최적화하기 위한 솔루션으로 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것이다.
2. CRM(Customer Relationship Management) : 고객 관계 관리는 기업이 고객 관련 자료를 분석해 상품이나 서비스를 고객이 지속적으로 구매할 수 있도록 하기 위한 전략이다.
고객별 구매 이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션이라고 할 수 있다.
3. e-CRM : 인터넷을 통하여 e-데이터 웨어하우스로 수집된 고객과 관련된 데이터를 웹 마이닝(Web Mining)으로 분석하는 것이다.
고객층의 정교한 세분화와 개인 고객과의 1:1 관계형성을 실현하는 주요한 e-비즈니스 도구이다.
4. KMS(Knowledge Management System) : 지식 관리 시스템은 조직 내의 인적 자원들이 축적한 개별적인 지식을 체계적으로 관리하는 시스템이다.
5. ERP(Enterprise Resource Planning) : 전사적 자원 관리는 기업 내의 생산, 물류, 영업, 회계, 구매, 재고, 주문, 고객 서비스, 공급자와의 거래 등 업무 프로세스들을 통합적으로 관리한다.
제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객 서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지이다.
6. RTE(Real Time Enterprise) : 실시간으로 효과적인 전략 수립 및 의사 결정을 수행하고 경영자원을 효과적으로 배분, 집행하여 경영성과를 도출한느 실시간 기업 모델이다.
7. EAI(Enterprise Application Integration) : 기업 어플리케이션 통합은 전사적으로 상호 연관된 어플리케이션들을 연동하여 필요한 정보를 통합적으로 관리하는 솔루션이다.
8. BPR(Business Process Re-engineering) : 기업/조직의 핵심적인 업무 프로세스에 대한 근본적인 사고 전환과 급진적인 재설계를 통하여 프로세스를 고객 지향적으로 최적화하며, 효율성을 재고하여 기존의 것과는 완전히 다른 새로운 구조를 정립하는 경영기법이다.
2) OLTP, OLAP
- OLTP(On-Line Transaction Processing) : 온라인 거래 처리 형채로 호스트 컴퓨터와 접속된 여러 단말 간의 처리 방식의 하나이다.
주 컴퓨터와 통신 회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내주는 처리 방식이다.
ex) 상품 주문, 회원 정보 수정
- OLAP(On-Line Analytical Processing) : 온라인 분석 처리로서 실시간 다차원으로 이루어진 데이터로부터 통계적인 요약정보를 제공할 수 있는 기술이다.
다차원의 데이터를 대화식으로 분석하기 위한 SW이다.
ex) 3년간 회사의 직급별 임금 상승률
CHAPTER 02 데이터의 가치와 미래
01 빅데이터의 이해
1) 빅데이터(Big Data) : 기존의 일반적인 소프트웨어로는 수집, 저장, 분석이 어려운 규모의 데이터로 정형과 비정형 데이터로 나누어지며, 대용량 데이터를 활용해 새로운 가치나 인사이트를 추출할 수 있다.
** 데이터의 양(Volume) 및 데이터의 유형과 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 등장
- 빅데이터 특성 : 빅데이터는 과거에는 구조적인 데이터 형태였으며, 최근들어 데이터는 다양하고 복잡한 구조를 띄며, 소셜 데디터, 센서 기반의 사물인터넷(IoT) 등 실시간 데이터로 변화하고 있다.
빅데이터의 특징은 3V, 4V, 5V, 7V로 분류할 수 있다.
> 3V : 데이터의 양(Volume), 데이터 유형 및 다양성(Variety), 데이터 처리 속도(Velocity)
> 4V : 3V + 데이터 가치(Value)
> 5V : 4V + 데이터 신뢰성(Veracity)
> 7V : 5V + 데이터 정확성(Validity) + 데이터 휘발성(Volatility)
02 빅데이터 가치와 영향
1) 빅데이터의 가치
- 빅데이터의 활용 : 디지털 환경의 발전으로 대규모 데이터가 생성되면서 빅데이터 시대에 진입하였고 빅데이터를 활용하여 각종 공공기관 대국민 서비스, 비즈니스, 경제 성장에 필요한 정보를 제공할 수 있으며, 산업 전반의 생산성을 향상시킬 것으로 기대된다.
> 빅데이터 활용의 기본 3요소기본 요소 설명 데이터 모든 것을 데이터화하고 축적된 데이터를 창의적 분석함으로써 새로운 가치를 부여 기술 - 대용량의 데이터를 빠르고 효율적으로 처리하기 위한 알고리즘이 발전
- 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 발전인력 데이터 과학자, 인공지능 전문자, 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석이 가능해짐
- 빅데이터 가치 산정 : 데이터의 활용 방식, 새로운 가치 창출, 분석 기술의 발전으로 인해 빅데이터 시대에는 가치를 정확하게 측정하는 것이 어렵다.1. 데이터의 활용 방식 : 데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할 것인지 알 수 없고 데이터의 조합이 기존에 해결할 수 없었던 문제를 해결하는데 도움이 되므로 가치 산정이 어렵다.
ex) 구글 검색 시 매번 클라우드에 저장된 웹사이트 정보 활용2. 새로운 가치 창출 : 빅데이터 시대에는 기존에 존재하지 않았던 새로운 기회를 창출함에 따라 그 가치를 바로 측정하기 어렵다.
ex) 고객 성향에 맞춘 추천 서비스
3. 분석 기술의 발전 : 분석 기술이 발전함에 따라 현재를 비록 가치가 없는 데이터라고 할지라도 미래에는 새로운 분석 기법의 등장으로 인해 거대한 가치를 만들어내는 재료가 될 가능성이 있다.
ex) 텍스트 마아닝 기반 SNS 분석
2) 빅데이터의 영향 : 빅데이터를 다양한 산업 시장에서 활용함에 따라 일반인들은 개인 맞춤형 서비스를 저렴한 비용으로 이요할 수 있게 되었고 빅데이터를 이용하는 기업 및 일반인들은 적절한 시기에 필요로 하는 정보를 얻어냄으로써 다양한 방식으로 기회 비용을 절약할 수 있다.
- 빅데이터 출현 배경 및 변화 : 빅데이터는 기존의 데이터 및 저장, 처리 방식 등에 있어 기술 발전과 함께 확산된 현상이다.1. 빅데이터 출현 배경 : 빅데이터는 디지털화, 저장기술 및 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전과 관련이 있으며 클라우드 컴퓨팅은 빅데이터 분석에 경제적 효과를 제공해준 결정적인 중요한 기술이며, 클라우드 분산 병렬처리 컴퓨팅 기술로 대용량 데이터를 처리하는데 소요되는 비용을 획기적으로 줄일 수 있었다.
소셜 미디어 서비스, 영상 등 비정형 데이터의 확산과 데이터 처리 기술 발전이 있었다.
2. 빅데이터 현상 : 산업계에서 일어난 변화를 보면 빅데이터 현상은 양질 전환 법칙으로 설명할 수 있다. 즉, 기업들이 보유한 데이터가 '거대한 가치 창출이 가능할 만큼 충분한 규모'에 도달하였다.
- IoT(Internet of Thing, 사물 인터넷) : 인터넷으로 연결된 기계마다 통신 장치를 갖추고 있는 환경에서 사람 또는 기계끼리 자동으로 통신하는 기술로써 사물과 사람, 사물과 사물 간의 정보를 상호 소통하는 방식이다.
- 빅데이터 활용 분야1. 연관분석(Association Analysis) : 아이템 간에 의미있는 상관관계가 있는지를 찾아내는 방법이다.
2. 분류분석(Classification Analysis) : 문서를 분류하거나 조직을 그룹으로 나눌 때와 같은 문제 해결에 사용되는 분석 기법이다.
3. 유전 알고리즘 : 최적화가 필요한 문제의 해결책을 자연선택, 동연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 알고리즘이다.
4. 기계학습 : 훈련 데이터로부터 학습을 통해 데이터가 가지고 있는 패턴을 학습해 '예측' 또는 '분류'하는 업무에 활용하는 알고리즘이다.
5. 회귀분석 : 데이터를 구성하는 독립변수 값이 변경됨에 따라 종속변수 값이 어떻게 변하는지를 통해 두 변수 관계를 파악하는 방법이다.
선형함수로 나타낼 수 있는 수치 데이터 분석에 사용된다.
6. 감정 분석 : 커뮤니티, 카페, 블로그 등 특정 글을 작성한 사람의 긍정, 부정, 슬픔, 기쁨 등의 감정을 분석한다.
소셜 미디어 서비스 사용자가 남긴 텍스트 등을 바탕으로 고객이 원하는 것이 무엇인지를 찾아낼 때 활용한다.
7. 소셜 네트워크 분석(사회관계망분석, SNA) : 특정인과 다른 사람이 어느 정도의 관계인가를 파악할 때 사용하는 방법이다.
영향력 있는 사람을 찾아낼 수 있으면, 사람들 간 소셜 관계를 파악할 수 있다.
03 빅데이터 위기요인과 통제방안
1) 빅데이터 위기요인 : 빅데이터 위기 요인의 종류에는 사생활 침해, 책임 훼손의 원칙, 데이터의 오용이 있다.
- 사생활 침해 : 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리되어 2차, 3차적 목적으로 재활용될 가능성이 증가하고 있다.
개인정보가 포함된 데이터를 목적 이외에 활용할 경우, 사생활 침해를 넘어 사회 및 경제적 위협으로 변형될 수 있다.
- 책임 훼손의원칙 : 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가한다.
잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있다.
- 데이터의 오용 : 빅데이터는 일어난 일에 대한 데이터에 의존한다. 따라서, 빅데이터를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가지지만, 항상 맞을 수는 없다.
데이터에 대해 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수도 있다.
2) 개인정보 비식별화 기법 : 개인정보 비식별 기술은 데이터셋에서 특정 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대처하는 등의 방법으로 개인을 식별할 수 없도록 하는 방법이다.
04 미래의 빅데이터
1) 미래 사회와 빅데이터
- 미래 사회의 특성 : 다양한 기술들의 융합과 관련하여 창조력이 요구되고 다양한 위험 사항에 대해 대응력이 요구 된다.
- 미래 빅데이터의 활용 : 최근 사회 경계적 환경은 단순한 세계에서 복잡한 세계로 변화하고 있고 신속한 의사 결정이 필요한 비즈니스에서는 실시간으로 데이터 간 상관관계 분석에서 도출된 인사이트를 기반으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있다.
2) 빅데이터 활용 사례 : 구글, 애플 등의 기업에서는 정형화된 데이터뿐만 아니라 비정형 데이터를 수집하여 인터넷과 스마트폰의 서비스에 활용하고 있으며 미국 국가안보국에서는 소셜미디어, 통화기록 등의 모니터링과 데이터 분석으로 국가 안전을 확보하기 위해 노력하고 있다.
'ADsP스터디' 카테고리의 다른 글
[B.D.A x 영진닷컴] ADsP 셋째주 스터디 (0) 2024.04.11 [BDA x 영진닷컴] ADsP 둘째주 스터디 (0) 2024.04.08 [BDA x 영진닷컴] ADsP 첫째주 스터디 (2) 2024.03.30