-
Part 1. 빅데이터 분석기획_빅데이터의 이해7️⃣빅데이터분석기사 2024. 2. 21. 18:37
07. 빅데이터 플랫폼
빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술을 잘 사용할 수 있도록 준비된 환경이다.
** 빅데이터를 분석 또는 활용하는데 필요한 필수적인 것으로 빅데이터 기술의 집합체
- 빅데이터 플랫폼의 등장 배경
1. 비즈니스 요구 사항 변화
빠른 의사 결정 속도보다 장기적이고 전략적인 접근이 필요하다.
초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경이 등장하였다.
새로운 형태의 비즈니스 질문과 통찰이 요구되고 있다.
2. 데이터 규모와 처리 복잡도 증가
데이터의 범위와 기간이 확장되어 처리할 데이터 규모와 내용이 방대해졌다.
** 고객 정보, 센서나 장비 데이터, 공공 데이터 등 내외부적인 데이터 종류가 많아졌다.
정보의 수집 및 분석이 일시적이지 않고 장기간에 걸쳐 수행되어야 한다.
다양한 경로를 통해 다양한 형태의 데이터 수집과 복잡한 로직을 이용한 대용량 처리가 필요하다.
분산처리가 불가피하며 이를 제어할 수 있는 고도의 기술이 필요하다.
3. 데이터 구조의 변화와 신속성 요구
SNS 데이터나 로그 파일, 스트임 데이터 등 비정형 데이터의 비중과 실시간 처리에 대한 요구가 높아지고 있다.
** 로그 : 컴퓨터에 기록되는 접속 하거나 사용한 정보 등
약한 관계형 스키마나 반정형 데이터와 같은 정형적이지 않은 데이터가 증가하고 있다.
데이터 발생 속도가 빨라져 빠른 수집과 가공 및 분석 등 처리가 요구된다.
4. 데이터 분석 유연성 증대
기존의 통계적 분석 방법과 같이 정해진 절차와 과정을 따르지 않아도 분석 목적에 맞게 유연한 분석이 가능하게 되었다.
인공 지능 기술의 발전으로 다양한 방법론을 통해 텍스트, 음성, 이미지, 동영상 등 다양한 요소들의 분석이 가능하게 되었다.
- 빅데이터 플랫폼의 기능 : 빅데이터를 처리하는 과정에서 부하 발생은 불가피하며, 빅데이터 플랫폼은 이러한 부하들을 기술적인 요소들을 결합하여 해소
1. 컴퓨팅 부하 발생
빅데이터를 처리하고자 할 때 연산과정에서 CPU, GPU, 메모리 등을 사용하며 부하 발생
-> 빅데이터 플랫폼을 통한 CPU 성능 향상 및 클러스터에서 효과적인 자원 할당을 통해 부하를 제어
** 클러스터 : 여러 대의 컴퓨터들이 연결되어 하나의 시스템처럼 동작하는 컴퓨터들의 집합
2. 저장 부하 발생
빅데이터 처리 과정의 입력 데이터, 중간 가공 데이터, 출력 데이터 등 여러 단계에서 부하 발생
-> 빅데이터 플랫폼을 통한 파일 시스템 개선, 메모리와 파일 시스템의 효과적인 사용 및 데이터베이스 성능 향상으로 제어
3. 네트워크 부하 발생
빅데이터를 처리하는 과정에서 분산 처리를 하고자 할 때 노드 간의 통신 과정에서 부하가 발생한다.
** 노드 : 지역 네트워크에 연결된 컴퓨터와 그 안에 속한 장비들을 통 들어 일컫는 용어, 자료구조에서는 데이터의 기본 단위를 의미
-> 빅데이터 플랫폼을 통한 대역폭의 효과적 분배 및 네트워크 상에서 최단 거리에 위치한 노드를 탐색
- 빅데이터 플랫폼의 조건 : 빅데이터 플랫폼은 서비스 사용자와 제공자 어느 한쪽에 치우쳐서는 안 되며 모두가 만족할 수 있는 환경을 제공해야 한다.
1. 서비스 사용자 측면에서의 체크리스트
☑️ 주어진 문제를 해결하기에 충분한 요소들을 제공하는 환경인가?
☑️ 편리한 사용자 인터페이스(UI)를 제공하는가?
2. 서비스 제공자 측면에서의 체크리스트
☑️ 성능적인 문제가 발생하지 않도록 충분한 관리 기능을 제공하는가?
☑️ 사용자 접속 및 인증을 관리할 수 있는 기능을 제공하는가?
☑️ 효율적인 운영을 위한 자원 관리 기능을 제공하는가?
☑️ 서비스 품질 관리를 위한 각종 지표들을 충분히 제공하는가?
☑️ 안전한 서비스 제공을 위한 보안적인 요소들을 갖추고 있는가?
☑️ 플랫폼 도입을 통해 비용 절감을 이룰 수 있는가?
- 빅데이터 플랫폼의 구조: 빅데이터 플랫폼은 위에서부터 소프트웨어 계층, 플랫폼 계층, 인프라스트럭쳐 계층의 3 계층으로 구성
** 빅데이터 처리 과정 별 요소 기술을 고려하여 구성
1. 소프트웨어 계층 : 빅데이터 어플리케이션을 구성하며 데이터 처리 및 분석과 이를 위한 데이터 수집, 정제
데이터 처리 및 분석 엔진 > 데이터를 처리하고 분석한다.
+ 데이터 처리 및 분석 : 서비스에 따른 데이터 처리 및 분석을 수행
+ 처리 및 분석 워크 플로우 구성 : 데이터 처리 및 분석을 위한 워크플로우를 구성
+ 데이터 표현 : 데이터 처리 및 분석한 결과를 표현
데이터 수집 및 정제 모듈 > 빅데이터 분석 엔진을 위한 데이터를 수집하고 정제한다.
+ 데이터 추출 : 원천 데이터에서 데이터 추출
+ 데이터 변환 : 원천 데이터에서 추출한 데이터를 변화하고 균질화 및 정제
+ 데이터 적재 : 변화된 데이터를 데이터 웨어하우스에 적재
서비스 관리 모듈 > 소프트 웨어 계층에서 제공하는 서비스를 관리한다.
사용자 관리 모듈 > 사용자를 관리한다.
+ 인증 및 접속 관리 : 사용자별 인증과 접속 관리
+ 사용자 서비스 관리 : 사용자별 서비스를 관리
+ SLA 관리 : 사용자별 서비스 수준 협약(SLA)을 관리
** SLA(Service Level Agreement) : 서비스 제공 업체와 고객 간 맺는 서비스 품질에 대한 계약, 사전에 정의한 수준의 서비스가 제공될 수 있게 품질 보장
모니터링 모듈 > 플랫폼 및 인프라스트럭쳐 서비스 사용성과 성능을 모니터링한다.
보안 모듈 > 소프트웨어 계층의 보안을 관리한다.
2. 플랫폼 계층 : 빅데이터 어플리케이션을 실행하기 위한 플랫폼을 제공하며, 작업 스케줄링이나 데이터 및 자원 할당과 관리, 프로파일링 등을 수행
** 프로파일링 : 속도 및 최적화에 중점, CPU와 메모리 사용량 및 실행 시간 등을 추적하는 것
사용자 요청 파싱 > 사용자가 요청 내용을 파싱 한다.
작업 스케줄링 모듈 > 사용자 어플리케이션 실행 작업을 스케줄링한다.
데이터 및 자원 할당 모듈 > 사용자 어플리케이션을 실행하는 데이터와 자원을 할당한다.
+ 초기 데이터 할당 : 사용자가 어플리케이션을 실행하는 사용자의 데이터를 초기 할당
+ 데이터 재할당 및 복제 : 동적인 상황을 고려하여 데이터를 재할당 및 복제
+ 초기 자원 할당 : 사용자 어플리케이션을 실행하는 인프라스트럭처의 자원을 초기 할당
+ 자원 재할당 및 스케일링 : 동적인 상황을 고려하여 자원을 재할당 및 스케일링
프로파일링 모듈 > 자원 및 어플리케이션을 프로파일링 또는 시뮬레이션한다.
+ 자원 프로파일링 : 인프라스트럭처 자원을 할당하는 인프라스트럭처 자원을 프로파일링
+ 어플리케이션 프로파일링 : 인프라스트럭처 자원을 할당하는 사용자 어플리케이션을 프로파일링
+ 어플리게이션 시뮬레이션 : 인프라스트럭처 자원 선택 및 구성을 하는 사용자 어플리케이션을 시뮬레이션
데이터 관리 모듈 > 사용자 데이터를 관리한다.
자원 관리 모듈 > 인프라스트럭처 자원을 관리한다.
서비스 관리 모듈 > 플랫폼 계층에서 제공하는 서비스를 관리한다.
사용자 관리 모듈 > 사용자를 관리한다.
+ 인증 및 접속 관리 : 사용자별 인증과 접속 관리
+ 사용자 서비스 관리 : 사용자별 서비스를 관리
+ SLA 관리 : 사용자별 서비스 수준 협약을 관리
모니터링 모듈 > 인프라스터럭처 서비스 가용성과 성능을 모니터링한다.
보안 모듈 > 소프트웨어 계층의 보안을 관리한다.
3. 인프라스트럭처 계층 : 자원 배치와 스토리지 관리, 노드 및 네트워크 관리 등을 통해 빅데이터 처리와 분석에 필요한 자원을 제공
사용자 요청 파싱 > 사용자가 요청한 내용을 파싱 한다.
자원 배치 모듈 > 사용자에게 제공할 자원을 배치한다.
+ 초기 자원 배치 : 사용자에게 제공하는 자원을 초기 배치
+ 자원 재배치 및 스케일링 : 동적인 상황을 고려하여 자원을 재배치 및 스케일링
노드 관리 모듈 > 인프라스트럭처 내의 노드를 관리한다.
데이터 관리 모듈 > 인프라스트럭처 내의 스토리지를 관리한다.
네트워크 관리 모듈 > 인프라스트럭처 내외의 네트워크를 관리한다.
서비스 관리 모듈 > 인프라스트럭처 계층에서 제공하는 서비스를 관리한다.
사용자 관리 모듈 > 사용자를 관리한다.
+ 인증 및 접속 관리 : 사용자별 인증과 접속 관리
+ 사용자 서비스 관리 : 사용자별 서비스를 관리
+ SLA 관리 : 사용자별 서비스 수준 협약을 관리
모니터링 모듈 > 서비스를 모니터링한다.
+ 서비스 모니터링 : 서비스 가용성과 성능을 모니터링
+ 자원 모니터링 : 노드, 스토리지, 네트워크 등 자원 가용성과 성능을 모니터링
보안 모듈 > 소프트 웨어 계층의 보안을 관리한다.
'빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사(실기)_시험준비 (0) 2024.02.22 Part1.빅데이터 분석기획_빅데이터의 이해8️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해4️⃣5️⃣6️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해3️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해2️⃣ (0) 2024.02.21