-
Part1.빅데이터 분석기획_빅데이터의 이해8️⃣빅데이터분석기사 2024. 2. 21. 19:45
08. 빅데이터와 인공지능
- 인공지능(AI: Articial Intelligence)
1. 인공지능의 정의
인공지능은 기게를 지능화하는 노력이며, 지능화란 객체가 환경에서 적절히, 그리고 예지력을 갖고 작동하도록 하는 것이다. (Artifical Intelligence and life in 2030, 스탠퍼트대학교 AI100)
인공지능은 합리적 행동 수행자(Rational Agent)이며, 어떤 행동이 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트를 구축하는 것이다. (Artifical Intellgence - a modern approach [3rd edition], 러셀과 노빅]
인공지능은 설정한 목표를 극대화 하는 행동을 제시하는 의사결정 로직이다.
인공지능은 사람과 흡사한 생각과 행동에 초점을 맞춘 정의도 소개된 바 있으나, 인공지능 구현방법이 구체화될수록 인간처럼 보다는 합리성을 더 강조하고 있다.
2. 인공 지능과 기계학습 및 딥러닝의 관계
인공지능을 논할 때 기계학습과 딥러닝을 혼재하여 사용한다.
+ 인공지능은 사람이 생각하고 판단하는 사고 구조를 구축하려는 전반적인 노력
+ 기계학습은 인공지능의 연구 분야 중 하나로 인간의 학습 능력과 같은 기능을 축적된 데이터를 활용하여 실현하고자 하는 기술 및 방법
+ 딥러닝은 기계학습 방법 중 하나로 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있도록 인공신경망 등의 기술을 이용한 방법
3. 딥러닝(Deep Learning)의 특징
딥러닝은 제프리 헌튼(Geoffrey Everest Hinton)의 노력으로 함수 추정 방법으로써의 신경망 관점에서 정보를 압축, 가공, 재현하는 알고리즘으로 일반화하면서 인공지능의 핵심 동인이 되었다.
깊은 구조에 의해 엄청난 양의 데이터를 학습할 수 있는 특징을 갖고 있어 인공지능 발전에 크게 기여하였다.
+ 딥러닝의 학습을 위한 데이터의 확보는 곧 우수한 인공지능 개발과 깊은 관련
** 전신인 신경망(Nerual Network)의 여러 단점을 극복해 유연성과 확장성을 확보
4. 기계학습의 종류
지도학습(Supervised Learning)
> 학습 데이터로부터 하나의 함수를 유추해내기 위한 방법이다.
+ 학습 데이터는 일반적으로 입력 객체에 대한 속성을 벡터 형태로 포함하고 있으며, 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다.
** 각각의 개별 데이터 포인트를 입력 객체로 사용, 이 데이터 포인트를 벡터 형태로 표현되며 각 속성이 벡터의 요소로 들어가고 원하는 결과가 무엇인지 표시되어 있다는 것은 지도 학습에서 데이터에 대한 레이블 또는 타깃 값을 가지고 있음을 나타냄
** 이는 모델이 학습할 때 입력 데이터와 해당하는 출력(레이블 또는 타깃) 사이의 관게를 학습하도록 도와줌
+ 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석이라 한다.
+ 주어진 입력 벡터가 어떤 종류의 값인지 표시하는 것을 분류라 한다.
> 지도 학습기(Supervied Leaner)가 하는 작업 훈련 데이터로 부터 주어진 데이터에 대해 예측하고자 하는 값을 올바로 추측해 내는 것이다.
+ 학습기는 알맞은 방법을 통하여 기존의 훈련데이터로부터 나타나지 않던 상황까지도 일반화하여 처리할 수 있어야 한다.
비지도학습(Unsupervised Learning)
** 비지도 학습 = 자율 학습
> 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주가 속한다.
> 지도학습 혹은 강화학습과는 달리 입력값에 대한 목표치가 주어지지 않는다.
** "입력값에 대한 목표치" : 학습의 목표를 나타냄
** 지도학습에서는 입력 데이터와 해당하는 출력(레이블 또는 타깃)이 함께 제공되어 모델이 입력과 출력 간의 관계를 학습하지만 비지도 학습에서는 출력값이 주어지지 않음
** 모델은 입력 데이터만을 이용하여 데이터의 구조나 패턴을 발견하거나 데이터를 클러스터링하거나 차원 축소를 수행함
** 예를 들어, 클러스터링 알고리즘은 비슷한 속성을 갖는 데이터를 그룹화하여 데이터의 서로 다른 그룹을 식별하는데 사용됨
** 비지도 학습은 입력 데이터만으로 학습하므로 데이터에 대한 사전 지식이 없어도 적용 가능
> 통계의 밀도 추정(Density Estimation)과 깊은 연관이 있으며, 데이터의 주요 특징을 요약하고 설명할 수 있다.
> 군집화, 독립성분분석(Indenpendent Component Analysis)방법 등이 있다.
준지도학습(Semi-supervised Learning)
> 목표값이 표시된 데이터와 표시되지 않은 데이터를 모두 학습에 사용하는 것을 말한다.
+ 대개의 경우 이러한 방법에 사용되는 학습 데이터는 목표값이 표시된 데이터보다 표시되지 않은 데이터를 많이 갖고 있다.
+ 목표값이 충분히 표시된 학습 데이터를 사용하는 지도학습과 목표값이 표시되지 않은 학습데이터를 사용하는 비지도 학습 사이에 위치한다.
> 많은 기계 학습 연구자들이 목표값이 없는 데이터에 적은 양의 목표값을 포함한 데이터를 사용할 경우 학습 정확도에 있어서 상당히 좋아짐을 확인하였다.
> 두 개 이상의 학습기 각각이 예제를 통해 훈련되는 상호 훈련 방법 등이 있다.
강화학습(Reinforcement Learning)
> 행동 심리학에서 영감을 받았으며, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 순서를 선택하는 방법이다.
+ 운용 과학, 제어이론에서 강화학습은 '근사 동적 계획법'이라 부르는 분야에서 연구된다.
+ 경제학, 게임 이론 분야에서 강화학습은 어떻게 제한된 합리성하에서 평형이 일어날 수 있는지를 설명하는데에 사용되기도 한다.
> 강화학습의 초점은 학습 과정(on-line)에서 성능이며, 이는 탐색(exploraion)과 이용(exploitation)의 균형을 맞춤으로써 제고된다.
** "탐색과 이용의 균형을 맞춤" : 강화 학습 에이전트가 미래에 어떤 행동을 취할 지 결정할 때, 기존에 학습한 지식을 이용하여 가장 좋은 행동을 선택하는 것(exploitation)과 새로운 행동을 시도하고 미지의 지식을 탐색하는 것(exploration) 사이의 균형을 맞추는 것을 의미
+ 탐색과 이용의 균형 문제는 강화학습에서 가장 많이 연구된 문제로, 다중슬롯머신 문제(multi-armed bandit problem)와 유한한 마르코프 결정 과정 등에서 연구되었다.
5 기계학습 방법에 따른 인공지능 응용분야
[지도학습]
분류모형 > 이미지 인식, 음성 인식, 신용평가 및 사기검출, 불량 예측 및 원인 발굴
회귀모형 > 시세/가격/주가 예측, 강우량 예측 등
[비지도학습]
군집분석 > 텍스트 토픽 분석
오토인코더(AutoEncoder) > 이상징후 탐지, 노이즈 제거, 텍스트 벡터화
생성적 적대 신경망(Generative Adversarial Network) > 시뮬레이션 데이터 생성, 누락 데이터 생성, 패션 데이터 생성 등
[강화학습]
강화학습 > 게임 플레이어 생성, 로봇 학습 알고리즘, 공급망 최적화 등
- 인공지능 데이터 학습의 진화
1. 전이학습(Transfer Learning) : 전이학습은 기존의 학습된 모델의 지식을 새로운 문제에 적용하여 학습을 빠르고 효율적으로 수행하는 머신러닝 기법
전이학습은 기존의 모델이 학습한 특성, 가중치, 표현 등을 새로운 모델에 전달하여 새로운 작업에 적용하는 방식으로 작동한다.
비슷한 분야에서 학습된 딥러닝 모형을 다른 문제를 해결하기 위해 사용하고자 할 때 적은 양의 데이터로도 좋은 결과를 얻을 수 있다.
주로 이미지, 언어, 텍스트 인식과 같이 지도학습 중 분류모형인 인식(recognition)문제에 활용 가능하다.
+ 인식 문제의 경우 데이터 표준화가 가능하여 사전 학습 모형 입력 형식에 맞출 수 있다.
** 사전 학습한 이미지 분류 모델을 가져와 새로운 작업인 객체감지나 세그멘테이션에 적용하는 경우가 많음, 이를 통해 적은 양의 데이터로도 높은 성능을 달성할 수 있음
2. 전이학습 기반 사전학습모형(Pre-trained Model) : 학습 데이터에 의한 인지 능력을 갖춘 딥러닝 모형에 추가적인 데이터를 학습시키는 방식
데이터 학습량에 따라 점차 발전하는 것도 중요하지만, 응용력을 갖추는 것 또한 필수적이다.
상대적으로 적은 양의 데이터로도 제한된 문제에 인공지능 적용이 가능하다.
+ 이미 학습된 사전학습모형도 데이터를 함축한 초보적 인공지능으로서 충분한 가치를 지닌 새로운 의미의 데이터라고 할 수 있음
3. BERT(Bidirectional Encoder Representations from Transformers) : 2018년 구글에서 발표한 언어인식 사전학습모형
확보된 언어 데이터의 추가 학습을 통한 신속한 학습이 가능하다.
다층 임베딩 구조를 통해 1억 2천 개가 넘는 파라미터로 구성된 획기적인 모형이다.
** 임베딩(embeding) : 특정 데이터를 숫자로 채워진 벡터, 행렬로 바꾸는 과정으로 수학적으로 표현된 n차원 벡터들을 통해 컴퓨터가 관계를 유추
256개까지의 문자가 입력되어 768차원 숫자 벡터가 생성되는 방식이다.
언어 인식 뿐 아니라, 번역, 챗봇의 Q&A엔진으로 활용 가능하다.
- 빅데이터와 인공지능의 관계
1. 인공지능을 위한 학습 데이터 확보:
학습 데이터 측면을 고려한 양질을 데이터 확보는 결국 성공적인 인공지능 구현과 직결된다.
딥러닝은 깊은 구조를 통해 무한한 모수 추정이 필요한 만큼 많은 양의 데이터가 필요하다.
인공지능 학습에 활용될 수 있는 데이터로 가공이 필요하며, 학습의 가이드를 제공해주는 애노테이션 작업이 필수적이다.
2. 학습 데이터의 애노테이션 작업 : 많은 데이터 확보 후 애노테이션을 통해 학습이 가능한 데이터로 가공하는 작업이 필요
** 애노테이션(annotation) : 데이터 상의 주석 작업으로 딥러닝과 같은 학습 알고리즘이 무엇을 학습하여야 하는지 알려주는 표식 작업
+ 작업의 특성상 많은 수작업이 동반되며, 이로 인해 인공지능 사업은 노동집약적이라는 인식을 만들어냄
3. 애노테이션 작업을 위한 도구로써의 인공지능
인공지능 시장이 확장되며 애노테이션 작업을 전문으로 하는 기업의 수가 증가하였다.
+ 경쟁으로 인해 학습용 데이터에 대한 보안 및 애노테이션 결과에 대한 품질 요구 수준이 높아짐
+ 기업들은 데이터 업로드 및 애노테이션 도구, 작업 모니터링을 위한 플랫폼을 제공하기 시작
현재 자동으로 애노테이션을 수행해주는 인공지능 기반의 애노테이션 도구를 제공하는 서비스로 진화 중이다.
4. 인공지능의 기술동향
01. 기계학습 프레임워크(Machine Learning Framework) 보급 확대:
** 기계학습 프레임워크 : 인터페이스와 라이브러리, 툴 등 기계학습 모형 개발을 쉽고 빠르게 하도록 지원하는 기반
구글 브레인이 개발한 텐서플로우는 파이썬 기반 딥러닝 라이브러리로 여러 CPU 및 GPU와 플랫폼에서 사용 가능하다.
케라스는 딥러닝 신경망 구축을 위한 단순화된 인터페이스를 가진 라이브러리이며, 몇 줄의 코드만으로 딥러닝 모형 개발이 가능하다.
** 케라스 : 파이썬으로 작성된 오픈 소스 신경망 라이브러리
02. 생성적 적대 신경망(GAN : Generative Adversarial Networks): 두 개의 인공신경망으로 구성된 딥러닝 이미지 생성 알고리즘
생성자가 가짜 사례를 생성하면 감별자가 진위를 판별하도록 구성한 후 이들이 적대적 관계 속에서 공방전을 반복하도록 한다.
+ 가짜 사례의 정밀도를 점점 더 진짜 사례와 구별하기 어려운 수준으로 높이는 방식으로 작동
주로 새로운 합성 이미지를 생성하는 분석에 많이 적용되어 왔으나, 점차 다른 분야에 응용하는 사례가 늘고 있다.
03. 오토인코더(Auto-encoder) : 라벨이 설정되어 있지 않은 학습 데이터로부터 더욱 효율적인 코드로 표현하도록 학습하는 신경망
입력 데이터의 차원을 줄여 모형을 단순화시키기 위해 활용할 수 있다.
04. 설명 가능한 인공지능(XAI : eXplainable AI) : 결론 도출 과정에 대한 근거를 차트나 수치 또는 자연어 형태의 설명으로 제공
기존의 기계학습은 정확한 예측을 할 수 있도록 하는 뱡향으로 개발되어 왔다.
+ 기존 기계학습의 완성된 모형은 내부 구조가 매우 복잡하고 의미를 이해하기 어려워 일종의 블랙박스 모형이라 불림
05. 기계학습 자동화(AutoML) : 명칭 그대로 기계학습의 전체 과정을 자동화하는 것
세부적으로는 데이터의 전처리, 변수 생성, 변수 선택, 알고리즘 선택, 하이퍼파라미터 최적화 등의 기능을 수행한다.
** 파라미터(매개변수) : 어떤 시스템이나 함수의 특정한 성질을 나타내는 변수, 모델링에 의해 자동으로 결정
** 하이퍼파라미터 : 모델링할때 사용자가 직접 세팅해주는 값
기계학습 모형 개발 과정의 생산성을 높이며 비전문가들의 활용을 용이하게 할 것으로 기대된다.
- 인공 지능의 한계점과 발전 방향
1. 국내 시장의 한계 :
국내에서 축적한 머신러닝 및 인공지능과 관련한 수학, 통계학적 이해도는 낮은 수준이다.
인공지능 개발을 위한 데이터 확보 및 그 중요성에 대한 인식이 부족하다.
2. 인공지능의 미래 :
딥러닝의 재학습 및 전이학습 특성을 활용한 사전학습모형이 새로운 데이터 경제의 모습이 될 것이다.
** 데이터 경제는 수집, 학습용 데이터로의 가공, 전이학습용 사전학습 모형으로 구분됨
마스킹이나 라벨링 등의 애노테이션 작업을 통해 학습용 데이터를 가공하는 산업이 확산되고 있다.
복잡한 BERT의 학습을 위한 구글의 클라우드 서비스와 같은 확장된 개념의 데이터 경제로 파생될 것으로 보인다.
'빅데이터분석기사' 카테고리의 다른 글
Part1.빅데이터 분석기획_빅데이터의 이해 + 개인정보 (0) 2024.02.28 빅데이터분석기사(실기)_시험준비 (0) 2024.02.22 Part 1. 빅데이터 분석기획_빅데이터의 이해7️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해4️⃣5️⃣6️⃣ (0) 2024.02.21 Part 1. 빅데이터 분석기획_빅데이터의 이해3️⃣ (0) 2024.02.21