전체 글
-
🤖 정확도, 정밀도, 재현율, 특이도, F1 점수?머신러닝 2024. 2. 26. 19:49
정확도, 정밀도, 재현율, 특이도 F1점수는 기계 학습 모델의 성능을 평가하는 데 사용되는 주요 지표들이다. 정확도(Accuracy)는 전제 예측 중 올바르게 예측된 비율을 나타낸다. (정확하게 분류된 샘플의 비율) 모델의 전반적인 성능을 측정하고 평가할 때 사용하며 클래스 간 데이터 불균형이 적고, 모든 클래스가 동등한 중요도를 가질 때 적합하다. -> 다중 클래스 분류 문제에 적합 ex) 암 진단 모델의 정확도는 전체 환자 중 정확하게 암을 예측한 비율을 의미한다. 만약 암 진단 모델의 정확도가 95%라면, 전체 환자 중에서 95%가 올바르게 암을 진단받았음을 의미한다. 정밀도(Precision)는 모델이 양성으로 예측한 것 중에서 실제도 양성인 비율을 나타낸다. 거짓 양성(FP)을 최소화하고자 할 ..
-
🤖 데이터 유출(Data Leakage)와 파이프라인(pipeline)머신러닝 2024. 2. 26. 18:49
일반적인 데이터 유출과 머신러닝에서의 데이터 유출은 각각의 의미와 영향을 가지고 있다. 일반적인 데이터 유출은 보안 위협으로, 개인정보 침해나 기업의 기밀 정보 누출과 같은 심각한 문제를 초래할 수 있는 반면, 머신러닝에서의 데이터 유출은 모델 훈련 과정에서의 문제로, 모델의 성능과 일반화 능력에 직접적인 영향을 미친다. 1. 의도와 발생 원인 : 일반적인 데이터 유출 > 악의적인 목적이나 부주의한 행위에 의해 발생, 해커의 공격, 내부자의 정보 유출, 실수로 인한 잘못된 공유 등의 이에 해당한다. 머신러닝에서의 데이터 유출 > 주로 모델 훈련 과정에서 발생, 훈련 데이터와 테스트 데이터 간의 정보 유출로 인해 모델의 성능이 과도하게 낙관적으로 평가되는 것을 의미한다. 2. 영향과 위협 : 일반적인 데이..
-
빅데이터분석기사(실기)_시험준비빅데이터분석기사 2024. 2. 22. 14:14
빅데이터 분석기사 실기시험은 3가지 유형으로 구성되어 있고 시험 시간은 180분이다. ** 60점 이상 획득하면 합격 출제 유형은 3가지 유형이 있다. 작업장 제1유형은 데이터를 다루고 2유형은 모델링과 평가, 3 유형은 가설검정/회귀분석 등을 수행한다. 작업장 제1유형은 3문항으로 문항당 10점, 2유형은 1문항에 40점, 3 유형은 2문항으로 이루어져 있지만 소문항으로 구성되고 소문항 배점으로 합산한다. 3 유형 1문항당 15점으로 3가지 유형 모두 합해 6문항으로 총 100점이 만점이다. 실기시험 유의사항 먼저 응시 전에 데이터자격검정 Site 공지사항을 확인해 시험 응시 자격을 꼭 필수로 확인해보아야 한다. 링크 : https://www.dataq.or.kr/www/sub/a_07.do#none ..
-
Part1.빅데이터 분석기획_빅데이터의 이해8️⃣빅데이터분석기사 2024. 2. 21. 19:45
08. 빅데이터와 인공지능 - 인공지능(AI: Articial Intelligence) 1. 인공지능의 정의 인공지능은 기게를 지능화하는 노력이며, 지능화란 객체가 환경에서 적절히, 그리고 예지력을 갖고 작동하도록 하는 것이다. (Artifical Intelligence and life in 2030, 스탠퍼트대학교 AI100) 인공지능은 합리적 행동 수행자(Rational Agent)이며, 어떤 행동이 최적의 결과를 낳을 수 있도록 하는 의사결정 능력을 갖춘 에이전트를 구축하는 것이다. (Artifical Intellgence - a modern approach [3rd edition], 러셀과 노빅] 인공지능은 설정한 목표를 극대화 하는 행동을 제시하는 의사결정 로직이다. 인공지능은 사람과 흡사한 생..
-
Part 1. 빅데이터 분석기획_빅데이터의 이해7️⃣빅데이터분석기사 2024. 2. 21. 18:37
07. 빅데이터 플랫폼 빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술을 잘 사용할 수 있도록 준비된 환경이다. ** 빅데이터를 분석 또는 활용하는데 필요한 필수적인 것으로 빅데이터 기술의 집합체 - 빅데이터 플랫폼의 등장 배경 1. 비즈니스 요구 사항 변화 빠른 의사 결정 속도보다 장기적이고 전략적인 접근이 필요하다. 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경이 등장하였다. 새로운 형태의 비즈니스 질문과 통찰이 요구되고 있다. 2. 데이터 규모와 처리 복잡도 증가 데이터의 범위와 기간이 확장되어 처리할 데이터 규모와 내용이 방대해졌다. ** 고객 정보, 센서나 장비 데이터, 공공 데이터 등 내외부적인 데이터 종류가 많아졌다. 정보의 수..
-
Part 1. 빅데이터 분석기획_빅데이터의 이해4️⃣5️⃣6️⃣빅데이터분석기사 2024. 2. 21. 17:50
04. 빅데이터의 가치 빅데이터는 4차 산업혁명 시대의 석탄이나 철, 원유와 같은 역할을 하고 있다. 사실 관계를 좀 더 상세하게 들여다볼 수 있는 렌즈로 다양한 개발자들에게 사업 기회를 주는 플랫폼이 되었다. 이런 박데이터를 통해 우리는 어떠한 가치를 얻을 수 있을까? Economist(2010) : 데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적 투입 자본으로 비즈니스의 새로운 원자재 역할을 한다. MIT Sloan(2010) : 데이터 분석을 잘 활용하는 조직일수록 차별적 경쟁력을 갖추고 높은 성과를 창출한다. Gartner(2011) : 데이터는 21세기의 원유이며 미래 경쟁 우위를 결정, 기업은 다가올 데이터 경쟁시대를 이해하고 정보고립을 경계해야 한다. McKinsey(2011): 빅데이..
-
Part 1. 빅데이터 분석기획_빅데이터의 이해3️⃣빅데이터분석기사 2024. 2. 21. 15:55
03. 빅데이터 개요 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미한다. 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다. (Mckinsey, 2011) 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다. (IDC, 2011) 빅데이터는 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내며, 나아가 이를 활용해 시장과 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 것이다. (Mayer-Schonberger ..
-
Part 1. 빅데이터 분석기획_빅데이터의 이해2️⃣빅데이터분석기사 2024. 2. 21. 14:56
02. 데이터 베이스 데이터베이스(DataBase)라는 용어는 1963년 6월에 컴퓨터 중심의 데이터베이스 개발과 관리라는 주제로 미국 SDC(System Development Corporation)가 개최한 심포지엄에서 공식적으로 사용되었다. ** 데이터베이스는 1960년대 미국 정부가 세계 각국에 있는 미군의 군비 상황을 집중 관리하기 위해 컴퓨터 기술을 활용하면서 시작되었으며, 이때 수집된 자료를 데이터(Data)의 기지(Base)라는 뜻으로 표현하였다. - 데이터 베이스의 정의 : 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독집적 저작물, 데이터 또는 기타 소재의 수집물이다. 데이터 베이스는 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소..