전체 글
-
🤖Machine Learning_편향과 분산(Bias & Variance)머신러닝 2024. 2. 21. 13:16
마지막으로 회귀 문제를 풀 때, 발생하는 편향과 분산이라는 문제점을 공부하고 이 문제점들을 해결하기 위해 어떤 방법을 취할 수 있는지 알아보자. 01. 학습 데이터 vs 평가 데이터 데이터는 학습 데이터와 평가 데이터로 나눌 수 있는데 모델 학습에 사용되는 데이터 셋은 학습 데이터, 오직 모델의 평가만을 위해 사용되는 데이터셋은 평가데이터라고 한다. 💡평가 데이터는 절대로 모델 학습에 사용되서는 안된다. 학습 데이터셋에 대해 100%의 정확도로 학습하였다고 하더라도 평가 데이터에대해 100% 정확도를 낼 수 있을지는 확신할 수 없다. 그렇다면 평가 데이터에 대한 몇가지 궁금증이 생긴다. - 평가 데이터는 학습 데이터와 같은 분포를 가지는 데이터 셋일까? 우리가 데이터를 제공 받을 때 평가 데이터와 학습 ..
-
Part 1. 빅데이터 분석기획_빅데이터의 이해1️⃣빅데이터분석기사 2024. 2. 21. 11:48
빅데이터 분석기획에서는 빅데이터와 분석에 대한 기본적인 이해에 대해 공부하자. 관련 용어와 기술 및 제도에 대해 알아보고, 분석, 수집, 저장 계획을 수립하는 과정에 대해 알아본다. 01. 빅데이터 개요 및 활용 데이터는 1646년 영국 문헌에 처음 등장하였으며, '주어진 것'이라는 의미를 갖는 라틴어 dare(주다, to give)의 과거 분사형으로 사용되었다. 그 후 데이터는 1940년대 이후에 자연과학이 발전함에 따라 함께 다양한 사회과학이 발전하며, 과거 관념적이고 추상적인 개념에서 기술적이며 사실적인 의미로 변화하게 되었다. - 데이터의 정의 : 데이터는 추론과 추정의 근거를 이루는 사실, 현실 세계에서 관찰하거나 측정하여 수집한 사실이다. - 데이터의 특징 : 데이터는 단순한 객체로도 가치가 ..
-
🤖Machine Learning_최적화(Optimization)머신러닝 2024. 2. 20. 18:32
최적화를 이해하기 위해 먼저 두 가지 수학적 원리를 간단하게 이해해 보자. 01. 고급 수학 먼저, 편미분은 미분과 같지만 원하는 변수에 대해서만 미분을 하는 것으로 원하는 변수 외의 모든 것들은 상수로 취급한다. 연쇄 법칙(chain rule)은 미분을 한다고 가정했을 때, 새로운 변수 u를 가정하고 dy/dx = dy/du * du/dx가 같다는 법칙이다. 이 두 가지 원리를 가지고 모델의 파라미터에 대해 최적화를 진행한다. 02. 손실 함수 지금까지 어떤 문제를 푸는지, 어떤 모델인지에 대해 정의를 했지만 그 문제에 맞는 손실함수에 대해서도 정의할 수 있어야 한다. 문제에 맞는 손실함수라 함은 회귀문제에 어울리는 손실함수와 분류문제에 어울리는 손실함수가 따로 존재를 한다는 것이다. 먼저, 회귀문제에..
-
🤖Machine Learning_Regression(회귀)머신러닝 2024. 2. 20. 17:30
머신러닝의 지도학습은 회귀와 분류라는 두 가지 문제로 나눌 수 있다. 회귀와 분류의 차이를 입력값, 출력값, 모델 형태로 살펴보자. 회귀(Regression)와 분류(Classification) 입력값에 연속적인 값(실수형), 이산값(범주형) 등 제한 조건이 따로 없지만, 회귀는 출력값으로 연속값(실수형)이 나왔을 때 회귀 문제를 푼다라고 표현하고, 출력값이 이산값(범주형)으로 나온다면 분류 문제를 푼다고 정의할 수 있다. 회귀모델은 연속값의 출력을 하기에 모델의 형태가 우리가 흔히 알고 있는 일반적인 함수의 형태(e.g. y = ax+b)가 되고, 분류 모델은 이산값(범주형)의 데이터를 출력하기에 이진 분류(e.g.'있다/없다'와 같이 클래스의 개수가 2개인 상황)라면 시그모이드(sigmoid) 함수,..
-
🤖Machine Learning?머신러닝 2024. 2. 20. 14:48
머신러닝을 공부하기 전에 머신러닝(Machine Learning)과 인공지능(Artificial Intelligence), 딥러닝(Deep Learning) 간의 차이와 특징이 무엇인지 알고 가자. 인공지능 ⊃ 머신러닝 ⊃ 딥러닝 순으로 포함되는 관계로 인공지능이 가장 큰 범주에 속한다. 인공지능은 사람을 표현하는 기계의 모든 것으로 사람을 흉내 낼 수 있는 기술이나 알고리즘 같은 모든 것을 인공지능이라고 한다. 반면 머신러닝은 전문가가 준 데이터를 기계가 학습하는 것으로 정의할 수 있다. 따라서 머신러닝은 전문가(사람), 데이터, 학습할 기계가 필요하고 사람이 준 데이터를 기계가 학습할 수 있도록 알고리즘을 설계하고 구현하는 것이다. 딥러닝은 머신러닝과 마찬가지로 전문가가 준 데이터를 기계가 학습하는 ..
-
Python 웹 데이터 크롤링카테고리 없음 2024. 2. 18. 13:55
python 프로그래밍언어를 통해 실제 웹 데이터 크롤링을 해보자. 세팅 환경 - MAC m2 - Python Library : Pandas(Data Preprocessing / Save & Load) Selenium(Crawling) + chrome driver Request Urllib(Image Data + Scrap & Save) - Anaconda 3 (Jupyter notebook) : Pandas와 Urllib은 Anaconda 설치 시 지원됨 웹 크롤링은 왜 하는 것일까? 데이터 분석 절차를 데이터가 들어오는 흐름에 따라 정리하면 1. 수집, 2. 저장, 3. 처리, 4. 분석의 단계를 거치게 된다. 과거 수집 단계에서는 내부 데이터 즉, 기업에서 수집한 데이터를 가져와 분석했었지만 현재 ..
-
Pandas 함수를 활용한 기초 데이터 분석 # EDA카테고리 없음 2024. 2. 4. 17:56
데이터 탐색 및 분석(EDA : Exploratory Data Analysis)는 데이터셋의 특성을 이해하고 관련된 통계 및 시각화 기법을 사용하여 데이터의 패턴 및 관계를 발견하는 과정이다. 데이터 EDA를 수행하는 일반적인 단계와 사용할 수 있는 도구 및 기술에 대해 알아보자. 1. 데이터 불러오기: Pandas 라이브러리를 사용하여 데이터를 불러온다. 불러온 데이터 프레임을 확인한다. 만일 칼럼의 수가 너무 많아 생략된다면 DataFrame option을 사용한다. 2. 기본 정보 확인 : 데이터 프레임의 기본 정보를 확인한다. 데이터 프레임의 평균은 df.mean(), 표준 편차는 df.std()함수를 통해 확인 할 수 있다. 3. 결측치 처리: 결측치를 확인하고 필요한 경우 처리한다. 데이터 내..
-
xml파일을 json으로 변환하기카테고리 없음 2024. 2. 1. 18:00
서울시 공공데이터의 '서울시 부동산 실거래가 정보' 데이터를 가지고 xml파일을 json파일 변환. - 우선 라이브러리를 임포트하고 URL을 req에 전달 - json 파일 불러오기 - 크롤링의 목표는 데이터 프레임으로 변경하는 것 - 맨 앞에 문자열이 키 값이므로 tbLnOpendataRtmsV을 제거하고 반환 json파일은 손쉽게 데이터 프레임으로 반환이 가능한 것을 확인 할 수 있다. xml파일은 동일한 URL에서 파일 형태만 xml로 변경하면 얻을 수 있다. - xml 파일 불러오기 point💡html과 유사한 형태로 반환되어 soup 객체로 변환이 필요하다. 이제 soup 객체로 변환한 내용을 데이터 프레임으로 만들 수 있다. 01. 02. 위 코드들을 통해 확인 할 수 있듯이 xml URL을 ..