[BDA x 영진닷컴] ADsP 첫째주 스터디
1주차(2024.03.27 ~ 2024.04.01)
p.117 ~p.200
[PART 03]
chapter 1. R기초와 데이터 마트 & chapter 2. 통계분석
스터디 내용:
CHAPTER 01 R기초와 데이터 마트
< R 프로그래밍 기초>
- R의 자료 구조
1. factor
2. vector : 동일한 자료형을 갖는 값들의 집합, 1차원 구조
3. matrix : 동일한 데이터 타입을 갖는 데이터, 2차원 구조
4. data.frame : 행과 열로 이루어진 테이블 구조, 2차원 구조
5. array : 동일한 데이터 타입을 갖는 다차원 구조
6. list : 하나의 메모리 영역에 키(key), 값(value)를 한쌍으로 저장하는 구조
- 패키지
install.packages("패키지명) 으로 패키지를 설치하고
library()함수나 require()함수로 불러오기를 수행한다.
패키지들을 활용해 원하는 함수를 사용해 연산을 수행한다.
< 데이터 마트>
- 데이터 마트
데이터 마트는 단일 주제에 초점을 맞춘 단순한 형태의 데이터 웨어하우스 = 특정 주제 영역에 대한 데이터
여러 패키지와 함수들을 사용해 SQL명령어, 행/열 분할과 재조합, 데이터 탐색, 연산, 병합할 수 있다.
< 결측값 처리와 이상값 검색>
- 결측값 처리
결측값(missing value)은 표기되지 않은 값 또는 존재하지 않는 값을 의미한다.
결측값 자체에도 의미가 존재할 수 있다.
ex) 가입자 중 특정 거래가 없을 경우, 부정 사용 방지 시스템에서 부정 사용이 발생되지 않는 경우,..
- 결측값 처리 방법
1. 단순 대치법 : 결측값이 존재하는 행을 삭제 = 부분적으로 관측된 자료를 무시, 효율성 상실, 통계적 추론의 타당성 문제가 발생할 수 있다.
2. 평균 대치법 : 데이터의 평균으로 결측값을 대치, 비 조건부 평균 대치법과 회귀분석을 활용해 예측한 값으로 대치하는 조건부 평균 대치법이 있다.
3. 단순 확률 대치법 : 데이터의 확률 분포를 사용해 결측값을 대치, 평균 대치법에서 추정한 표준 오차의 과소 추정 문제를 보완.
4. 다중대치법 : 단순 대치법(삭제)를 여러 번 수행, 추정량 표준 오차의 과소 추청 또는 계산의 난해성 문제가 있다.
- 이상값
이상값은 관측된 데이터 범위에서 크게 벗어난 아주 큰 값 또는 작은 값을 의미한다.
- 이상값 판단 방법
1. ESD 알고리즘 : 정규 분포를 따르는 데이터에서 유용
> 데이터의 평균과 표준 편차를 계산
> 데이터의 각 관측치와 평균의 절대 편차 계산
> 계산된 절대 편차의 최대값 검색
> 최대값이 임계값보다 크면 해당 관측치를 이상치로 판단
2. 상자 그림(Box Plot) : IQR X 1.5 밖의 값을 이상치로 판단
** IQR : Q3(3사분위수) - Q1(1사분위수)
3. summary() 평균과 중앙값과 IQR을 보고 판단 : 결과적으로 이상값이 분석 대상이 될 수 있어 무조건 삭제 지양한다.
- 이상값 처리
1. 절단: 이상값을 포햠하는 행 전체를 삭제
2. 조정 : 이상값을 상한 또는 하한값으로 조정
{기초분석 및 데이터 관리}
- 데이터 처리
DW나 DM을 통해 분서글 위한 데이터를 구성
- 시각화 기법
가장 낮은 수준의 분석 방법, 여러 차트 형식, 트리 구조, 다이어그램 맵, 워드 클라우드 등으로 나타낸다.
- 공간 분석
공간적 차원과 관련된 속성들을 시각화, 지도 위에 관련된 속성들을 생성하고 크기, 모양, 선 굵기 등으로 데이터를 구분한다.
- 탐색적 자료 분석(EDA)
다양한 차원과 값을 조합해 특이점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정, 데이터의 주요 특성을 요약, 패턴을 발견하고, 변수 간 잠재적 관계를 찾아내는 프로세스이다.
- 통계 분석
기술통계는 데이터의 특성을 요약하는데 사용되는 반면, 추측 통계는 데이터를 기반으로 모집단에 대한 추론을 하는 데 사용되며, 주어진 데이터를 이해하기 쉽게 만들기 위해 숫자 또는 그래프의 형태로 표현한다.
추측 통계는 추정(모집단의 특성을 추정하는 통계), 검정(모집단의 특성에 대한 가설을 검정하는 통계)로 나눌 수 있다.
- 데이터 마이닝
대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색, 모형화해 이전에 알지 못하는 유용한 지식을 추출한다.
1. 데이터 베이스에서 지식 탐색 : DW에서 DM을 생성하며 데이터들의 속성을 사전 분석을 통해 지식을 얻는다.
2. 기계 학습 : 컴퓨터가 학습할 수 있도록 다양한 기계학습 알고리즘과 기술을 활용히여 모델을 개발한다.
3. 패턴 인식: 원자룔 이용해 사전 지식과 패턴으로부터 추출된 통계정보를 기반으로 자료 또는 패턴을 분류한다.
- 시뮬레이션
복잡한 실제 상황을 단순화해 컴퓨터 상의 모델로 만들어 재현하거나 변경, 현상을 보다 잘 이해하고 미래의 변화에 따른 결과를 예측한다.
- 최적화
목적 함수값을 최대화 또는 최소화하는 것을 목표로 해 제약조건 하에서 목표값을 개선해 나가는 방식이다.


CHAPTER 02 통계분석
<통계학 개론>
- 통계 분석
통계적 추론(추측 통계)은 통계 분석 과정을 통해 집단에 대한 모수 추정, 가설 검정, 예측 등 의사결정을 수행하는 과정, 기술 통계는 여러 특성을 평규느 표준 편타 등으로 수량화하는 통계분석 방법론이다.
- 모집단
조사하고자 하는 대상 집단 전체이다.
1. 원소: 모집단을 구성하는 개체, 정보 수집 및 분석의 기본 단위이다.
2. 모수 : 모집단의 특성을 나타내는 수치들로서 모집단의 평군, 분산 같은 수치, 표본을 통해 모수를 추정하는 작업이 필요하다.
3. 표본 : 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출한 것, 추출한 표본으로 모집단의 특성을 추론한다.
4. 통계량 : 표본의 평균, 분산 같은 특성을 나타내는 수치
- 표본 추출의 종류
표본 추출을 모집단의 일정 부분을 선택하는 과정
1. 단순 랜덤 추출 : 모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출
2. 계통 추출 : 모집단 개체에 일련 번호를 부여 후, 첫번째 표본을 임의로 선택하고 일정 간격으로 다음 표본을 선택
3. 층화 추출 : 모집단을 서로 겹치지 않게 여러 개의 집단 또는 층으로 나누고, 이 집단 내에서 원하는 크기의 표본을 단순 랜덤 추출법으로 추출
4. 군집(집단) 추출 : 모집단을 차이가 없는 여러 개의 집단으로 나눈 후, 그 중 일부를 선택한 다음에 선택된 군집 내에서 필요한 만큼의 표본을 임의로 선택
- 표본 추출 오차
표본을 추출하는 과정에서 발생하는 오차, 모집단의 일부를 추출하여 조사한 결과를 가지고 모집단 전체를 추론하는 과정에서 생기는 오차이다.
1. 표본 오차 : 모집단을 대표하지 못하는 표본을 추출하여 발생하는 오차, 표본 오차는 표본의 크기가 커지면 작아지며, 전수 조사에서는 0이 된다.
2. 비표본 추출 오차 : 표본 오차를 제외한 조사, 집계, 분석 과정에서 발생할 수 있는 모든 오차, 비표본 추출 오차는 표본의 크기에 비례하며 커지므로 표본의 크기가 좋다고 반드시 좋은 것은 아니다.
3. 표본 편의(편향) : 표본 추출 과정에서 발생하는 추정값의 기대값과 모수의 차이, 활률화에 의해 최소화하거나 없앨 수 있다.
{자료의 형태}
- 척도(Scale)
측정된 변수의 값을 표현하는 수준을 의미하며 척도에 따라 적용 가능한 통계분석 방법이 달라진다.
1. 명목 척도: 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적으로 사용, 숫자로 바꾸어도 그 값이 크고 작음을 나타내지 않고 범주를 표시해 측정값이 같고 다름을 말할 수 있으며, 측정값들 사이에 순서가 없다.
2 서열(순위)척도: 대소 관계 또는 높고 낮음 등의 순위만 제공될 뿐 양적인 비교는 할 수 없어 항목들 간에 서열이나 순위가 존재하며, 측정값들 사이에만 순서가 있다, 측정값들의 간격이 동일하지 않다
3. 등간(구간)척도: 측정값을 사이에 순위를 부여하되 순위 사이의 간격이 일정하여 양적인 비교가 가능, 절대 0이 존재하지 않는다(영점의 기준이 임의적).
4. 비율 척도: 절대 0이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다.
- 중심 경향치(Central Tendency Measures)
자료의 중심을 나타내는 숫자를 의미하며, 자료 전체를 대표하는 값으로 평균, 중앙값, 최빈값이 있다.
- 변산성( 산포도, 데이터의 퍼짐 정도) 측정치
변산성을 자료가 흩어져 있는 정도 또는 개체에 따라 변할 수 있는 정도를 의미하며, 산포도라고도 한다.
중심 경향치가 자료가 무엇을 중심으로 모여있는가를 나타내는 것이라면, 변산성 측정치는 그 모여있는 정도를 의미한다.
1. 편차 : 어떤 자료의 변량에서 평균을 뺀 값, 편차의 절댓값이 클수록 그 변량은 평균에서 멀리 떨어진다.
2. 분산 : 편차의 제곱의 합을 n-1로 나눈 것, 데이터 집합이 얼마나 퍼져 있는지 알아볼 수 있는 수치이다.
3. 표준 편차 : 자료의 산포도를 나타내는 수치로서 분산의 양의 제곱근, 평균으로부터 각 데이터의 관찰 값까지의 평균 거리이다.
4. 변동 계수 : 단위가 다른 두 그룹 또는 단위는 같지만 평균 차이가 클 때의 산포 비교에 사용, 변동 계수는 관측되는 자료가 모두 양수일 때 사용한다.
5. 범위 : 최솟값과 최대값의 차이, 즉 자료가 얼마나 퍼져있는가를 나타낸다.
<확률 및 확률 분포>
- 베이즈 정리
두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타낸 것으로, 사전 확률로부터 사후 확률을 구할 수 있다.
1.P(A) : 사전 확률, 사건 B가 발생하기 전, 사건 A의 확률을 의미한다.
2. P(B|A) : 우도, 가능도, A라는 사건이 발생했을 때 원래의 모집단이 B일 확률이다.
3. P(A|B) : 사후 확률, 사건 B가 발생한 후 A의 확률을 의미, '사전 확률'인 사건 A가 B라는 사건에 영향을 받은 경우를 표현하기 위해 '사후 확률'이라는 명칭이 사용된다.
- 확률 분포
1. 확률 변수 : 하나의 실험에서 나타날 수 있는 결과를 수치로 표현한 것이다.
2. 확률 분포 : 확률 변수가 특정 값을 가질 확률을 나타내는 분포, 어떤 확률 변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응관계로 표시하는 것이다.
3. 이산 확률 분포 : 확률 변수가 분리된 값을 가질 때 이산 확률 변수라고 하며, 이산 확률 변수가 가지는 확률 분포, 각 사건은 서로 독립이어야 한다.
> 확률 변수가 특정한 값을 가질 확률은 0부터 1사이의 값
4. 연속 확률 분포 : 확률 변수가 실수와 같이 연속적인 값을 가질 때 연속 확률 변수라고 하며, 연속 확률 변수가 가지는 확률 분포이다.
> 확률 변수가 특정한 값을 가질 확률은 0
5. 확률 함수 : 확률 변수의 값이 특정 범위에 속할 확률을 나타내는 함수, 확률 함수는 확률 변수가 이산 값을 가질 때는 확률 질량 함수로 표현되고, 확률 변수가 연속 값을 가질 때는 확률 밀도 함수로 표현된다.
- 확룰 변수의 기댓값
확률 변수에서 평균적으로 기대되는 값
1. 평균과 유사성 : 기대값은 확률 변수의 값에 대한 평균을 나타낸다 따라서 확률 변수의 기댓값은 확률 변수의 대푯값으로 생각할 수 있다.
2. 가중 평균 : 연속 확률 변수의 경우, 기댓값은 확률 밀도 함수로 가중 평균을 구하는 것으로 생각할 수 있다.
3. 분포의 중심 : 확률 변수의 기댓값은 해당 확률 변수의 분포를 나타내느 중심 경향성을 제공, 분포를 하나의 대표값으로 설명하는데 사용될 수 있다.
- 확률 변수의 분산
분산은 평균으로부터 얼마나 떨어져 있는지를 나타낸 값, 확룰 변수가 기대값으로부터 멀리 떨어져 있을수록 분산이 커진다.
{이산 확률 분포}
- 베르누이 분포
결과가 두 가지 중 하나로만 나오는 실험이나 시행, 베르누이 시행의 결과를 실수 0 또는 1로 바꾼 것이 베르누이 확률 변수이다. -> 이산 확률 변수
1. 특징 : 실험의 결과는 두 가지, 성공의 확률은 항상 일정
2. 예시 : 동전던지기, 원하는 카드 뽑기, 시험의 합격 여부, 제품의 불량 여부
- 이항 분포
베르누이 시행을 n번 반복했을 때 k번 성공할 확률
1. 특징 : 실험의 결과는 두 가지, 성공의 확률은 항상 일정
2. 예시: 동전 던지기, 원하는 카드 뽑기, 시험 합격 여부, 제품 불량, 고객의 만족과 불만족
- 기하 분포
성공 확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 실패 횟수(x)를 나타내는 확률 분포이다
- 포아송 분포
주어진 시간 및 영역에서 발생하는 사건의 횟수에 대한 확률 분포로, 단위 시간이나 영역에서 어떤 사건이 몇 번 발생할 것인지를 표현하는 분포이다.
1. 특징: 사건의 발생은 무작위, 서로 독립적
2. 예시: 전화 통화 수신, 자동차 사고의 수, 고객의 방문 횟수, 상품의 판매량, 자연 재해 발생 횟수
{연속형 확률 분포}
- 정규 분포(가우스 분포)
수집된 자료의 분포에 근사하는데 사용되는 개념, 정규 분포 그래프는 평균을 중심으로 대치인 종 모양을 띄게 된다.
- t분포
두 집단 평균이 동일한 지 여부를 확인하기 위한 검정 통계량, 모집단의 표준 편차를 모를 때 사용하는 분포로, 표본을 이용하여 모집단의 정보를 추측하는 분산이다.
자유도(** 모집단에 대한 정보를 주는 독립적인 자료의 수)에따라 분포의 모양이 변한다.
** 표본이 30개 이상이면 표준 정규 분포와 비슷한 분포가 된다.
- 카이제곱분포
모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정과 동질상 검정에 사용, 평균이나 비율에 대한 검정에는 t분포를 사용하나, 분산에 대한 검정을 할 경우에는 카이제곱이나 F분포를 사용한다.
** 자유도에 따라 모양이 변하며 자유도가 커질 수록 정규분포에 가까워진다.
- F분포
모집단 분산이 동일하다고 가정한 경우에 두 모집단으로부터 표본 크기가 각각 n1, n2인 2개의 표본을 추출했을 때, 각각 표본 분산의 비율을 나타낸다.
두 모집단 간 분산, 평균, 비율의 동일성 검정에 사용한다.
- 통계적 추론
모집단의 표본으로 통계량을 계산하여 해당 모집단의 모수를 추정하고, 추정 결과에 대한 신뢰성을 검정하는 통계적 방법, 모집단에 대한 가정 여부에 대한 통계적 추론은 모수적 추론과 비모수적 추론으로 분류된다.
1. 추정: 표본으로부터 표본의 통계량(평균, 분산, 표준 편차)을 가지고 모집단의 모수를 추측하여 결정하는 것으로 점 추정과 구간 추정으로 구분된다.
2. 검정 : 어떤 현상을 밝히기 위해 설정한 명제에 대한 증거가 자료에서 나타나는지를 판단하는 방법론, 가설 검정은 연구자가 주장하고 싶은 가설을 세우고, 특정 분포를 따른다고 알려진 모집단에서 표본을 추출하여 이 표본의 정보를 통해 가설에 대한 검정을 하는 과정을 의미한다.
- 점추정
모수가 특정 값이라고 추정하여 하나의 값으로 모수의 값이 얼마인지 추측한다.
1. 적률법 : 표본의 기댓값을 통해 모수를 추정하는 방법, 모집단의 분포에 대한 가정이 없는 경우, 모집단의 분포가 알려져 있지 않은 경우, 모집단의 분포가 복잡한 경우 등에 사용한다.
2. 최가 가능도 추정법(최대 우도법) : 함수를 미분해서 기울기가 0인 위치에 존재하는 MLE를 찾는 방법, 모집단의 분포에 대한 가정이 가능한 경우, 모집단의 분포가 알려져 있는 경우, 모집단의 분포가 간단한 경우 등에 사용한다.
3. 최소 제곱법: 회귀 분석에서 많이 사용하며, 함수값과 측정값의 차이인 오차를 제곱한 합이 최소가 되는 함수를 구하는 방법이다.
- 구간 추정
추정값에 대해 신뢰도를 제시하고 범위로 모수를 추정하는 방법으로, 모수를 포함할 것으로 기대되는 구간(신뢰구간)을 확률적으로 구한다.
1. 신뢰 수준 : 모수값이 정해져 있을 때 다수 신뢰 수간 중 모수값을 포함하는 신뢰구간이 존재할 확률이다.
2. 신뢰 구간: 신뢰 수준으로 추정된 통계적으로 유의미한 모수의 범위를 의미, 표본의 크기가 커지면 신뢰 구간의 길이는 줄어든다.
- 가설 검정
가설은 모집단의 특성에 대한 가정이며, 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적 추론, 통계적 유의성을 검정하는 것으로 유의성 검정이라고 한다.
1. 제1종오류: 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류로서 알파 오류라고도 한다.
2. 제2종오류: 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류로서 베타 오류라고도 한다.
- 모수 검정과 비모수 검정
1. 모수 검정: 연구에서 궁극적으로 알고자 하는 전체 집단인 모집단을 전부 조사하는 것이 불가하여 샘플을 추출해 도출된 평균, 분산, 표준 편차 등의 통계량으로 모집단을 추정하는 것, 정규성을 갖는 모수적 특징을 이용한 방법이다.
2. 비모수검정: 모수에 대한 가정을 전제로 하지 않고, 모집간의 형태와 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계적으로 검정하는 방법, 관측된 수가 적거나 정규분포를 따르지 않는다고 증명되었을 경우엔 모수적 방법을 사용할 수 없다.



💡 첫째주 스터디 범위가 많아 시간이 다소 걸리긴 했지만 기본 개념들에 대한 설명이 주였고, 복습차원에서 공부했지만 스스로 기초 개념이 많이 부족한 것을 느낄 수 있었다. 예상 문제도 다소 틀려 더욱 꼼꼼한 오답 노트가 필요할 듯하다.