전체 글
-
파이썬 통계분석_Chapter 05. 이산형 확률 변수카테고리 없음 2024. 1. 11. 16:35
확률 변수는 취할 수 있는 값이 이산이냐 연속이냐에 따라 이산형 확률변수와 연속형 확률변수 두 가지로 나뉜다. 이산형 확률변수는 취할 수 있는 값이 이산적인 확률변수이다. 이산형 확률 변수 중에서도 1차원 이산형 확률 변수에 관해 설명한다. 확률 변수는 변수가 취할 수 있는 값과 그 값이 나오는 확률에 의해 정의된다. 확률 변수가 취할 수 있는 값과 그 확률의 구체적인 대응을 확률 분포(probability distribution)라고 한다. 따라서 확률 변수의 확률 분포가 결정되면 그 확률 변수의 움직임이 정해진다. - 불공정한 주사위가 취할 수 있는 값을 입력했을 때, 그 확률을 반환하는 함수 - 확률 분포에 의해 확률 변수 X의 동작이 결정된다. - 확률 변수가 취할 수 있는 값과 확률의 대응을 막..
-
파이썬 통계분석_Chpater 04. 추측 통계의 기본카테고리 없음 2024. 1. 11. 16:34
2,3장에선 우리 주변에서 쉽게 찾을 수 있는 데이터가 어떤 성질을 갖는지 설명하는 방법에 대해 알아보았다. 평균이나 분산 등의 지표에 따라 정리하거나 그래프를 이용해 시각화한 것은 데이터를 직관적으로 이해할 수 있는 강력한 도구임을 다시 실감할 수 있다. 가까운 곳에서 찾을 수 있는 데이터 뿐만 아니라 대규모 데이터가 어떤 통계적 성질을 띠고 있는 지 알고 싶은 경우엔 어떻게 해야할까? [예시] 어느 고등학교에서 전교생 400명이 수학 시험을 동일하기 치렀습니다. 3학년인 A학생은 이 시험에서 80점을 받았지만, 학교에서 전교생의 평균 점수를 알려주지 않았기 때문에 A학생은 자신이 전교생 중 어느 정도의 수준인지 알 지 못합니다. 자신의 성적이 좋은지 나쁜지가 궁금한 A학생은 스스로 전교생의 평균 점수..
-
파이썬 통계분석_Chapter03. 2차원 데이터 정리카테고리 없음 2024. 1. 11. 16:34
2장에서는 영어 시험 점수를 사용해 학생 1명에게 점수 하나가 대응되는 1차원 데이터를 정리하는 방법을 알아보았다. -> 평균과 분산이라는 지표, 히스토그램과 상자그림 그래프 3장에서는 영어 시험 점수와 수학 시험 점수를 사용해, 학생 1명에게 두 과목의 점수가 대응되는 2차원 데이터 정리 방법을 알아본다. 2차원 데이터로 정리하면 '수학 점수가 높은 학생이 영어 점수도 높은가'와 같은 데이터의 상관성 또한 파악할 수 있다. - 라이브러리, 데이터 세팅 - 처음 10명에 해당하는 데이터 준비, 학생에게 각각 A,B,...라는 이름 부여. 영어 점수가 높은 학생이 수학 점수도 높은 경향이 있다면, 영어 점수와 수학 점수는 양의 상관관계에 있다고 한다. 반대로 영어 점수가 높은 학생일수록 수학 점수가 낮은 ..
-
파이썬 통계분석_Chapter02. 1차원 데이터 정리카테고리 없음 2024. 1. 11. 16:33
데이터의 개요를 파악하면 수많은 통계분석 기법 중에서 적절한 기법을 선택할 수 있다. 데이터의 특징을 파악하는 방법은 크게 두 가지가 있다. 하나는 평균이나 분산 등의 수치 지표에 따라 데이터를 요약하는 방법이고, 다른 하나는 그림을 그려 시각적으로 데이터를 조감하는 방법이다. 이 데이터를 Numpy로 계산하기 위해, Numpy의 array데이터 구조로 된 scores라는 이름으로 저장 ** array : 수치 계산에 강점을 지닌 다차원 배열 scores_df라는 이름으로 Pandas의 DataFrame을 작성 데이터를 중심으로 나타내는 지표 대푯값 : 데이터를 하나의 값으로 요약한 지표 01. 평균값(mean) : 가장 잘 알려진 대표값, 데이터를 모두 더한 뒤 데이터의 개수를 나누어 구한다. - 파이..
-
파이썬 통계분석_Chapter01. 데이터카테고리 없음 2024. 1. 11. 16:28
데이터의 개념과 통계 분석에서 사용하는 기본적인 용어 및 데이터 분류 Pandas의 read_csv 함수를 사용하면 csv파일을 읽어들일 수 있다. 이 때, 데이터는 Pandas의 DataFrame이라는 데이터 구조로 반환한다. DataFrame에서 이름을 지정하여 하나의 열만도 추출할 수 있다. 이 때, 반환되는 것은 DataFrame이 아니라 Series구조이다. ** DataFrame : 2차원 표 데이터 구조 ** Series : 1차원 데이터 구조 데이터의 크기는 shape이라는 인스턴스 변수를 참조해 알 수 있다. 일반적으로 shape을 참조하면 2개의 수가 출력된다. 첫 번째 수가 데이터에 대한 수이고 두 번째 수가 변수에 대한 수이다. # DB라면 각각 레코드 수, 칼럼 수이다. 변수는 학..