파이썬 통계분석_Chapter01. 데이터

카테고리 없음

joy_your 2024. 1. 11. 16:28

Pandas의 read_csv 함수를 사용하면 csv파일을 읽어들일 수 있다.

이 때, 데이터는 Pandas의 DataFrame이라는 데이터 구조로 반환한다.

DataFrame에서 이름을 지정하여 하나의 열만도 추출할 수 있다.

이 때, 반환되는 것은 DataFrame이 아니라 Series구조이다.

** DataFrame : 2차원 표 데이터 구조

** Series : 1차원 데이터 구조

데이터의 크기는 shape이라는 인스턴스 변수를 참조해 알 수 있다.

일반적으로 shape을 참조하면 2개의 수가 출력된다.

첫 번째 수가 데이터에 대한 수이고 두 번째 수가 변수에 대한 수이다.

# DB라면 각각 레코드 수, 칼럼 수이다.

변수는 학년이나 악력같은 측정 대상을 가리킨다.

이 데이터에서 5개의 변수가 있으므로 5변수 또는 5차원이라고 한다.

변수는 성질에 따라 다양하게 분류가 가능하고 크게 질적 변수와 양적 변수로 분류할 수 있다.

질적 변수는 명의 척도와 순서 척도, 양적 변수는 간격 척도와 비례 척도로 더욱 세분화되고 이 네가지를 척도 수준이라 한다.

- 질적 변수는 선택이 필요나 변수나 종류를 구별하기 위한 변수를 말한다.

ex) 남성/여성, 흡연 여부 -> 값이 2개뿐인 질적 변수는 2진변수

01. 명의 척도 : 단순히 분류를 하기 위한 변수

변수의 동일성 여부만 확인

ex) 학생 번호, 전화 번호, 성별

02. 순서 척도 : 순서 관계나 대소 관계에 의미가 있는 변수

ex) 성적 순위, 설문 조사의 만족도

- 양적 변수는 양을 표현하는 변수를 말한다.

03. 간격 척도 : 대소 관계와 함께 그 차이에도 의미를 두는 변수

ex) 연도, 온도

04. 비례 척도 : 대소 관계, 차이, 비 모두에 의미가 있는 변수

ex) 길이, 무게

** 간격 척도와 비례 척도의 구별은 0의 의미를 확인 -> 0이 없음을 의미한다면 비례 척도

변수를 질적/양적 변수가 아니라 이산형, 연속형 변수로 나누어 분류도 가능하다.

이산형 변수는 0,1,2,...과 같이 하나하나의 값을 취하는 변수

연속형 변수는 연속적인 값을 취할 수 있는 변수로, 어떤 두 숫자 사이에도 반드시 숫자가 존재하는 것.

ex) 길이, 무게, 시간

누구나 파이썬 통계분석 [티나아이 히로키] 참고