1.확률적 데이터와 확률변수
1.1 확률적 데이터
- 결정론적 데이터 : 항상 같은 값이 나오는 데이터
- 확률적 데이터 : 정확히 예측할 수 없는 값이 나오는 데이터
- 결합확률 : 사건 A와 B가 동시에 발생할 확률
1.2분포
- 확률적 데이터에서 어떠한 값이 자주 나오고, 어떠한 값이 드물게 나오는가를 나타내는 정보
- 카운트 플롯 : 범주형 데이터
- 히스토그램 : 실수형 데이터
1.3 기술통계
- 분포의 특징을 나타내는 여러가지 숫자를 계산하여 그 숫자로 분포를 나타내는것
- 표본평균, 표본중앙값, 표본최빈값
- 표본분산, 표본표준편차
- 표본왜도, 표본첨도
1.4 표본평균
- 확률적인 데이터 값을 대표하는 기술통계 값
1.5 표본중앙값
- 전체 자료를 크기별로 정렬했을때 가장 중앙에 위치하는 값
- 표본개수가 N일때
- N이 홀수 : 중앙값은 (N+1)/2 번째 표본의 값
- N이 짝수 : 중앙값은 N/2번째 표본의 값과 N/2+1번째 표본 값의 평균
1.6 표본최빈값
- 데이터값 중 가장 빈번하게 나오는 값
1.7 파이썬을 사용한 대푯값 계산
1
2
3
4
mean()
median()
argmax()
histogram()
- mean() : 표본평균 계산
- median() : 표본중앙값 계산
- argmax() : 이산데이터의 최댓값 계산
- histogram() : 데이터를 구간으로 나누어 각 구간에 들어가는 데이터 수 계산
1.8 단봉분포와 다봉분포
- 단봉분포 : 분포의 모양에서 봉우리가 한개
- 다봉분포 : 분포의 모양에서 봉우리가 두개 이상
1.9 대칭분포
- 분포가 평균을 기준인 대칭분포이면 표본중앙값은 표본평균과 같다.
- 대칭분포이며 하나의 최고값만을 가지는 단봉분포이면 표본최빈값은 표본평균과 같다.
- 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균이 가장 크게 영향을 받고 표본최빈값이 가장 적게 영향을 받는다.
1.10 분산과 표준편차
- 분산 : 폭을 대표하는 값
1.11 파이썬을 사용한 표본분산 및 표본표준편차의 계산
1
2
var()
std()
- var() : 표본본산
- std() : 표본표준편차
1.12 표본비대칭도
- 평균과의 거리의 세게곱을 이용하여 구한 특징값
- 표본비대칭도가 0이면 대칭분포
1.13 표본첨도
- 평균과의 네제곱을 이용하여 구한 특징값
- 데이터가 중앙에 몰린 정도를 정밀하게 비교하는데 쓰임
1.14 표본모멘트
- k제곱을 이용하여 구한 모멘트
1.15 확률변수
- 수학적으로 확률공간의 표본을 입력으로 받아서 실수인 숫자로 바꾸어 출력하는 함수
1.16 이산확률변수
- 확률변수값이 연속적이지 않고 떨어져 있도록 정의하는것
1.17연속확률변수
- 련속적이고 무한대의 실수 표본값을 가지는 확률변수
1.18 확률변수는 데이터생성기
- 표본이 현실 세계의 데이터로 선택되는것을 실현 또는 표본화라고함
- 표본화 : 많은수의 데이터의 집합에서 일부데이터만 선택되는 과정
- 확률변수로부터 데이터를 여러 번 생성하는 경우 실제 데이터값은 매번 달라질 수 있지만, 확률변수 자체는 변하지 않는다.
- 확률변수의 확률분포함수는 우리가 직접 관찰할 수 없다. 다만 확률변수에서 만들어지는 실제 데이터값을 이용하여 확률분포함수가 이러한 것일 거라고 추정할 뿐이다.
- 확률변수에서 만들어지는 실제 데이터 값은 확률변수가 가진 특성을 반영하고 있다. 데이터가 많을수록 더 정확하게 확률분포함수를 묘사한다.
1.19 확률변수를 사용한 데이터 분석
- 데이터값에서 호가률변수의 확률분포함수를 역설계하여 만들어내는 과정
- 기술통계값을 사용한다.
2. 기댓값과 확률변수의 변환
2.1 확률변수의 기대값
- 확률변수의 확률밀도함수를 알면 확률변수의 이론적 평균값을 구할 수 있다. 이러한 이론적 평균을 확률변수의 기대값이라고 한다. 단순히 평균 이라고도 한다
- 이산확률변수의 기댓값은 표본공간의 원소
의 가중평균이다.
- 연속확률변수의 기댓값은 확률밀도 함수p(x)를 가중치로하여 모든 가능한 표본 x를 적분한것
- 기댓값 : 여러 가능한 x값을 확률값에 따라 가중합을 한것이므로 가장 확률(또는 확률밀도)이 높은 x값 근처의 값이 된다. 즉, 확률또는 확률밀도가 모여 있는 곳의 위치를 나타낸다.
2.2 확률변수의 변환
- 기존의 확률변수를 사용하여 새로운 확률변수를 만드는것
2.3 기댓값의 성질
- 확률변수가 아닌 상수 c에 대해
- 선형성
2.4 통계량
- 데이터의 집합의 모든 값을 정해진 어떤 공식에 넣어서 하나의 숫자를 구한것
2.5 표본평균 확률변수
- 확률변수로부터 N개의 표본을 만들어 이 표본집합의 표본평균을 구하면 이렇게 구한 표본평균값도 확률변수가 됨.
2.6 기댓값과 표본평균의 관계
- 표본평균의 기댓값은 원래의 확률변수의 기댓값과 같다.
- 표본평균은 확률변수의 기댓값 근처의 값이다.
2.7 중앙값
- 확률변수의 중앙값은 중앙값보다 큰 값이 나올 확률과 작은 값이 나올 확률이 0.5로 같은 값
2.8 최빈값
- 이산확률분포 : 가장 확률값이 큰 수
- 연속확률분포 : 확률밀도함수 px의 값이 가장 큰 확률 변수의 값
3. 분산과 표준편차
3.1 확률분포의 분산
3.2 이산확률변수의 분산
- 평균으로부터 표본데이터까지 거리의 제곱을 확률질량함수p(x)로 가중하여 더한값
3.3 연속확률변수의 분산
- 평균으로부터 표본데이터까지 거리의 제곱을 확률밀도함수p(x)로 가중하여 적분한 값
3.4 분산의 성질
- 분산은 항상 0 또는 양수다
- 확룰변수가 아닌 상수값 c에 대해 다음식이 성립한다
- 기댓값의 성질로 인해
- 또는
3.5 두 확률변수의 합의 분산
3.6 확률변수의 독립
- 독립 : 두 확률변수가 서로에게 영향을 미치지 않는다
- 종속 : 두 확률변수가 서로에게 영향을 미친다.
- 두 확률변수 X,Y가 서로 독립이면 다음의 식이 성립한다.
- 서로 독립인 두 확률변수의 합의 분산은 각 확률변수의 분산의 합과 같다.
3.7 표준평균의 분산
- 표본평균을 계산한 표본개수가 커지면 표본평균의 값의 변동은 작아진다.
3.8 표본분산의 기댓값
- 표본분산값이 이론적인 분산값보다 더 작다.
- 따라서 기댓값이 정확한 분산값과 일치하는 비편향 표본분산은 아래와 같다.
3.9 비대칭도와 첨도
- 비대칭도 : 3차 모멘트 값에서 계산하며 확률밀도함수의 비대칭정도를 가리킨다.
- 첨도 : 4차 모멘트 값에서 계산하며 확률이 정규분포와 대비하여 중심에 모였는지 바깥에 퍼졌는지를 나타낸다.
3.10 모멘트
- 확률분포에서 계산한 특징값.
4. 다변수 확률변수
4.1 결합확률질량함수
- 하나 하나의 숫자 쌍에 대해 확률을 알려주는 함수만 있으면 전체 확률분포를 알수 있다.
4.2 주변확률질량함수
- 두 확률변수 중 하나의 확률변수값에 대해서만 확률분포를 표시한 함수
4.3 조건부확률질량함수
- 다변수 확률변수 중 하나의 값이 특정값으로 고정되어 상수가 되어 버린 경우 나머지 벼수에 대한 확률질량 함수
- 조건부확률질량함수의 합은 1이다
4.4 다변수 연속확률변수
- 누적확률분포함수를 먼저 정의한 후 이를 미분하여 확률밀도함수를 정의함
4.5 결합누적확률분포함수
- 두 연속확률변수 X,Y에 대한 결합누적확률분포함수 pxy(x,y)는 다음과 같다
- 다음과 같은 특성을 가진다.
4.6 결합확률밀도함수
- 결합누적확률분포함수를 미분하여 정의
- 독립변수가 2개이므로 각각에 대해 모두 편미분
4.7 주변확률밀도함수
- 결합확률밀도함수를 특정한 하나의 변수에 대해 가중평균한 값
4.8 조건부확률밀도함수
- 다변수 확률변수 중 하나의 값이 특정값이라는 사실이 알려진 경우, 이러한 조건에 의해 변화한 나머지 확률변수에 대한 확률밀도함수