티스토리 뷰

자격증/ADsP

3과목 2. 통계 분석

각인 2025. 11. 2. 03:20

통계기초

표본조사 : 표본집단 선별, 조사 실시. 대표성 있어야 신뢰

표본추출

1) 단순 랜덤 추출법

2) 계통 추출법 : 일정 간격을 두고 추출

3) 집락(군집 cluster) 추출법 : 단순 랜덤 추출법 중에 집락 데이터를 표본으로 사용.

                                             집락은 동질, 집락 내 데이터는 이질.

4) 층화 추출법 : 집락은 이질, 군집 내 데이터는 동질

 

척도

구분 특징 예시
질적 척도 명목척도 성별, 지역
순서(서열)척도 선호도, 신용도, 학년
양적 척도 구간(등간)척도 온도, 지수
비율척도 : 0 존재, 사칙연산 신장, 무게, 점수, 가격

 

이산확률분포

1) 베르누이 분포 : 성공/실패. $Var(X) = p(1-p)$

     1-1) 이항 분포 : n번의 베르누이 시행에서 k번 성공할 확률. $Var(X) = np(1-p)$

        1-1-1) 다항 분포 : n번 시행에서 3개 이상 결과

                                    $P(X=x, Y=y, Z=z) = \frac{n!}{x!y!z!}p_1^x p_2^y p_3^z (단, x+y+z=n)$

      1-2) 기하 분포 : 성공 확률이 p인 베르누이 시행에서 처음 성공 나올 때까지 k번 실패할 확률.

                                     $Var(X)=\frac{1-p}{p^2}$

2) 포아송 분포 : 단위 시간/공간 내 발생.

3) 이산확률변수

 

연속확률분포

1) 균일분포

2) t-분포 : 평균이 0.

 

3) 카이제곱분포

4) F 분포

5) 연속활률변수


【기초개념

기댓값

분산

표준편차 : $\delta=\sqrt{Var(X)}$

첨도 : 값이 3에 가까울수록 정규분포

왜도 : 0인 경우 정규분포와 유사.

          왼쪽 꼬리가 긴 경우 평균 < 중앙값, 오른쪽 꼬리가 긴 경우 중앙값 < 평균

공분산 : 확률변수 X, Y 상관 정도. 양수면 X, Y 증가. 음수면 X 증가, Y 감소.

 

가설검정

1) 귀무가설 : $H_0$ 같을 것이다. 유의수준 : 0.05% 보다 작으면 기각.

2) 대립가설 : $H_1$ 귀무가설 반대. 

 

1종 오류 : 귀무가설 사실인데 기각

2종 오류 : 귀무가설 거짓인데 채택 

모수 검정 vs 비모수 검정

모수 검정 비모수 검정
등간척도, 비율척도 명목척도, 서열척도
평균 중앙값
피어슨 상관계수 스피어만 순위상관계수
t-test, anova wilcoxon, mann-whiney, kruskal wallis
spearman, friedman

기초분석

1. t-검정

2. 분산분석(ANOVA) : 세 개 이상 모집단 있을 경우 평균 비교.

                                             1.정규성 2.등분산성 3.독립성 필요.

                                             사후검정 방법 : Scheff, Tukey, Duncan, Fisher’s LSD, Bonferroni

 

3. 교차분석 : 범주형(명목, 서열) 자료 관계 알아보기

적합도 검정 : 관측값이 예상값과 일치하는지 검정

중심극한정리 : 모집단 분포 상관없이 표본 개수 n이 커질수록 표본평균 분포가 정 규분포에 가까워지는 현상.

 

4. 상관분석 : 두 변수 간 선형적 관계 존재하는지.

상관계수 활용. -1 ~ +1. 0에 가까울수록 상관관계 X

1) 피어슨 상관분석(선형적)

2) 스피어만 상관분석(비선형적)


회귀분석】 

독립변수가 종속변수에 미치는 영향 추정. 선형성, 독립성, 등분산성, 정규성 

회귀모형의 가설검정은 모든 회귀계수는 0이다. F-검정으로 확인

회귀계수 유의성은 t-검정으로 확인.

t value(독립, 종속변수 선형관계 존재하는 정도) = 회귀계수(Estimate)/표준오차(std.Error)

 

다중공선성 : 분산팽창요인(VIF)을 구해 10이 넘으면 있다고 판단.

R에서 스크리 산점도(Scree plot)를 사용해 주성분 개수 선택.

선형판별분석(LDA)(지도학습), t-분포 확률적 임베딩(t-SNE), 특잇값 분해(SVD)로 차원 축소

 

변수 선택법

1) 전진선택법 : 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가.

2) 후진제거법 : 가장 적은 영향을 주는 변수부터 하나씩 제거.

3) 단계별방법 : 전진선택법, 후진제거법 보완.

                         전진으로 변수 하나씩 추가하면서 필요없는 변수 제거.

정규화 선형회귀

1) 라쏘 : L1규제. 가중치 절댓값 합 최소화

2) 릿지 : L2규제. 가중치 제곱합 최소화

3) 엘라스틱넷 : 라쏘+릿지

 

일반화 선형회귀

1) 로지스틱 회귀 : 종속변수 범주형(0 or 1, /, 사망/생존). 의학연구에 많이 사용.

2) 포아송 회귀 : 종속변수가 정규분포를 따르지 않거나 등분산성을 불만족하는 경우.

 

더빈 왓슨 검정 : 오차항 연관성 검정. 통계량 값이 2에 가까우면 오차항의 자기상관 없다.

                                  0은 양의 상관관계, 4는 음의 상관관계.


다변량분석

1. 다차원 척도법(MDS) : 객체 간 근접성 시각화.

                                      척도 stress 0~1 사이 값. 낮을수록 적합도 높다. 0.05 이내 좋음, 0.15 이상 나쁨.

                                      계량적 MDS -> 구간, 비율척도, 유클리디안.

                                      비계량적 MDS -> 서열척도

 

2. 주성분분석(PCA) : 여러 상관성 높은 변수 선형 결합 -> 새로운 변수(주성분)(요약 축소)

                                           변수 축소하여 다중공선성 문제 해결. 스마트팩토리에 활용.

                                           선형변형 필요. scree plot, biplot 그래프 활용.

                                          * 차원의 저주 : 불충한 데이터를 가진 고차원 데이터는 근거 부족으로 성능 부정적.


시계열분석

일정한 평균, 일정한 분산. 공분산은 시차에만 의존한다.

자기상관계수 : 시간의 흐름에 따른 변수 간 상관관계 변화.

-> 부분자기상관계수 : 다른 시점의 확률변수 영향력 통제하고 상관관계 보여줌.

 

기법

1) 이동평균법 : 일정 기간 자료 묶어 평균. 장기 추세. 가중치 부여.

2) 지수평활법 : 이동평균법 보완. 최근 자료에 큰 가중치. 중장기 예측.

 

모형

자기회귀(AR) 모형 : 이전 시점 n개 선형 결합. n의 값을 결정하기 위해 부분자기상관함수 사용.

이동평균 모형 : 백색잡음 선형 결합 -> 항상 정상성 만족. n의 값을 결정하기 위해 자기상관함수 사용.

                      *백색잡음 : 공분산과 자기공분산이 모두 0인 시계열 자료.

                                       평균이 $\mu$ 분산이 $\sigma^2$ 으로 정규분포를 따를 경우 가우시안 백색잡음. 

자기회귀누적이동평균 모형 : 비정상 시계열 자료 취급. 차분이나 변환 통해 정상화.

 

분해 시계열 :

                1) 추세요인 : 장기간 일정 경향 지속

                2) 순환요인 : 이유 불분명, 주기 비일정

                3) 계절요인 : 반복 주기 패턴

                4) 불규칙요인 : 위 세 가지 요인으로 설명하지 못하는 오차. 우연. 예측 불가능. 천재지변 등

 

'자격증 > ADsP' 카테고리의 다른 글

3과목 3. 데이터 분석 요약 정리  (0) 2025.11.02
댓글
공지사항
최근에 올라온 글