티스토리 뷰
【통계기초】
표본조사 : 표본집단 선별, 조사 실시. 대표성 있어야 신뢰
표본추출
1) 단순 랜덤 추출법
2) 계통 추출법 : 일정 간격을 두고 추출
3) 집락(군집 cluster) 추출법 : 단순 랜덤 추출법 중에 집락 데이터를 표본으로 사용.
집락은 동질, 집락 내 데이터는 이질.
4) 층화 추출법 : 집락은 이질, 군집 내 데이터는 동질
척도
| 구분 | 특징 | 예시 |
| 질적 척도 | 명목척도 | 성별, 지역 |
| 순서(서열)척도 | 선호도, 신용도, 학년 | |
| 양적 척도 | 구간(등간)척도 | 온도, 지수 |
| 비율척도 : 0 존재, 사칙연산 | 신장, 무게, 점수, 가격 |
이산확률분포
1) 베르누이 분포 : 성공/실패. $Var(X) = p(1-p)$
1-1) 이항 분포 : n번의 베르누이 시행에서 k번 성공할 확률. $Var(X) = np(1-p)$
1-1-1) 다항 분포 : n번 시행에서 3개 이상 결과.
$P(X=x, Y=y, Z=z) = \frac{n!}{x!y!z!}p_1^x p_2^y p_3^z (단, x+y+z=n)$
1-2) 기하 분포 : 성공 확률이 p인 베르누이 시행에서 처음 성공 나올 때까지 k번 실패할 확률.
$Var(X)=\frac{1-p}{p^2}$
2) 포아송 분포 : 단위 시간/공간 내 발생.
3) 이산확률변수
연속확률분포
1) 균일분포
2) t-분포 : 평균이 0.

3) 카이제곱분포
4) F 분포
5) 연속활률변수
【기초개념】
기댓값
분산
표준편차 : $\delta=\sqrt{Var(X)}$
첨도 : 값이 3에 가까울수록 정규분포
왜도 : 0인 경우 정규분포와 유사.
왼쪽 꼬리가 긴 경우 평균 < 중앙값, 오른쪽 꼬리가 긴 경우 중앙값 < 평균
공분산 : 확률변수 X, Y 상관 정도. 양수면 X, Y 증가. 음수면 X 증가, Y 감소.
가설검정
1) 귀무가설 : $H_0$ 같을 것이다. 유의수준 : 0.05% 보다 작으면 기각.
2) 대립가설 : $H_1$ 귀무가설 반대.
1종 오류 : 귀무가설 사실인데 기각
2종 오류 : 귀무가설 거짓인데 채택
모수 검정 vs 비모수 검정
| 모수 검정 | 비모수 검정 |
| 등간척도, 비율척도 | 명목척도, 서열척도 |
| 평균 | 중앙값 |
| 피어슨 상관계수 | 스피어만 순위상관계수 |
| t-test, anova | wilcoxon, mann-whiney, kruskal wallis spearman, friedman |
【기초분석】
1. t-검정
2. 분산분석(ANOVA) : 세 개 이상 모집단 있을 경우 평균 비교.
1.정규성 2.등분산성 3.독립성 필요.
사후검정 방법 : Scheff, Tukey, Duncan, Fisher’s LSD, Bonferroni
3. 교차분석 : 범주형(명목, 서열) 자료 관계 알아보기
적합도 검정 : 관측값이 예상값과 일치하는지 검정
중심극한정리 : 모집단 분포 상관없이 표본 개수 n이 커질수록 표본평균 분포가 정 규분포에 가까워지는 현상.
4. 상관분석 : 두 변수 간 선형적 관계 존재하는지.
상관계수 활용. -1 ~ +1. 0에 가까울수록 상관관계 X
1) 피어슨 상관분석(선형적)
2) 스피어만 상관분석(비선형적)
【회귀분석】
독립변수가 종속변수에 미치는 영향 추정. 선형성, 독립성, 등분산성, 정규성
회귀모형의 가설검정은 모든 회귀계수는 0이다. F-검정으로 확인.
회귀계수 유의성은 t-검정으로 확인.
t value(독립, 종속변수 선형관계 존재하는 정도) = 회귀계수(Estimate)/표준오차(std.Error)
다중공선성 : 분산팽창요인(VIF)을 구해 10이 넘으면 있다고 판단.
R에서 스크리 산점도(Scree plot)를 사용해 주성분 개수 선택.
선형판별분석(LDA)(지도학습), t-분포 확률적 임베딩(t-SNE), 특잇값 분해(SVD)로 차원 축소
변수 선택법
1) 전진선택법 : 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 추가.
2) 후진제거법 : 가장 적은 영향을 주는 변수부터 하나씩 제거.
3) 단계별방법 : 전진선택법, 후진제거법 보완.
전진으로 변수 하나씩 추가하면서 필요없는 변수 제거.
정규화 선형회귀
1) 라쏘 : L1규제. 가중치 절댓값 합 최소화
2) 릿지 : L2규제. 가중치 제곱합 최소화
3) 엘라스틱넷 : 라쏘+릿지
일반화 선형회귀
1) 로지스틱 회귀 : 종속변수 범주형(0 or 1, 합/불, 사망/생존). 의학연구에 많이 사용.
2) 포아송 회귀 : 종속변수가 정규분포를 따르지 않거나 등분산성을 불만족하는 경우.
더빈 왓슨 검정 : 오차항 연관성 검정. 통계량 값이 2에 가까우면 오차항의 자기상관 없다.
0은 양의 상관관계, 4는 음의 상관관계.
【다변량분석】
1. 다차원 척도법(MDS) : 객체 간 근접성 시각화.
척도 stress는 0~1 사이 값. 낮을수록 적합도 높다. 0.05 이내 좋음, 0.15 이상 나쁨.
계량적 MDS -> 구간, 비율척도, 유클리디안.
비계량적 MDS -> 서열척도
2. 주성분분석(PCA) : 여러 상관성 높은 변수 선형 결합 -> 새로운 변수(주성분)(요약 축소)
변수 축소하여 다중공선성 문제 해결. 스마트팩토리에 활용.
선형변형 필요. scree plot, biplot 그래프 활용.
* 차원의 저주 : 불충한 데이터를 가진 고차원 데이터는 근거 부족으로 성능 부정적.
【시계열분석】
일정한 평균, 일정한 분산. 공분산은 시차에만 의존한다.
자기상관계수 : 시간의 흐름에 따른 변수 간 상관관계 변화.
-> 부분자기상관계수 : 다른 시점의 확률변수 영향력 통제하고 상관관계 보여줌.
기법
1) 이동평균법 : 일정 기간 자료 묶어 평균. 장기 추세. 가중치 부여.
2) 지수평활법 : 이동평균법 보완. 최근 자료에 큰 가중치. 중장기 예측.
모형
자기회귀(AR) 모형 : 이전 시점 n개 선형 결합. n의 값을 결정하기 위해 부분자기상관함수 사용.
이동평균 모형 : 백색잡음 선형 결합 -> 항상 정상성 만족. n의 값을 결정하기 위해 자기상관함수 사용.
*백색잡음 : 공분산과 자기공분산이 모두 0인 시계열 자료.
평균이 $\mu$ 분산이 $\sigma^2$ 으로 정규분포를 따를 경우 가우시안 백색잡음.
자기회귀누적이동평균 모형 : 비정상 시계열 자료 취급. 차분이나 변환 통해 정상화.
분해 시계열 :
1) 추세요인 : 장기간 일정 경향 지속
2) 순환요인 : 이유 불분명, 주기 비일정
3) 계절요인 : 반복 주기 패턴
4) 불규칙요인 : 위 세 가지 요인으로 설명하지 못하는 오차. 우연. 예측 불가능. 천재지변 등
'자격증 > ADsP' 카테고리의 다른 글
| 3과목 3. 데이터 분석 요약 정리 (0) | 2025.11.02 |
|---|
