티스토리 뷰
3.3 정형데이터마이닝
【데이터마이닝】
통계분석 : 수집->정제->추정->검정
가설, 검정 하지 않아도 됨. 규칙이나 패턴 찾기 -> 예측, 설명 가능.
| 지도학습 | 비지도학습 | ||
| 회귀(연속형) | 선형회귀분석 의사결정나무 SVR(서포트백터회귀) 신경망 모형 릿지 라쏘 |
군집 | K-means SOM DBSCAN 병합 군집 계층 군집 |
| 연관 | Apriori | ||
| 분류(범주형) | 로지스틱 회귀분석 신경망 모형 의사결정나무 k-NN 앙상블모형 SVM(서포트 백터 머신) 나이브 베이즈 분류 |
차원 축소 | PCA(주성분분석) LDA(선형판별분석) SVD(특잇값 분해) MDS(다차원 척도법) |
분류 분석(지도)
군집 분석(비지도)
연관 분석(비지도)
데이터마이닝 프로세스
목적 정의 -> 데이터 준비(수집) -> 데이터 가공 -> 데이터 마이닝 적용(추출) -> 검증
데이터 분할 : 훈련용 50%, 검정용 30%, 평가용 20%
검증
1) 홀드아웃 : 보편적. 랜덤 추출로 학습 8 : 테스트 2로 분리.
2) K-Fold 교차검증 : 전체를 k 집단으로 구분. k-1개를 훈련용으로.
과적합, 과소적합 모두 방지. 데이터 적을 경우 과적합 방지 어려움. 속도 느림.
* 계층별 k-겹 교차검증 : 불균형 데이터 분류.
3) 붓스트랩 : 표본 재추출. 분포 고르지 않아 오버샘플링 혹은 언더샘플링 문제 있을 경우 사용.
과적합 발생 가능성 낮춤.
* 오버샘플링 : 특정 범주 적은 데이터 크기 확장
* 언더샘플링 : 특정 범주 많은 데이터를 다른 범주와 균형 맞추도록 축소
【분류분석】 (지도학습)
1. 로지스틱 회귀분석 : 독립변수가 연속형, 종속변수가 범주형일 때.
종속변수는 항상 0~1 사이 값.
1) 알고리즘
오즈(Odds) : 성공 확률이 실패 확률의 몇 배인지.
로짓변환 : 오즈는 음수 가질 수 없고 비대칭이므로 오즈에 로그값. 성공확률 0.5 기준 대칭.
시그모이드 함수 : 로짓 함수와 역함수.
2. 의사결정나무
| 종속변수 | 분류 | 알고리즘 | 내용 |
| 이산형 -> 분류트리 |
카이제곱 통계량 | CHAID | 다지 분할을 위한 알고리즘. p-value 가장 작은 변수 활용 최적분리 |
| 지니 지수 | CART | 분산 정량화. 지니 지수 감소 변수 활용 최적분리. $1 - \sum_{i=1}^{C} p_i^2$ |
|
| 엔트로피 지수 | C4.5 | log사용. 정규화된 불순도 측도. 엔트로피 지수 가장 작은 변수 활용 최적분리. | |
| 연속형 -> 회귀트리 |
ANOVA F-통계량 | CHAID | p-value 작아지도록 가지 분할 |
| 분산감소량 | CART | 분산 감소량 커지도록 가지 분할 |
* 교호작용 : 여러 개 독립변수 결합, 종속변수에 작용하는 규칙 파악
범주형 변수를 병합 또는 범주형 변수를 몇 개의 등급으로 이산화
장) 직관적, 해석 용이. 변환 불필요. 전처리 쉬움. 이산형, 연속형 모두 적용 가능.
선형성, 정규성 등 가정 불필요. 이상값에 민감하지 않다.
단) 독립변수 간 중요도 판단 어려움. 분류 경계선 근처 자료 오차 큼. 과적합 발생 가능성.
1) 성장 : 불순도로 분류.
*정지규칙 : 많은 분리 기준 해석 어려움. 특정 조건 하 끝마디 정지.
2) 가지치기 : 모형 복잡할 경우, 과적합 발생할 수 있어 가지 적당히 제거
3) 타당성 평가
4) 해석 및 예측
3. 앙상블 분석 : 여러 개 모형 조합. 수치형 -> 평균. 범주형 -> 다수결(보팅).
1) 배깅 (Bootstap Aggregating) : 붓스트랩(원본 데이터 같은 크기 표본 랜덤복원추출 샘플 데이터) 집계.
* OOB(비선택 데이터, out of Bag) = 36.8% -> 선택 데이터 63.2%.
모집단 특성 잘 반영, 분산 작고 좋은 예측력.
2) 부스팅 : 비독립적. 잘못 분류된 데이터에 더 큰 가중치. 약할 모델 결합하여 점차적으로 강한 분류.
훈련오차 줄여 배깅보다 뛰어난 성능.
* 에이다부스팅, 그라디언트 부스트, XG부스트, Light GBM 등 방법.
3) 랜덤 포레스트 : 상관성 없다. 배깅에 더 많은 무작위성. 여러 약한 트리 선형 결합. 분류는 다수결, 회귀는 평균 또는 중앙값.
표본추출 과정에서 한 번 더 반복. 분산 감소. 일반화 성능 향상. 이상값에 민감하지 않다.
4) 스태킹 : 다수결(보팅) 아닌 여러 분류기 간 결과를 다시 훈련용 데이터로 사용.
재생성된 데이터는 메타모델. 높은 복잡도, 오랜 학습시간, 해석 어려움.
4. 인공신경망 : 가중된 값에 편향.
장 > 잡음에 민감하지 않다. 비선형적 문제 분석에 유용. 다양하고 많은 데이터에 효과.
단 > 오랜시간 소요. 신뢰도 낮다. 해석이 어렵다. 은닉층, 노드 수 결정 어렵다.
활성함수
| step | 0 or 1 반환. 역전파 알고리즘 활용 불가. | ![]() |
| sigmoid | 0 or 1 반환. 기울기 소실 문제 발생. | ![]() |
| sign | -1 or 1 반환. 역전파 알고리즘 활용 불가. | ![]() |
| tanh | -1 or 1 반환. 기울기 소실 문제 발생. | ![]() |
| ReLU | 입력값과 0중에 큰 값 반환. 기울기 소실 문제 방지. 딥러닝에 많이 사용. | ![]() |
| Softmax | 표준화지수 함수. 출력값이 다범주. |
5. 베이즈 이론 : 주관적. 두 확률변수의 사전 확률과 사후 확률 사이 관계를 나타내는 정리. 스팸 메일 필터, 텍스트 분류.
6. k-NN 알고리즘 : semi-지도학습. 정답 라벨 데이터 속 라벨 없는 데이터 어떻게 분류할 것인지. k값을 어떻게 정하는지가 관건.
7. 서포트벡터머신(SVM) : 지도학습. 분류 성능 뛰어남. 초평면(hyper-plane) 이용.
8. 분류 모형 성과 평가
1) 평가 지표
| 예측 | 합계 | |||
| Positive | Negative | |||
| 실제 | Positive | TP | FN | 민감도(Sensitivity) =재현율(Recall) = $\frac{TP}{TP + FN}$ |
| Negative | FN | TN | 특이도(Specificity) = $\frac{TN}{TN + FP}$ |
|
| 오분류율 | 정밀도(Precision) = $\frac{TP}{TP + FP}$ |
- | 정분류율(정확도) | |
※ F1 Score = (2 x Precision x Recall) / (Precision + Recall)
2) ROC 커브 : 값이 1에 가까울수록 성능이 우수

3) 이익도표 : 0.5에서 cut-off, 1.0이 가장 높은 기준.
향상도=(반응률)/(랜덤모델의 예측력)
4) 향상도 곡선(Lift Curve) : 성과가 얼마나 향상되었는지 구간별로 파악. 좋은 모델일수록 큰 값에서 급격히 감소.

【군집분석】 (비지도)
1.군집분석 (비지도학습) : 다변량 분석(상관, 회귀, 주성분분석) 활용.
-> 실루엣 계수 : 응집도, 분리도 계산. 1에 가까울수록 분리
1) 거리 측도
1-1) 변수가 연속형인 경우

유클리디안 거리 : 가장 짧은 거리. $d_E(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$
맨하튼 거리 : 가로지르지 않는 거리. $d_M(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{n} |x_i - y_i|$
체비셰프 거리 : 최댓값을 데이터 간 거리로 정의.
표준화 거리 : 유클리디안 거리에서 변수 간 단위 차이로 어떤 변수가 거리 측정에 크게 기여하지 못하는 문제를 표준편차로 나눔.
마할라노비스 거리 : 표준화 거리가 고려 못 한 변수 간 상관성까지 고려.
민코프스키 거리 : 유클리디안, 맨하튼 한 번에 표현. m=1면 맨하튼, m=2면 유클리디안.
2.계층적 군집분석
1) 덴드로그램
2) 군집 간 거리
단일, 완전, 평균, 중심, 와드
3) 비계층적 군집분석
3-1) k-means 군집 :
군집 수(k개)를 사전에 정한 뒤 집단 내 동질성, 집단 간 이질성 모두 높게 k개 군집으로 분할.
초깃값 k개 설정 어렵다. 이상값에 민감하다.
3-2) DBSCAN(Density Based Spatial Clustering of Applications with Noise) :
초기 군집 수 설정할 필요 없다.
3. 혼합 분포 군집
1) EM 알고리즘(기댓값 최대화, Expectation Maximization)
4. 자기조직화지도(SOM)(코호넨 맵) : 인공신경망 기반 차원 축소, 군집화 동시 수행.
은닉층 보유하지 않고, 유클리디안 거리로 계산.
장) 순전파 방식 -> 속도 매우 빠름. 저차원 지도로 시각화(이해력),
패턴과 이미지 분석 성능 우수. 입력 데이터 속성 그대로 보존.
단) 초기 학습률, 가중치 많은 영향. 경쟁층 이상적인 노드 개수 결정 어려움.
【연관분석】 (비지도)
1. 측도
1) 지지도 : A, B 동시에 거래 $P(A \cap B)$
2) 신뢰도 : 조건부 구매 확률. 신뢰도(A->B)≠신뢰도(B->A)
$P(B \mid A) = \frac{P(A \cap B)}{P(A)}$, $P(A \mid B) = \frac{P(A \cap B)}{P(B)}$
3) 향상도 : A가 없을 때 B가 구매될 확률 대비, A가 구매될 때 B가 구매될 확률.
향상도(A->B)=향상도(B->A)
$\frac{P(A \cap B)}{P(A) \times P(B)}$ = $\frac{P(A \cap B)}{P(B) \times P(A)}$
2. 알고리즘
1) apriori 알고리즘 : 지지도를 사용. 복잡도 감소.
2) FP-Growth 알고리즘
'자격증 > ADsP' 카테고리의 다른 글
| 3과목 2. 통계 분석 (0) | 2025.11.02 |
|---|





