티스토리 뷰

3.3  정형데이터마이닝

데이터마이닝

통계분석 : 수집->정제->추정->검정

가설, 검정 하지 않아도 됨. 규칙이나 패턴 찾기 -> 예측, 설명 가능.

 

지도학습 비지도학습
회귀(연속형) 선형회귀분석
의사결정나무
SVR(서포트백터회귀)
신경망 모형
릿지
라쏘
군집 K-means
SOM
DBSCAN
병합 군집
계층 군집
연관 Apriori
분류(범주형) 로지스틱 회귀분석
신경망 모형
의사결정나무
k-NN
앙상블모형
SVM(서포트 백터 머신)
나이브 베이즈 분류
차원 축소 PCA(주성분분석)
LDA(선형판별분석)
SVD(특잇값 분해)
MDS(다차원 척도법)

 

분류 분석(지도)

군집 분석(비지도)

연관 분석(비지도)

 

데이터마이닝 프로세스

목적 정의 -> 데이터 준비(수집) -> 데이터 가공 -> 데이터 마이닝 적용(추출) -> 검증

 

데이터 분할 : 훈련용 50%, 검정용 30%, 평가용 20%

           검증

             1) 홀드아웃 : 보편적. 랜덤 추출로 학습 8 : 테스트 2로 분리.

             2) K-Fold 교차검증 : 전체를 k 집단으로 구분. k-1개를 훈련용으로.

                                             과적합, 과소적합 모두 방지. 데이터 적을 경우 과적합 방지 어려움. 속도 느림.

               * 계층별 k-겹 교차검증 : 불균형 데이터 분류.

             3) 붓스트랩 : 표본 재추출. 분포 고르지 않아 오버샘플링 혹은 언더샘플링 문제 있을 경우 사용.

                                                     과적합 발생 가능성 낮춤.

 

             * 오버샘플링 : 특정 범주 적은 데이터 크기 확장

             * 언더샘플링 : 특정 범주 많은 데이터를 다른 범주와 균형 맞추도록 축소


분류분석(지도학습)

 

1. 로지스틱 회귀분석 : 독립변수가 연속형, 종속변수가 범주형일 때.

종속변수는 항상 0~1 사이 값.

1) 알고리즘

    오즈(Odds) : 성공 확률이 실패 확률의 몇 배인지.

    로짓변환 : 오즈는 음수 가질 수 없고 비대칭이므로 오즈에 로그값. 성공확률 0.5 기준 대칭.

    시그모이드 함수 : 로짓 함수와 역함수

 

2. 의사결정나무

종속변수 분류 알고리즘 내용
이산형
-> 분류트리
카이제곱 통계량 CHAID 다지 분할을 위한 알고리즘. p-value 가장 작은 변수 활용 최적분리
지니 지수 CART 분산 정량화. 지니 지수 감소 변수 활용 최적분리.
$1 - \sum_{i=1}^{C} p_i^2$​
엔트로피 지수 C4.5 log사용. 정규화된 불순도 측도. 엔트로피 지수 가장 작은 변수 활용 최적분리.
연속형
-> 회귀트리
ANOVA F-통계량 CHAID p-value 작아지도록 가지 분할
분산감소량 CART 분산 감소량 커지도록 가지 분할

  * 교호작용 : 여러 개 독립변수 결합, 종속변수에 작용하는 규칙 파악

                     범주형 변수를 병합 또는 범주형 변수를 몇 개의 등급으로 이산화

 

) 직관적, 해석 용이. 변환 불필요. 전처리 쉬움. 이산형, 연속형 모두 적용 가능.

     선형성, 정규성 등 가정 불필요. 이상값에 민감하지 않다.

) 독립변수 간 중요도 판단 어려움. 분류 경계선 근처 자료 오차 큼. 과적합 발생 가능성

 

1) 성장 : 불순도로 분류.

    *정지규칙 : 많은 분리 기준 해석 어려움. 특정 조건 하 끝마디 정지.

2) 가지치기 : 모형 복잡할 경우, 과적합 발생할 수 있어 가지 적당히 제거

3) 타당성 평가

4) 해석 및 예측

 

3. 앙상블 분석 : 여러 개 모형 조합. 수치형 -> 평균. 범주형 -> 다수결(보팅).

1) 배깅 (Bootstap Aggregating) : 붓스트랩(원본 데이터 같은 크기 표본 랜덤복원추출 샘플 데이터) 집계.

                                                 * OOB(비선택 데이터, out of Bag) = 36.8% -> 선택 데이터 63.2%.

                                                   모집단 특성 잘 반영, 분산 작고 좋은 예측력.

2) 부스팅 : 비독립적. 잘못 분류된 데이터에 더 큰 가중치. 약할 모델 결합하여 점차적으로 강한 분류.

                 훈련오차 줄여 배깅보다 뛰어난 성능.

               * 에이다부스팅, 그라디언트 부스트, XG부스트, Light GBM 등 방법.

3) 랜덤 포레스트 : 상관성 없다. 배깅에 더 많은 무작위성. 여러 약한 트리 선형 결합. 분류는 다수결, 회귀는 평균 또는 중앙값.

                            표본추출 과정에서 한 번 더 반복. 분산 감소. 일반화 성능 향상. 이상값에 민감하지 않다.

4) 스태킹 : 다수결(보팅) 아닌 여러 분류기 간 결과를 다시 훈련용 데이터로 사용.

                 재생성된 데이터는 메타모델. 높은 복잡도, 오랜 학습시간, 해석 어려움.

 

4. 인공신경망 : 가중된 값에 편향.

> 잡음에 민감하지 않다. 비선형적 문제 분석에 유용. 다양하고 많은 데이터에 효과.

> 오랜시간 소요. 신뢰도 낮다. 해석이 어렵다. 은닉층, 노드 수 결정 어렵다

 

활성함수

step 0 or 1 반환. 역전파 알고리즘 활용 불가.

sigmoid 0 or 1 반환. 기울기 소실 문제 발생.

sign -1 or 1 반환. 역전파 알고리즘 활용 불가.

tanh -1 or 1 반환. 기울기 소실 문제 발생.

ReLU 입력값과 0중에 큰 값 반환. 기울기 소실 문제 방지. 딥러닝에 많이 사용.

Softmax 표준화지수 함수. 출력값이 다범주.  

5. 베이즈 이론 : 주관적. 두 확률변수의 사전 확률과 사후 확률 사이 관계를 나타내는 정리. 스팸 메일 필터, 텍스트 분류.

6. k-NN 알고리즘 : semi-지도학습. 정답 라벨 데이터 속 라벨 없는 데이터 어떻게 분류할 것인지. k값을 어떻게 정하는지가 관건.

7. 서포트벡터머신(SVM) : 지도학습. 분류 성능 뛰어남. 초평면(hyper-plane) 이용.

8. 분류 모형 성과 평가

1) 평가 지표

  예측 합계
Positive Negative
실제 Positive TP FN 민감도(Sensitivity)
=
재현율(Recall) 
= $\frac{TP}{TP + FN}$
Negative FN TN 특이도(Specificity)
= $\frac{TN}{TN + FP}$
오분류율 정밀도(Precision)
= $\frac{TP}{TP + FP}$
- 정분류율(정확도)

F1 Score = (2 x Precision x Recall) / (Precision + Recall)

 

2) ROC 커브 : 값이 1에 가까울수록 성능이 우수

                     

3) 이익도표 : 0.5에서 cut-off, 1.0이 가장 높은 기준.

                    향상도=(반응률)/(랜덤모델의 예측력)

4) 향상도 곡선(Lift Curve) : 성과가 얼마나 향상되었는지 구간별로 파악. 좋은 모델일수록 큰 값에서 급격히 감소.

                                           

 


군집분석(비지도)

1.군집분석 (비지도학습) : 다변량 분석(상관, 회귀, 주성분분석) 활용.

-> 실루엣 계수 : 응집도, 분리도 계산. 1에 가까울수록 분리

1) 거리 측도

1-1) 변수가 연속형인 경우

유클리디안, 맨하튼 비교

유클리디안 거리 : 가장 짧은 거리. $d_E(\mathbf{x}, \mathbf{y}) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$ 

맨하튼 거리 : 가로지르지 않는 거리. $d_M(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{n} |x_i - y_i|$ 

체비셰프 거리 : 최댓값을 데이터 간 거리로 정의. 

표준화 거리 : 유클리디안 거리에서 변수 간 단위 차이로 어떤 변수가 거리 측정에 크게 기여하지 못하는 문제를 표준편차로 나눔.

마할라노비스 거리 : 표준화 거리가 고려 못 한 변수 간 상관성까지 고려.

민코프스키 거리 : 유클리디안, 맨하튼 한 번에 표현. m=1면 맨하튼, m=2면 유클리디안.

2.계층적 군집분석

1) 덴드로그램

2) 군집 간 거리

단일, 완전, 평균, 중심, 와드

3) 비계층적 군집분석

3-1) k-means 군집 :

군집 수(k)를 사전에 정한 뒤 집단 내 동질성, 집단 간 이질성 모두 높게 k개 군집으로 분할.

초깃값 k개 설정 어렵다. 이상값에 민감하다.

3-2) DBSCAN(Density Based Spatial Clustering of Applications with Noise) :

초기 군집 수 설정할 필요 없다.

 

3. 혼합 분포 군집

1) EM 알고리즘(기댓값 최대화, Expectation Maximization)

 

4. 자기조직화지도(SOM)(코호넨 맵) : 인공신경망 기반 차원 축소, 군집화 동시 수행.

은닉층 보유하지 않고, 유클리디안 거리로 계산.

) 순전파 방식 -> 속도 매우 빠름. 저차원 지도로 시각화(이해력),

패턴과 이미지 분석 성능 우수. 입력 데이터 속성 그대로 보존.

) 초기 학습률, 가중치 많은 영향. 경쟁층 이상적인 노드 개수 결정 어려움.

 


연관분석(비지도)

1. 측도

1) 지지도 : A, B 동시에 거래 $P(A \cap B)$

2) 신뢰도 : 조건부 구매 확률. 신뢰도(A->B)신뢰도(B->A) 

                 $P(B \mid A) = \frac{P(A \cap B)}{P(A)}$, $P(A \mid B) = \frac{P(A \cap B)}{P(B)}$

 

3) 향상도 : A가 없을 때 B가 구매될 확률 대비, A가 구매될 때 B가 구매될 확률.

                향상도(A->B)=향상도(B->A) 

                 $\frac{P(A \cap B)}{P(A) \times P(B)}$ = $\frac{P(A \cap B)}{P(B) \times P(A)}$

 

2. 알고리즘

1) apriori 알고리즘 : 지지도를 사용. 복잡도 감소.

2) FP-Growth 알고리즘

'자격증 > ADsP' 카테고리의 다른 글

3과목 2. 통계 분석  (0) 2025.11.02
댓글
공지사항
최근에 올라온 글