본문 바로가기

SideProject

데이터 분석 스터디_케글_20241115

주제 

  • 케글 스터디

https://www.kaggle.com/code/janiobachmann/bank-marketing-campaign-opening-a-term-deposit

 

Bank Marketing Campaign || Opening a Term Deposit

Explore and run machine learning code with Kaggle Notebooks | Using data from Bank Marketing Dataset

www.kaggle.com

 

숙제 

  • confusion matrix 의 평가지표 각각 accuracy, precision, f1 score 가 중요한 케이스 외우기 
  • DTW (Dynamic Time Wrapping)에 대해 공부하기

 

스터디 중 내용 

  • imbalanced data set 문제를 해결하는 방법
    • 층화 추출 - train, test을 split할 때 한 쪽으로 쏠리지 않도록 비중을 맞추는 것
    •  10% score를 통해 타겟에 가까운지/아닌지를 판단할 수 있음 

 

질문사항 

  • Stratified Sampling
  • ROC Curve - 분류 모형? 
  • feature importance를 구하는 법 

 

앞으로의 과제 

  • 새로운 주제 정해서 분류 문제 적용 해보기
  • DTW 공부

 

숙제 내용 

Chat GPT가 알려준 accuracy, precision, F1-score 가 무엇인지, 각각 중요한 케이스 

더보기
데이터 사이언스 전문가의 입장에서 confusion matrix 의 평가지표 각각 accuracy, precision, f1 score 가 중요한 케이스 알려줘
 

ChatGPT의 말:

ChatGPT

Confusion matrix의 평가지표 중 accuracy, precision, F1 score는 각각 특정한 상황에서 중요한 역할을 합니다. 이를 데이터 사이언스 전문가의 관점에서 설명하겠습니다.

 


1. Accuracy

  • 정확도는 전체 데이터에서 올바르게 예측된 비율을 나타냅니다.
  • 중요한 케이스:
    • 클래스가 균형 있는 경우:
      • 데이터의 클래스 분포가 균등하거나 비슷한 경우, accuracy는 모델의 전반적인 성능을 평가하는 데 적합합니다.
      • 예: 이미지 분류(고양이/강아지 등 클래스 비율이 균등).
    • 오차 비용이 동일한 경우:
      • FP(거짓 양성)와 FN(거짓 음성)에 대한 잘못된 판단의 비용이 비슷할 때 유용합니다.
      • 예: 온라인 추천 시스템에서의 개인화 콘텐츠 추천.

2. Precision

  • 정밀도는 모델이 양성(Positive)으로 예측한 것 중 실제로 양성인 비율을 측정합니다.
  • 중요한 케이스:
    • FP(거짓 양성) 비용이 클 때:
      • 잘못된 양성 판단이 심각한 문제를 일으킬 경우 precision이 중요합니다.
      • 예:
        • 스팸 메일 필터링: 정상 메일이 스팸으로 분류되면 큰 문제가 됩니다.
        • 암 진단 테스트: 암이 아닌 사람을 암으로 진단하면 불필요한 추가 검사가 진행될 수 있습니다.
    • 리소스가 제한된 경우:
      • 모델이 제공하는 결과를 검증하거나 후속 조치를 취하는 데 자원이 제한될 때 사용됩니다.
      • 예: 사기 탐지 시스템에서 조사 인력이 한정된 경우.

3. F1 Score

  • F1 점수는 Precision과 Recall(재현율)의 조화 평균입니다. Precision과 Recall 사이의 균형이 필요할 때 유용합니다.
  • 중요한 케이스:
    • 클래스 불균형이 심한 경우:
      • 데이터에서 한 클래스가 다른 클래스에 비해 현저히 적을 때, F1 점수가 모델의 성능을 적절히 평가할 수 있습니다.
      • 예:
        • 희귀 질환 탐지: 대부분의 샘플은 건강하지만 소수의 질병 사례를 정확히 찾아내야 하는 경우.
        • 금융 사기 탐지: 사기 거래는 전체 거래 중 매우 적은 비율을 차지함.
    • FP와 FN이 모두 중요할 때:
      • FP와 FN의 비용이 비슷하거나 둘 다 중요한 경우, Precision과 Recall 간 균형을 잡는 것이 필요합니다.
      • 예: 채용 추천 시스템에서 우수한 인재를 놓치거나 부적합한 인재를 추천하는 경우 모두 비용이 발생할 때.

추가 정리

  • Accuracy는 전반적인 성능 평가가 필요한 경우 적합.
  • Precision은 결과의 정확성이 중요할 때 적합.
  • F1 Score균형과 클래스 불균형이 중요한 문제에서 적합.

평가지표를 선택할 때는 문제의 맥락, 오차 비용의 크기, 데이터의 분포를 종합적으로 고려해야 합니다.

'SideProject' 카테고리의 다른 글

토이프로젝트_주제탐색_20241122  (1) 2024.11.22