6회차 -> ai 딥러닝 공부3, 알고리즘 특강 복습
오늘은 해커톤 팀원들과 회의 진행 도중 로지스틱회귀를 이용한 코드가 AI모델 성능 향상에 크게 기여했음을 시작으로
왜???? 로지스틱 회귀가 이번 해커톤의 데이터 판별에 있어 좋게 작용 했는지 궁금하여 조사해보았다.
1. 이진 분류 문제와의 적합성
로지스틱 회귀는 주로 이진 분류 문제에 사용되는 알고리즘이다. 이번 문제 역시 제품의 이상 여부를 판별하는 이진 분류 문제였을 가능성이 크다. 로지스틱 회귀는 이진 분류에 최적화된 손실 함수(Log-Loss)를 사용하여 확률적 결과를 도출하는 데 적합하다.
2. 모델의 해석 가능성
로지스틱 회귀는 상대적으로 단순한 모델이기 때문에 결과를 해석하기 쉽다. 각 독립 변수(특징)가 종속 변수(결과)에 어떻게 영향을 미치는지 이해할 수 있는 계수를 제공하여, 어떤 특징이 모델에 긍정적 또는 부정적 영향을 주는지 파악할 수 있다. 이 점은 모델을 사용하여 문제를 분석하고 개선하는 데 중요한 역할을 한다.
3. 높은 성능을 위한 적합한 전처리
로지스틱 회귀는 데이터의 정규화(스케일링)나 결측치 처리가 잘 되어 있을 때 성능이 특히 우수하다. 제공된 코드를 보면, 데이터에 대해 전처리 과정을 철저히 수행한 후에 로지스틱 회귀를 적용했다. 결측치 처리와 데이터 스케일링이 적절히 이루어졌기 때문에, 모델이 데이터를 잘 학습할 수 있었다.
4. 선형 분리에 적합한 데이터 특성
로지스틱 회귀는 선형적으로 구분할 수 있는 데이터에 매우 적합하다. 만약 이번 문제에서 사용된 데이터셋이 상대적으로 선형적인 관계를 가졌다면, 로지스틱 회귀가 좋은 성능을 낼 수 있었을 것이다. 특히, 다수의 독립 변수가 종속 변수와 선형 관계에 있을 경우, 로지스틱 회귀는 단순하면서도 효과적인 해결책이 된다.
5. 과적합 방지
로지스틱 회귀는 비교적 단순한 모델이기 때문에, 복잡한 모델들에 비해 과적합의 위험이 적다. 특히, 적절한 정규화를 통해 일반화 성능을 향상시키기 쉽다. 따라서, 데이터셋의 크기가 크지 않거나 복잡한 패턴이 많이 포함되지 않은 경우, 로지스틱 회귀가 과적합을 방지하면서도 좋은 성능을 낼 수 있다.
6. 시간 효율성
로지스틱 회귀는 훈련 속도가 빠르고, 계산 비용이 낮다. 특히, 대규모 데이터셋이나 다차원 데이터에서 연산 성능을 최적화해야 할 때 유리하다. 모델 학습과 예측이 신속하게 이루어져, 반복적인 실험과 튜닝에 적합하다.
결론
이번 AI 모델 성능 향상에 로지스틱 회귀가 적합했던 이유는, 이 알고리즘이 이진 분류 문제에 특화되어 있고, 전처리 과정을 통해 데이터의 품질이 높아졌으며, 데이터셋이 선형적 특성을 가졌을 가능성이 크기 때문이다. 또한, 간단하고 효율적인 특성 덕분에 빠른 학습과 예측이 가능했으며, 과적합을 방지하면서도 좋은 일반화 성능을 보여주었기 때문이다.