Programming/Statistics
2023. 2. 8.
[통계학] 다중공선성이란?
1. 개요 연구실 논문 리뷰하면서 교수님께서 질문하신 것이 '왜 변수가 많으면 종속변수에 대한 신빙성이 떨어지는가?' 였다. [정소영. (2022). 랜덤 포레스트 기반 위험도 지수 평가항목 타당성 확인에 따른 터널 안전관리 정책지원 방안.] 에서 터널사고에 영향을 미치는 변수가 42개로 선정되었는데 이를 모형에 넣고 학습하면 효율이 떨어질 뿐더러 변수 간 다중공선성을 일으켜 신빙성을 떨어뜨린다라는 말을 붙였다. 사실 효율이 떨어지는 점은 그간 학습해왔던 경험으로부터 이해할 수 있었지만 교수님께서 말씀하신 '신빙성이 떨어진다' 에 대해서 온전히 이해하지 못하였다. 그래서 다양한 자료를 탐구하고 왜 변수 간 다중공선성이 결과의 신빙성을 떨어뜨리는 가에 대한 글을 써본다. 2. 다중공선성의 의미 흔히 접하는..