주성분회귀분석을 이용한 한국프로야구 순위 (랩스터디)

April 11, 2018 랩스터디

180411 from 도형 최

코멘트

성제’s comment

본 논문은 2011년도 한국프로야구 데이터를 바탕으로 여러 모델을 만들어 2011년도 순위를 도출하고 이 순위가 실제 2011년 순위와 일치하는지를 판단함으로써 각 모델이 순위 예측에 적합한지 판단했다. 이때 사용된 4가지 모델은 각각 산술평균, 가중평균, 주성분분석, 주성분회귀분석이었고, 주로 주성분회귀분석에 초점을 맞추어 기술 하였다. 주성분회귀분석은 변수의 개수가 많을 때 변수들 중 비슷한 요인을 묶어 몇몇의 주성분으로 변수를 추려내는 분석이다. 야구는 투수, 타자 부문 등 승리에 영향을 미치는 요인이 상당히 많으며, 데이터 또한 많이 축적된다. 따라서 야구에서 순위를 예측하는데 있어 변수들을 중요도 별로 분류할 수 있는 주성분분석을 진행하고 이 주성분들을 변수로 하는 회귀분석을 통해 종속변수를 추정한 것은 바람직하다.
그러나 주성분분석을 통해 얻은 주성분변수와 종속변수의 관계를 갖는 데이터는 1개년의 8개 구단의 데이터만 존재함으로 총 8개가 전부이다. 또한 2011년의 데이터를 통해 2011년의 순위를 추정하는 것은 training set 과 test set의 구분이 안 된 상황이다. 따라서 이 회귀직선이 다른 연도의 순위도 잘 예측할 지에 대해서는 의문이 든다.
더불어 이 논문에서는 해당 회귀모형을 바탕으로 적절한 훈련을 한다면 2012년도 팀 순위를 예측할 수 있을 것이라는 결론을 내고 있다. 그러나 해당 회귀모형의 설명력이 뛰어나더라도 다른 팀들 또한 훈련을 한다는 가정 하에 각 팀들의 데이터는 시즌이 시작되고 어느 정도 지난 후에야 얻을 수 있을 것이다. 그렇다면 이 모형은 사후적인 분석에만 사용될 가능성이 높고, 의미 없는 모형이 될 가능성이 높다. 따라서 시즌 초(1/4) 데이터를 바탕으로 시즌 순위를 예측하는 모델을 만드는 것이 더 실용적일 것으로 판단된다.

연진’s comment

이 논문은 투수 부분과 공격 부분에 중요하게 영향을 미치는 요인을 찾고 이를 바탕으로 순위를 예측하는 회귀모형을 실시하였다. 데이터로는 한국야구위원회 홈페이지에 게시된 2011년 4월부터 10월까지의 133개 경기 데이터가 사용되었다. 투수 부문의 독립변수가 17개, 타자 부문의 독립변수가 20개로 변수의 개수가 많고 다중공선성이 발생할 가능성이 높기 때문에 본 논문에서는 주성분분석을 이용하여 변수의 차수를 줄여 회귀분석을 시행하였다.
이 논문에서 아쉬운 점은 연구의 필요성이 뚜렷하게 제시되어있지 않다는 점이다. 프로야구 순위 예측이 필요한 이론적, 현실적 배경이 모두 뚜렷하지 않으며 이에 따라 선행연구 역시 매우 부족하다. 스포츠에 관한 연구라는 표현을 사용했는데 이것이 어떤 연구인지, 또 승패에 관한 연구는 어떤 분야에서 어떤 변수를 이용했는지를 제시했다면 더 좋았을 것 같다. 결론 역시 너무 단순하고 모호하게 제시되어있어 아쉽다. 그리고 1년치 데이터를 사용하여 모델을 만든 후 내년에도 이 모델을 적용할 수 있다고 제시하고 있는데 쉽게 일반화하기는 어려워 보인다.

AgData Lab

서울대학교 농업정보시스템 연구실

주성분회귀분석을 이용한 한국프로야구 순위 (랩스터디)

코멘트

성제’s comment

연진’s comment