야구 칼럼

박종유 2007. 11. 17. 17:02

많은 야구 매니아들은 야구를 볼 때마다 숫자들을 접합니다.

타율,출루율,홈런,타점,...야구는 확률의 스포츠이며 결과는 숫자로 표기돼는 스포츠입니다.

하지만 우리가 접하는 통계안의 숫자들은 보이지 않는 단점들을 가지고 있습니다.

그래서 이번엔 본인이 알고 들어온 야구의 숫자에 대한 문제점은 무엇인지 소개하고자 합니다.

여기서 잠시 한가지 재미있는 현상을 소개해 드리겠습니다.물론 아시는 분도 있을지도 모릅니다.^^

Simpson's Paradox라는 현상입니다.물론 경제학에서 잘 쓰이죠.

두선수를 비교하겠습니다.1995-96년까지 비교대상은 지터와 저스티스 입니다.

이제 종이나 팬을 들어보셔도 좋습니다.계산기도 좋구요.

1995년 지터는 48타수 12안타로 .250타율을 했고 96년에는 582타수 183안타로 .314를 했습니다.

반면 저스티스는 95년에 411타수 104안타로 .253를 했고 96년에는 140타수 45안타로 .321타율을 기록했습니다.분명 저스티스는 2년간 타율은 전부 앞섰습니다만 합쳐봤을땐

                 12 +  183       195                                  104+45      149

지터의 타율=--------- = ----- =.310 저스티스의 타율=--------- =---- = .270

                   48+582       630                                    411+ 140    551

 

이렇게 지터가 더 많이 나오는 현상이 생깁니다.

문제는 이게 패러독스가 아닌 우리가 평소에 분수를 저렇게 계산하지 않는데서 발생하는 반직관적인 모순을 꼬집는 것입니다.

여러분은 지터의 타율을 위와 같이 계산하시겠습니까?아니면 .250+.314=.564 의 지터가 당연히 .253+.321=.574의 저스티스보다 못하다 말씀하시겠습니까?

그리고 통계의 문제는  왜 그런가에 대한 설명이 구체적이지 못하다는 것에 있습니다.

우리가 쓰는 스탯이 RC같은 경우 계산방식이 복잡한건 둘째치고 왜 저렇게 계산하여야 하는지 납득이 가게 일일히 해놓은건 없습니다.기타 스탯의 경우에도 간단히 계산하기 편한 스탯이라 할지라도 왜 저 스탯이 필요하고 효율적인지 모두가 쉽게 이해하진 못합니다.

그러니 사람마다 중요하게 여기는 스탯도 다르며  결국엔 일부 매니아들이 한가지 스탯의 한계를 인지못하는 상황이 나오기도 합니다.다른 통계와의 상관관계를 항상 따져야하는데 말이죠.

그리고 우리는 수비의 더블 플레이가 많은 팀이 수비가 곧잘 하는 팀으로 생각할수 있지만 반대로 주자를 많이 출루시키기 때문(투수진이 허약하기 때문)이라고 생각하는 사람이 별로 없습니다.

그리고 선수를 비교시에 한 해를 비교하고 그것도 규정 타석에 미치지도 못한 선수를 넣어 비교하는 경우도 있으며 다른 년도와 다른 리그를 비교할려는 경우도 많습니다.

집계할 표본이 적다면 그것은 숫자를 가지고 노는것뿐 신빙성이 많이 떨어지는 문제가 생깁니다.

그리고 야구는 동적인 사람이 하는 스포츠이지만 통계는 정적이고 많은 고민과 생각없이는 결과를 도출해내기 힘든 분야다 할수 있겠습니다.

여러분은 야구를 보시면서 많은 숫자를 접하십니다.앞으로도 더 많은 스탯들을 접하게 될것이구요.

과거의 단순한 계산으로 해답을 찾던 타율이 왜 지금도 많은 사람의 관심에 있는지 생각해볼 문제인것 같습니다.