這是關於籃球統計分析的一些雜感,總不能什麼東西都放在FA那篇萬用文討論。在你到處尋找各種數字,想證明你喜歡的球員確實比別人優秀之前,或許可以先看看。
1.
大部分你看到的指標,其實都不客觀。
大致上,從指標名稱就可以判斷。舉PER為例,它的名字就告訴你這是「球員績效指數」,什麼是績效?老闆為員工評績效,要用什麼東西去計算都隨老闆高興,幫老闆送小三回家也可以算績效。所以,PER很誠實告訴大家,這是一個主觀的指標。
又如Win Share,它很明確告訴你這是「勝場貢獻數」,有明確的定義,所以是個相對客觀的指標。(至於Win Share定義上的瑕疵是另一個故事了。)
2.
主觀未必不好,客觀未必好
所有指標的用意都是在回答問題。只要在適當的範圍內能解決你的問題,就是好指標。
再以PER為例,請考慮火靈哥開發PER的時空背景,使得PER有很濃厚的賤古貴今風格。進攻籃板、火鍋與抄截等統計數字問世之前的上古神獸們被嚴重貶低,攻守節奏(PACE)更成了玩弄數字塑造理想成果的利器。
PER有這樣的問題,但仍不失為一個好指標,只要避免拿不同時代的球員來比較。
再以WS為例,雖然是個相對客觀的指標,但先天問題就是歧視弱隊。如Barkley生涯前期在費城打拼時,年年績效頂天,卻因為老闆爛而戰績不佳,WS自然也不漂亮。
3.
從棒球移植過來的指標,都有難以克服的問題
以Win Share為例。棒球的本質是投打對決,所以攻守兩個部門可以明確區隔。(52-48的比例是否合理,又是另一個故事。)移植到籃球,卻忽略了籃球本質上非常注重攻守轉換。
再則,WS在棒球上有非負原則,移植到籃球時想做得更嚴謹(此指Basketball Reference的版本),允許球員的WS為負數,結果卻造成嚴重的問題:所有球員的WS加總,結果卻與球隊的勝場數不符,無法達成初始定義。
其他從棒球移植的指標,如WARP,或多或少有類似或其他方面的問題。
4.
怎樣的指標最常挨罵?
答案:算式最簡單的指標,如PER。因為人人都看得懂,所以隨便抓個係數出來都可以批評。
所以請記住,一個模型整天挨罵,其實只是因為大家看得懂。另一個模型沒人罵,只是因為搞得比較複雜,沒多少人看得懂。幾乎與優劣無關。
5.
正負值比傳統的Boxscore好嗎?
正負值(PM)可以回答許多Boxscore無法回答的問題,但本身也有諸多缺陷,而且沒有客觀的作法可以和Boxscore結合。強行以數學手段解題,反而會造成更多問題。
例如APM,這是以迴歸的方式拆解PM,求出每個球員的真實PM。然而這樣龐大的迴歸計算,勢必得剪掉許多outlier。如某板凳球員上場一分鐘,結果這一分鐘剛好遇到35秒13分神蹟,這如果不剪掉,會讓整個模型嚴重偏斜(所有這35秒沒上場的球員都損失慘重)。
但是outlier如何判斷?outlier
detection怎麼做?這問題非常麻煩。所以你會發現每個網站做出來的APM不盡相同。而且outlier的選擇又牽涉到主客觀問題,你可能用選擇outlier的手段來使模型趨近你的主觀目標。
另外PM也有本質上的大問題:垃圾時間。這個請稍微想一下,應該懂。
6.
如果要自己玩模型,該準備什麼工具?
任何版本的Excel(新的不一定好)、Open
Solver(問孤狗就知道他是什麼),以及Basketball-Reference網站。
如果你玩得很認真,可以學一個東西叫「R」。任何比R複雜的東西都沒有必要,像什麼SPSS之類的。
然後可能要學點data science,不用太深,像APM的迴歸計算其實只是data science的新手村,但放在籃球分析已經是小魔王級的模型了。
7.
有沒有現成的原始資料庫?
可花錢買,大約50美元,但未必符合你的需求。
另一個方法是找放暑假的親戚小孩(自己的小孩不好使喚,易子而教的概念),教會他從BR網站把表格匯入Excel,然後付點小錢壓榨童工。
8.
冠軍戒指、年度球隊、入選明星賽,這些成就可以納入數學模型嗎?
若你想實驗,當然可以,但我必須先說,並不恰當。
因為這些數字並不能妥善表現球員的優劣。以冠軍戒指來說,如果當成一個統計數字,則全聯盟每年有15個球員得到1,其他幾百個球員全部是0。
想像一下你是出題老師,一個題目只有3%的學生拿到分數,這必然不是一個好題目。至少這一題不能在整張考卷上佔太高的比例。
其他幾個成就也有相同問題。