玩big data最怕的就是data不夠big。
搞NBA的machine learning的問題也在此,你能拿到的東西全都來自於boxscore,頂多加上box PM,這就像把全國的天才集中到一間學校,但是只給他們四書五經,他們能研究出什麼?變不出花樣,只剩下截搭八股文。
例如random forest,這應該是最適合搞運動賽事simulation的一套機器學習方法。它的概念就是幾千個臭皮匠勝過一個火靈歌,你可以種幾千棵樹,每棵樹都是簡單卻千奇百怪的決策項,例如哪一隊的早餐吃比較好、哪一隊的未婚或離婚球員比較多、哪一隊的啦啦隊平均腰圍比較細.... 然後把幾十年來所有對戰組合的資料都讀進去,讓電腦去學習哪些條件比較重要。
最後跑出來一個模型,讀入今年的對戰資料,就可以得到機率了。
問題是我們弄不到早餐婚姻啦啦隊腰圍之類的資料啊 XD 我們有的就只是boxscore,什麼東西全都要從boxscore裡頭找,然後為了湊出我們夢想的幾千棵樹,只好從boxscore裡頭變花樣...
就像八股文出題出到沒梗了,只好玩截搭,論語抓半句,孟子抓半句,湊起來變成看似有道理實則鬼扯的一句話,叫考生去掰出一篇八股文。
不能說沒意義,但是現階段只要玩過、瞭解就可以了,在player tracking的資料庫完善之前,NBA能玩的data就是不夠big。
你可以去搜尋一下NBA machine learning,看能找到多少東西。理論上這應該是個很熱門的題目,實際上為什麼沒那麼熱門?理由如上。