賽馬統計模型-騎師數據(I) Feature Engeering — Jockey Data (I)
Dec 9, 2020
繼續講怎樣處理數據。
騎師這個factor對勝率的關係最易了解。根據騎師的實力、進步空間、馬房馬主的支持等等因素,每位騎師勝率隨時間都會不同。
今篇文章都係志在說明基本概念,以pandas數字化模擬
- 騎師勝率
- 騎師手風 (如果因為近期嘅運氣唔好、傷患,而令到表現未及正常水平,我地就會話佢手風唔順)
流程
Step 1: 和之前的文章一樣,先做sorting,然後以騎師為分類做rolling average
J500為騎師最近500場跑第一的機率,J200為騎師最近200場跑第一的機率。當然要用shift(1),以防data leakage
Step2: 何謂手風?
我們以近期的機率(J200)減去長期的機率(J500)來表示騎師的手風。這篇文章會嘗試用MACD (Moving Average Convergence / Divergence, 指數平滑異同移動平均線)進一步分析這項數據。MACD是股票交易中一種常見的技術分析工具,用類似股票的teachnical analysis,分析賽馬的momentum factors是不錯的選擇。
Step3: 將其中一位騎師的表現圖像化(2011年至2020年12月)
留意要點
- 綠色嘅地方代表騎師嘅近況比平常好(J200大於J500);紅色則代表騎師最後表現差(J200細於J500)
- 圓形圈住嘅地方係平線,因為係放緊暑假。
- 由正方形圈住嘅地方可見,J200回升,與J500嘅距離收窄。可能係一個Purton回勇的跡象。
- 以下是Purton最近50場勝率隨時間轉變,可見勝率會在短期內大幅波動,不適合用來做模型嘅features。選擇parameters時要多加留意。
最後,12/9嘅浪琴表騎師比賽和香港其它賽事不同,馬主同練馬師不能自由選擇騎師,所以騎師這因素對這些比賽的重要性有d唔同。所以我地建設賽馬模型時要特別考慮這些比賽。