賽馬統計模型-騎師數據(I) Feature Engeering — Jockey Data (I)

--

繼續講怎樣處理數據。

騎師這個factor對勝率的關係最易了解。根據騎師的實力、進步空間、馬房馬主的支持等等因素,每位騎師勝率隨時間都會不同。

Jockeys in Hong Kong

今篇文章都係志在說明基本概念,以pandas數字化模擬

  1. 騎師勝率
  2. 騎師手風 (如果因為近期嘅運氣唔好、傷患,而令到表現未及正常水平,我地就會話佢手風唔順)

流程

Step 1: 和之前的文章一樣,先做sorting,然後以騎師為分類做rolling average

J500為騎師最近500場跑第一的機率,J200為騎師最近200場跑第一的機率。當然要用shift(1),以防data leakage

Step2: 何謂手風?

我們以近期的機率(J200)減去長期的機率(J500)來表示騎師的手風。這篇文章會嘗試用MACD (Moving Average Convergence / Divergence, 指數平滑異同移動平均線)進一步分析這項數據。MACD是股票交易中一種常見的技術分析工具,用類似股票的teachnical analysis,分析賽馬的momentum factors是不錯的選擇。

Step3: 將其中一位騎師的表現圖像化(2011年至2020年12月)

騎師潘頓勝率

留意要點

  1. 綠色嘅地方代表騎師嘅近況比平常好(J200大於J500);紅色則代表騎師最後表現差(J200細於J500)
  2. 圓形圈住嘅地方係平線,因為係放緊暑假。
  3. 由正方形圈住嘅地方可見,J200回升,與J500嘅距離收窄。可能係一個Purton回勇的跡象。
  4. 以下是Purton最近50場勝率隨時間轉變,可見勝率會在短期內大幅波動,不適合用來做模型嘅features。選擇parameters時要多加留意。

最後,12/9嘅浪琴表騎師比賽和香港其它賽事不同,馬主同練馬師不能自由選擇騎師,所以騎師這因素對這些比賽的重要性有d唔同。所以我地建設賽馬模型時要特別考慮這些比賽。

--

--

Responses (1)