PPG賽馬 — 移動平均值(Moving Average)及其運用策略

4 min readNov 30, 2020

繼續講怎樣準備statistic model嘅features。

很多時候，賽馬的數據都是和時間有關的（time dependent)

比如話，

如何可以有系統地以數值表示一隻馬嘅最近的強弱（往績）？

這篇文章我會用馬匹過往五場的勝率為例子，介紹一下python pandas如何處理時間有關（time dependent)的數據處理（feature engineering)。學會了這個，就大約能處理大部分類型的數據了。

注意要點

你不能把未來的資料（開跑前未知的資訊）放在你的賽馬模型內(data leakage)。

比方說，你可以試試把馬匹首400米名次放在你的模型中，你會發現模型準確度大幅提高，但其實只是自欺欺人。有時當你發現你把一些features加入模型後，很多時候也是你不小心把未來的資料洩露了（data leakage)

Step 1 : 讀取資料。這篇文章會用之前的數據sample。

ppg-horseracing.medium.com

Step 2 : 把數據重新以時間排序，以準備做rolling。

Step 3 : 活用pandas現成的functions

Database[[‘date’,’raceid’,’HorseNameCHI’,’first’]] <- 只選取有關的columns (分別為日期、賽事編號、馬匹名稱、勝出與否)
.groupby([‘HorseNameCHI’]) <- groupby操作用以根據”HorseNameCHI”分割數據
[‘first’].apply(lambda x:x.rolling(center=False,window=5,min_periods=1).mean()) <- 將最近5行(包括本行)的”first” column計算平均值
Database[[‘date’,’raceid’,’HorseNameCHI’,’prev5_winpct’]]<- 只選取有關的columns (分別為日期、賽事編號、馬匹名稱、剛剛創造的column)
.groupby([‘HorseNameCHI’])<- groupby操作用以根據”HorseNameCHI”分割數據
[‘prev5_winpct’].shift(1)<- 將”prev5_winpct”向上移一格，以防止data leakage

用馬匹美麗傳承說明一下這兩行的結果為何。

Step 4 : 學會了以上簡單幾句，已經可以舉一反三，計算最近500匹馬（大約四五十場比賽）的同檔勝率了。

最後，用matplotlib把1200米在2018年的檔位勝率圖表化。

下次再講。