競馬AIうまたんの技術ブログ

競馬AIうまたんの技術記事や競馬に関するデータの考察などを行っていきます!

競馬の格言を統計学で検証 !『夏は牝馬』は本当?

始めに

こんにちは!うまたんです。 いつもは自作の競馬AIで中央競馬の予想をしています。

ai-umatan.hatenablog.com

今回は競馬の格言が本当なのかどうかを統計学を用いて検証していきたいと思います。 古くからの競馬ファンはもちろん、最近競馬始めたよって方でも一度くらいは聞いたことがあるかもしれない格言に 『夏は牝馬 というものがあります。

これに関しては、牝馬の方が暑さに強いからだとかコースが平坦なローカルで行われるからだとか色々言われています。 これは本当なのでしょうか?

ちょっと検索すれば、夏の牝馬の勝率や回収率などでこの格言を検証しているブログ等がたくさん出てきます。しかし数値だけをなんとなく比較して、この格言は正しいとか間違っていると結論づけられているので、信頼性は少し欠けるような気がします。

そこで今回はちゃんと統計学を使って検証してみたいと思います。(とは言っても私は統計学の初学者なので間違っている点もあると思います。詳しい方は是非指摘してください🙇)

理論

今回は仮説検定の一種であるカイ二乗検定(χ2検定 )を使うことにします。夏に好走することと牝馬であることの、独立性検定となります。

カイ二乗検定とは?

帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法である。(wikipediaより) うーん…分からないですねwもう少し説明します。
まず独立性の検定とはある2つの属性AとBの間に関連があるかどうかを調べることを指します。ではどうやって調べるのかというと、立証したい意見と反対の仮説を立てて、それを棄却(否定)することによって行います。

帰無仮説と対立仮説

棄却するために用意する仮説を帰無仮説と言い、その反対の仮説(自分が示したいもの)を対立仮説と言います。
帰無仮説 H_0 :2つの変数は独立である
対立仮説 H_1 :2つの変数は独立ではない
となります。今回の場合だと
帰無仮説 H_0 :夏に好走すること牝馬であることは独立である
対立仮説 H_1 :夏に好走すること牝馬であることは独立ではない
となりますね。「独立である」とは関係性がないということなので、帰無仮説では「夏は牝馬という格言は意味がない」ということになります。

期待度数を求める

帰無仮説の下で期待度数というものを求めます。期待度数というのは理論値みたいなものだと思ってもらえば大丈夫です。つまり二つの変数の間に何も関連がなかったと仮定するとこうなるだろうという値です。i行j列における期待度数  E_{ij} は次の式で求めることができます。

\displaystyle{
E_{ij} = \frac{n_{i.}n_{.j}}{N}
}

なぜこの式で求められるのか気になる方はこの記事を参考にしてみてください。
(参考 : 独立性のカイ二乗検定 例題を用いてわかりやすく解説 | AVILEN AI Trend)

もし、帰無仮説が正しければ期待度数と実測値との差は小さくなると予想できます。

検定統計量を求める

続いて検定統計量 \chi^{2}  を求めます。検定統計量は期待度数と実測値のズレを2乗したものを期待度数で割ったものになります。すなわち

\displaystyle{
\chi^{2} = \sum_{n = 1}^{2}  \sum_{n = 1}^{2}  \frac{(n_{ij}-E_{ij})^2}{E_{ij}}
}

となります。

カイ二乗分布表からp値を求め、帰無仮説を棄却するか考える

求めた検定統計量とカイ二乗分布表からp値を求めます。p値は期待度数と実測値のズレがどのくらいの確率で起きるものなのかを示す値だと思ってもらえれば大丈夫です。p値が有意水準より小さければ帰無仮説は棄却されることになります。ここで有意水準というのは、帰無仮説を棄却する基準となる確率のことです。
例えば有意水準が5%で、p値が0.05未満であった時、95%の確率で帰無仮説を棄却するのは正しいということになります。統計では100%間違っているとか正しいとかは断言できないので、確率によって表します。したがって有意水準は5%や1%といった小さな値を用います。

実際に検定しよう!

この表は2010~2020年の7,8月におけるレースの結果(牝馬限定戦を除く)から作成しました。 帰無仮説と対立仮説は
帰無仮説 H_0 :夏に好走すること牝馬であることは独立である。
対立仮説 H_1 :夏に好走すること牝馬であることは独立ではない。
とします。ここで好走=3着以内と考えることにします。有意水準 \alpha = 0.05  で独立性検定を行います。
期待度数を求めると次のようになります。

この表から \chi^{2}  を計算すると \chi^{2}  = 2.647713 となります。そしてp値を求めると p = 0.103699  となります。p値が有意水準を超えてしまっているので、帰無仮説は棄却できませんでした。
すなわち、夏に好走すること牝馬であることに関連があるかは分かりません。(ここで注意なのですが、帰無仮説が棄却できなかったからといって帰無仮説が正しいとは言えません)

まとめ

長々と書きましたが、結局のところ「夏は牝馬」という格言の正しさを示すことはできませんでした。残念😥
関連性が示せれば来年の夏に使える!と思って始めたのですが、そう上手くはいかないものですね…
他にも競馬の格言はたくさんあるので、今後もいろいろ試してみたいと思います。こんな格言があるよ!っていうのがあればコメント等してもらえると嬉しいです😆 また、検定の方法や説明に不備があればご指摘していただけると幸いです。