惨敗したICRコンペの取り組み内容まとめ|kaggleチャレンジ記録

Aru

結果は、5137/6712位。ここまで大幅なシェークダウンを経験したのは初めてですが、とりあえず、取り組み内容をまとめました
コードもgithubに置いていますので参考になれば幸いです

Contents

はじめに
ICR Identifying Age-Related Conditionsコンペとは
Leaderboardがオーバーフィッテイング気味
取り組み内容まとめ

はじめに

　定期的にkaggleに参加している。今回はICR(Identifying Age-Related Conditions)に参加したので、取り組み内容などを紹介する。

　まず、最初に今回のコンペ、結果として5000位レベルの大幅なシェークダウンを食らいました。ベストモデルも選択できてないないどころか、作ったモデルのうち良いモデルが選べていないという最悪な状態。

　ここでは、ICRでの取り組み内容と、大幅なシェークダウンについて考察したいと思います。

　上位に入れたら、手法とか細かく解説しようかと思いましたが、全然ダメだったのでさらっと全体の説明だけにしたいと思います。何かの参考になれば幸いです。

ICR Identifying Age-Related Conditionsコンペとは

ICR Identifying Age-Related Conditionsコンペとは、加齢による疾患があるかないかを判定するものです。与えられるデータは加工がされていて、ラベルを見ただけではどれが年齢で性別かさえわからないようになっています。

また、疾患の種類も隠されているので3つの疾患が一体なんなのかもわかりません。

コンテストとしては面白いけど、事前知識をここまで使わせないで学習モデルを作るのは研究としてはどうなのかなとか思いながら参加しました。

今回のコンペの特徴は、データが少ないこと。その成果参加者も6,712名とかなり多かったです。

Leaderboardがオーバーフィッテイング気味

LeaderBoardのトップのスコア0.0（ミスが1つもない！）、公開ノートのベストが0.06という結果です。明らかにオーバフィッテング気味です。

ディスカッションでも言われているけど、LBで見えているサンプルは推論しやすいデータだけっぽいです。問題は、見えてない58%のデータですが、見えないデータがLBと似たデータなのか、全然異なるデータ、あるいは、難しいデータが含まれているかが問題です。

難しいデータがなければ、LBのまま順位は決まりそうですし、難しいデータがあれば大きな順位変動が起きて大荒れするかも。

ディスカッションをまとめるとこんな感じの意見でした（荒れる予想が多かった気がします）。

結果として大荒れしたわけですが・・・・

取り組み内容まとめ

EDA作成

最初に、EDAを作成しました。他の医療コンペもそうでしたが、どの列が何のデータなのかわからないように加工しています。

コンペをゲームとして考えると面白いですが、社会の役に立つアルゴリズムを本気で考えようとしているのかちょっと疑問に感じます。

箱ひげ図、分布の違いなどチェックしたが、なんとも言えない状態。ディスカッションをみると、イプシロンが結構使えるっぽい。

実際に見てみると、期間によってクラス０とクラス１の割合が違うことを発見。テストデータは、訓練データより後のデータだと書かれているので、イプシロンは採用する方向で決定。

下図はEDAで作成したグラフの1つ。各グラフがデータの列に対応していて、赤い方が疾患のある人、茶色っぽい方が健常者。これを見ると、いくつかのデータでデータの偏りが異なっていることはわかる。

Pycaretでサクッとチェック

最初にPyCaretを使って、サクッと訓練・推論をしてみました。PyCaretの使い方は以下を参考にしてください。kaggleのノートブックはこちら（推論コードのみ）。学習コードを含むものはGithubに置いています（こちら）。

アンサンブルのベースコード作成

PyCaretで行ったモデル比較は以下の通り

この結果をみると、LightGBM, XGBoost, CatBoostあたりは外せなさそう。

とりあえず、LightGBM, XGBoost, CatBoostは使うことを決定。あと、Boostingではないアルゴリズムとして５番目に来ているRandom Forestも候補として選択。この辺りをアンサンブルすることを考えました。

また、今回のコンペの公開ノートブックではTabPFNというトランスフォーマーベースのモデルが使われていました。調べて見ると面白そうなのでこれも採用。

NN(pytorch）追加

独自のものとして、NNを追加することにしました。モデルはPyTorchで作成した独自モデル。トライアル的にArcFaceを挟んだモデルとし、出力される特徴量のコサイン距離をKnnで分類するという手法を組み込んでみました。

このモデル面白くて、検出率はそこそこだけど、LightGBM, XGBoost, CatBoostとは相関係数が低いというものです。

下図は各モデルの創刊を表したもの、knn, knn2というknnベースとBoostingとのそうかんが低いことがわかります。逆に、LightGBM, XGBoost, CatBoostの相関はかなり高い。似たアルゴリズムなのでそんなものだと思います。

optunaによるパラメータ最適化

モデルができたので、各モデルのパラメータとアンサンブル（今回は加重平均）のパラメータをOptunaを使って最適化。何度か試行して良さそうなやつを選択しました。

FOLD分割したまま使うか、全体でfitさせるか悩む

最終のモデルとして、５分割した各FOLDに対するモデルの出力を平均するようにするか、全データで再度フィッティングさせるか悩みましたが、後者を選択。データが少ないので各FOLD間のばらつきが気になった、分割の仕方で結構違うので安定性が気になったというのが大きいです。

全データで再度フィッティングさせると、CVが取れないのでギャンブルになります。今回はギャンブルしました。

ランダムに列を選択してみる

前処理でデータ加工したかったのですが、データの意味がわからないので加工する方針も立ちませんでした。なので、ランダムに列を選択して推論するを繰り返して、スコアが良いものを選択するという、結構無茶な方法を取りました。結局、ほとんどの列を利用したモデルの方がスコアが高かったのであまり意味はありませんでしたが、取り組み内容として行ったので参考まで。