機械学習サマースクール2015@京都大学に行ってきました!

  • このエントリーをはてなブックマークに追加

読了時間5分

こんにちは。白ヤギのデータ分析担当の堅田です。

少し前になりますが、8月23日から1週間、京都大学で行われた機械学習サマースクール(Machine Learning Summer School, 通称MLSS)に行ってきました!

mlss_pic

(写真はFacebook Machine Learning Summer School’15 – Kyoto より)

MLSSとは、世界中の研究者や実務家が生徒として集まり、第一線の研究者から授業を受けるという、機械学習専門の短期コースです。講義は長いときで朝8:30から夜7時までとハードでしたが、機械学習の基礎理論に触れることができた、満足度の高いコースでした。

私は、2週間のコースのうちの最初の1週間しか参加していませんが、心に残った講義を紹介したいと思います。

1. Convex Optimization (Stephen Boyd)

日本語でいうところの、凸最適の授業です。Boyd先生曰く「いかに凸最適の問題にするか、それが問題だ!」というのが重要とのこと。凸最適であれば、大局的最大値(最小値)が保証されるので、実世界の課題を凸最適となるようにモデル化することが腕の見せ所だということですね。

2. Submodular Function (Stefanie Jegelka)

劣モジュラ関数の授業です。劣モジュラ関数とは、凸関数の集合関数版みたいなもので、劣モジュラ性があれば凸性があり、凸最適化問題として解ける!みたいな話らしいです。お恥ずかしい話、このような離散最適化をちゃんと勉強したことがなく、すぐさま「離散凸最適化の考え方(室田一雄著)」を購入しました。もう少しちゃんと勉強したいと思います。

3. Learning Representations (Lorenzo Rosasco)

主にカーネルの話でした。カーネルといえば、SVMのカーネルトリックが有名だと思いますが、Rosasco先生によれば、「因子分析だって、主成分分析だって、カーネルだ!」とのこと。主成分分析や因子分析は次元削減の文脈で語られることが多いと思いますが、カーネルとして考えると、また新たなアプローチを検討できそうです。よくやる手では主成分分析から回帰分析のコンボは、主成分分析をカーネルとして使っている例ですね。

4. Topics in Selective Inference (Emmanuel Candès)

最も印象に残ったコースで、一番勉強になりました。計2回の講義で、1回目はモデル選択後の推論の話、2回目はKnockoff procedureという変数選択の方法 についてでした。とても面白かったので少し詳しく書きます。

重回帰モデルを使う場面では、数多くの変数からAICやF値などを基準にステップワイズ法で変数選択をすることがあると思います。しかし、よく考えてみると、その変数選択は決定論的なものではなく、確率的です。そのため、最終的に得られたモデルも確率的に得られたモデルであり、そこから行う推論は正しくない可能性があるという話が1回目の講義でした。

そして、2回目の講義の主題であるKnockoff procedureとは、FDR(False Discovery Rate, つまり帰無仮説を棄却した仮説のうち、本当は帰無仮説を採択すべきだった仮説の割合)をコントロールしながら、LASSO(L1ノルム正則付き回帰分析)を用いて変数選択を行う方法です。FDRは、重回帰分析の文脈で言えば、モデル選択した結果、選ばれた変数のうち、真の回帰係数がゼロである(つまり、その変数は効いていない)変数の割合です。このKnockoff procedureを使うと、ターゲットとするFDRのレベル感で、変数が選択されます(シミュレーションした結果、得られたFDRが必ずしもターゲットのFDRを下回るわけではありませんでしたが、ターゲットのFDRに近い水準になります)。そのため、FDRをかなり厳しい水準で、Knockoff procedureを実行すれば、十中八九効いているだろうという変数が選択されます。同時に選ばれる変数も少なくなります。一方、ターゲットのFDRを緩くすると、たくさん変数が選ばれるものの、そのうち実際は効いてない変数も選ばれるという関係にあります。

Rでknockoffというパッケージがありますので、気になる方は試してみると理解が深まります!

Knockoffの詳しい説明は、こちらのウェブサイトやこちらのペーパーを参照してください。

まとめ

私の場合、統計学の派生として機械学習を学び出したので(しかも10年以上前)、最適化など基礎理論に疎い部分がありました。そのため、普段使っている機械学習アルゴリズムの裏側の世界 = 「基礎理論のトピック」に触れられたのは、とても貴重な経験だったと思います。すぐに実務に役立つものではないですが、基礎部分をしっかり固めて、レベルアップしていきたいところです。

最先端情報吸収研究所 – AIAL

際限ない情報の中から、自分に価値のある情報を効果的に吸収することは、かつてなく大きなチャレンジです。最先端情報研究所はニュースアプリ「カメリオ」、レコメンドエンジン「カメクト」を提供する白ヤギコーポレーションのR&D部門として、データサイエンスの力でこの問題を解決していきます。白ヤギでは現在研究開発メンバーを募集しております。ご興味のある方は是非下記サイトを御覧ください!

Date:2015-09-29 Posted in:分析 Text by: