ブログ

arXivのAPIで分析する機械学習最新トレンド

皆さんこんばんは、PM兼データサイエンティストのOです。早いもので2018年ももう終わりです。年を重ねるごとに一年が短くなっていく気がします。心理学の用語ではこの現象をジャネーの法則と呼ぶそうです。イギリスのロックバンドPink Floydの名曲”Time”にも同様の趣旨の歌詞がありますね。
前置きはこのぐらいにして本題に入りたいと思います。日進月歩の機械学習の世界――少し気が早いですが2018年の機会学習界隈のトレンドをarXivのデータを通して可視化したいと思います。
arXiv.orgはコーネル大学によって運営されている科学論文サイトです。最低限の審査はあるものの、論文を査読なしで迅速に公開できるのが特徴です。そのため近年は目まぐるしい速度で進歩する人工知能/機械学習の分野での研究結果の発信の場として注目を浴びています。arXivはAPIを公開しており、これを利用することで論文を検索し、その概要についてのデータを取得できます。このAPIを利用してarXivの論文データを分析し、今年の機械学習のトレンドを読み解いてみました。(いつものことですがデータの用意・前処理が一番大変でした……。)
今回分析の対象としたのは以下のカテゴリーに今年11月までに投稿された約5万件の論文です。

  • cs.CV (コンピューターサイエンス・コンピュータービジョンとパターン認識)
  • cs.LG (コンピューターサイエンス・機械学習)
  • stat.ML (統計学・機械学習)


まず1年あたりの論文の投稿数を集計してみました。

2018年のデータは11月までのものですが、既に2017年を上回る14,000本以上の論文が投稿されています。arXivでは引き続き機械学習に間する多くの論文が発表され、しかもそのペースは加速していることが見て取れます。

つづいて、近年大いに注目を浴びているDeep Learningに関する論文のトレンドを見てみましょう。先程の母集団から、概要(summary)に”deep learning”(大文字・小文字問わず)を含む論文を抽出し、年ごとの投稿数を図示しました。

やはり論文数が爆発的に増えていることが見て取れます。特に2016年からの伸びが顕著です。ついでにこれらのDeep Learningを概要に含む論文が機械学習関連カテゴリの論文に占める割合を図示しました。

2018年(11月まで)に投稿された機械学習関連カテゴリにある論文のうち13%が概要でDeep Learningに言及していました。Deep Learningの存在感は年々増していると言えそうです。

以上2018年の機械学習のトレンドに関する簡単な分析でした。来年もきっと様々な手法が開発され、それが多くの問題に応用されていくのでしょう。そしてそれらの試みのうちいくつかは実際に現実世界の問題を解決することに成功し、世の中をより良くするのでしょう。そう思うと今から楽しみではありませんか。

FLYWHEELは最新の機械学習を駆使して問題を解決し、世界をより良くする人材を募集中です。オフィス見学も随時受け付けていますのでお気軽にご連絡ください。詳細はこちら。
https://www.flywheel.jp/careers/