深層学習論文まとめ

ディープラーニング初心者がAI部署に配属されてから読んだ論文をまとめていきます.情報共有のご参考までに.

#2 GAN, Conditional GAN

f:id:bonjiri_3939:20200919234101p:plain

こんにちは,ohashiです.

今回は画像生成モデルのGANとCGANをご紹介します.

聞いたことはあるけど詳しくは知らない,という方はぜひ!

目的

こんな人向け

  • 社内で扱ったことのない深層学習分野の技術調査を始めたい.
  • ゼミでの論文紹介の前に論文がどんな技術か把握したい.
  • githubのコードを触る前に論文の要点を把握したい.
  • そもそも論文を読むことが苦手.

こんな人向けではない

  • 論文内の数式を完璧に追って理解したい.(要は何ができるかの説明を優先します.)
  • 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)

 

論文

今回まとめるのは以下の2つ:

Generative Adversarial Nets [NIPS, 2014]

Authors: Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Publication: arXiv:1406.2661v1 [stat.ML]

 f:id:bonjiri_3939:20200528001417p:plain

 

Conditional Generative Adversarial Nets [arXiv, 2014]

Authors: Mehdi Mirza, Simon Osindero

Publication: arXiv:1411.1784v1 [cs.LG]

f:id:bonjiri_3939:20200528001436p:plain

 

できるようになったこと

乱数を入力とした,従来よりもぼけの少ない画像の生成

 2014年にGoodfellow氏が提案した生成モデルは現在の画像処理分野の基盤技術に大きく貢献しています.

  • 生成器は識別器の誤認識率を最大化する.
  • 識別器は誤認識率を最小化する.

 この二つのタスクを互いに解くことで生成画像のクオリティを飛躍的に向上させました.ただ,この論文はGANという概念を提案した原初的な論文であり,すぐに実用的な成果に結び付くものではありません.例えば,この論文では入力に,正規分布から取り出されるランダムノイズを使用しており,どんな画像が生成されるかはランダムノイズに依存します.つまり,原著論文のGANでは生成する画像を入力側から出力画像を制御することができません.

条件ベクトルによる出力画像の制御

 こういった制約を解決するために提案されたのがConditional GAN(CGAN)です.CGANは入力に先ほどと同じ正規分布から取り出されるランダムノイズと,ラベルを指定するためのCondition vectorと呼ばれるラベル情報を使用します.Condition vectorは生成画像と同じ幅×高さ×生成したいクラス数からなる行列です.全ての要素にラベル情報をone-hot表現で代入します.(MNISTの1の画像を生成したいなら2チャネル目の全ての要素に1を代入)

 このように,ランダムノイズ+Condition vectorの組み合わせを入力することで,入力画像から指定した画像を生成することができるようになりました.一般的に,この論文以降で採用されているGANは入力画像がRGB画像であったりグレイスケール画像であることが多いですが,これはランダムノイズ+Condition vectorがこれらの画像に相当する,と解釈できます.

 

まだできないこと

輪郭や細部がはっきりとした画像の生成

  論文中の画像を見て分かるように,生成された画像はまだ非常にぼやけています.従来法と比較するとだいぶ鮮明になっていますが,画像の輪郭や細部の再現にはまだ改善の余地が見られます.つまり,画像の低周波成分の再現はある程度上手く機能していますが,輪郭や細部といった高周波成分の再現にはまだ課題が残る,といったところでしょうか.

 

所感

 実験結果では実用的な結果には程遠いことから,まだ課題が残るように感じますが,生成器と識別器を交互に学習させる敵対的学習という非常に汎用的な枠組みを提案したこの研究は非常に価値のある研究として世界中で評価されています.

考案者のIan Goodfellow氏はカナダのモントリオール大学の博士課程在籍中にGANの発想を考案しました.こういったゼロから一を考え付く人の研究がすぐに発見できる今の時代はとても助かりますし刺激を受けますよね.これらGANとCGANの概念も,後の技術で根強く採用され続ける技術になります. まだまだ基盤技術です.徐々に最新の研究に近づけるよう今後も論文をまとめていきます.

  

ohashi

 

f:id:bonjiri_3939:20200818220918p:plain

おはし

 2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.

 同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.

ご連絡はお問い合わせフォームからお願い致します.

 

ohashi39.work