深層学習論文まとめ

ディープラーニング初心者がAI部署に配属されてから読んだ論文をまとめていきます.情報共有のご参考までに.

#14 GEC via Copy-Augmented Architecture with Unlabeled Data

f:id:bonjiri_3939:20200921173345p:plain
こんにちは,ohashiです.

今回はコピー機構を導入したTransformerによる文章誤り訂正をご紹介します.

Transformerを拡張例,新たな事前学習に興味がある方はぜひ!

目的

こんな人向け

  • 社内で扱ったことのない分野の技術調査を始めたい.
  • ゼミでの論文紹介の前に論文がどんな技術か把握したい.
  • githubのコードを触る前に論文の要点を把握したい.
  • そもそも論文を読むことが苦手.

こんな人向けではない

  • 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
  • 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)

論文

今回は前回,前々回の記事に引き続き,自然言語処理分野の文法誤り訂正についてご紹介します.今回の誤り訂正手法は,逆翻訳を紹介した回の『まだできないこと』で考えた,不要な箇所の誤り訂正を明示的に抑える,コピー機構を持ったTransformerによる文法誤り訂正手法をご紹介します.逆翻訳の記事とTransformerの記事は以下です.

ohashi39.work

ohashi39.work

Improving Grammatical Error Correction via Pre-Training a Copy-Augmented Architecture with Unlabeled Data [NAACL-HLT, 2019]

Authors: Wei Zhao, Liang Wang, Kewei Shen, Ruoyu Jia, Jingming Liu

Publication: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)

 

できるようになったこと

コピー機構による訂正不要な箇所をコピーしてくる誤り訂正

 従来の文法誤り訂正は,入力文章に対して,たった1箇所の誤り箇所を訂正すれば良いのに,文章全てを1から生成するニューラルネットワークのその性質から,訂正しなくても良い箇所まで不要に言い換えてしまうことで評価指標が下がる,という問題点が考えられてきました.著者らはその課題に対し,スライドp.4に示すようにencoderの最終層の特徴表現と,decoderの最終層の特徴表現を対象にSelf-Attentionを組み込むことで,分散表現上,似ているトークンとそうでないトークンを区別しやすくなるようなコピー係数を導入しました.あとは,decoderの最終層が予測した,生成トークンの確率分布に,導入したコピー係数をかけ合わせて最終的な生成トークンの確率分布を出力してやることで入力文章をなるべくコピーするような誤り訂正モデルを構築しました.

EncoderとDecoderの個別事前学習によるコピー機構の強化

 自然言語処理の分野では,画像処理の分野よりも事前学習がタスクの精度向上に寄与することが多くの論文から報告されています.従来からWord2VecやGlove, CoVe, ELMO, 最近ではBERTが自然言語処理タスクの要になっていると言っても過言ではありません.これらの状況を踏まえ,著者らはEncoderとDecoder個別に事前学習させることを提案しています.Encoderの事前学習では誤り訂正の機構を強化するためにスライドp.7, 8に記載したようにDenoising auto-encodersを学習させています.Decoderの事前学習では誤りのない文章を入力させ,その文章をそのまま出力させるというタスクを解かせています.これにより,提案手法であるコピー機構の強化を狙っています.さらに,decode時にはAttentionを使わないことにより,よりタスクの難易度を上げ,モデルにコピー機構を獲得させようと工夫しています.その結果,2019年時点での最高誤り訂正精度を報告しています.また,切除実験により事前学習が無いと誤り訂正精度が大幅に落ちることも確認しており,このことからも著者らの事前学習手法とコピー機構は誤り訂正に有効な手法であることが示されています.

 

まだできないこと

熟語やフレーズといったイディオム,コロケーションの訂正

 スライドp.23では,どの種類の文法誤りには強いのかを調査しており,そこで熟語やフレーズといった数単語で意味を成す表現の誤り訂正が比較的弱かったと考察しています.おそらく,単語単体で見れば十分な数の頻度で登場していたであろう単語が,熟語となって表れる回数は極端に減ると考えられるため,学習が足りていなかったのではないでしょうか.新たな事前学習として,熟語やフレーズだけを学習させるタスク,という事前学習手法の提案も有効かもしれません.

 

所感

 今回はTransformerにコピー機構を導入した文法誤り訂正モデルをご紹介しました.また,EncoderとDecoder両方で個別に事前学習をすることで誤り訂正精度が向上することを示しました.自然言語処理において,事前学習は本当に重要ですね.最近論文を読んできて思ったことは,第3次AIブーム初期はとりあえずgithubに落ちているコードを動かしてみた,という雰囲気の記事がネットで大量に公開されているイメージでしたが,現在は事前学習やモデルが比較的複雑に(その分興味深く)なってきており,とりあえず試してみた,という雰囲気の記事は見られなくなったように感じます.手が出にくいのは分かりますが,手を出してみれば意外と熱中してしまいます.何となくさみしさと危機感を感じました.次回は文字列認識の論文をご紹介します.

 

ohashi

 

f:id:bonjiri_3939:20200818220918p:plain

おはし

 2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.

 同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.

ご連絡はお問い合わせフォームからお願い致します.

 

 

ohashi39.work