深層学習論文まとめ

ディープラーニング初心者がAI部署に配属されてから読んだ論文をまとめていきます.情報共有のご参考までに.

#13 A Multilayer Convolutional Encoder-Decoder for GEC

f:id:bonjiri_3939:20200921172729p:plain
こんにちは,ohashiです.

今回はAttention+CNNによる文章誤り訂正をご紹介します.

自然前後処理におけるCNNに興味がある方はぜひ!

目的

こんな人向け

  • 社内で扱ったことのない分野の技術調査を始めたい.
  • ゼミでの論文紹介の前に論文がどんな技術か把握したい.
  • githubのコードを触る前に論文の要点を把握したい.
  • そもそも論文を読むことが苦手.

こんな人向けではない

  • 論文内の数式を完璧に追って理解したい.(要は何がしたいのかの説明を優先します.)
  • 著者または他者実装の追試結果,実装ノウハウを知りたい.(githubをご参照下さい.)

論文

 今回は自然言語処理分野の文法誤り訂正について紹介します.正直,今の文法誤り訂正技術は記事で紹介してきましたが,突出して優位に立っている手法は無い印象です.その中でも最新の手法を整理して利点や欠点を比較していければと思います.

A Multilayer Convolutional Encoder-Decoder Neural Network for Grammatical Error Correction [arXiv, 2018]

Authors: Shamil Chollampatt, Hwee Tou Ng

Publication: arXiv:1801.08831v1 [cs.CL]

 

できるようになったこと

Attention+CNNによる離れた単語の関係解析(制限付き)

 従来の文法誤り訂正は,時系列ニューラルネットワークであるRNNが採用されてきました.しかし,RNNは入力が必ず先頭のトークンから開始するという制限があります.また,RNNのencoderは特徴量を時系列順に埋め込んでいくため,encoderで最終的に埋め込まれた特徴マップは,先頭で埋め込まれた特徴をどれだけ保持しているのか保証されていません.入力文章が長ければ,先頭部分の単語から抽出された特徴表現は消失しているかもしれません.さらに,1単語ずつ埋め込んでいくRNNは,離れた位置にある単語間の関係を保持できません.そこで,提案手法では,先頭1単語のみから特徴抽出を始めるのではなく,入力に幅を持たせて数単語分をまとめてCNNを用いて畳み込む特徴抽出の手法を採用しています.さらに,Attentionを組み込むことで,まとめて畳み込んだ数単語分の内,どの単語間に関係があるかを明示的に学習させています.これにより,従来のRNNと比較して,係り受けの解析に強い誤り訂正を実現できると考えられます.

学習データの大幅増強による低頻出単語への対応

 文法誤り訂正に限った話ではありませんが,学習データに少ししか含まれていない単語を訂正することは非常に困難です.そもそも1度も学習に含まれていない単語にいたっては絶対に訂正できません.そのため,訂正モデルに低頻出単語をどう処理させるかはとても重要な課題です.低頻出単語だけ繰り返し学習させるような手法や,低頻出単語を学習させる時だけロスの値を大きく反映する手法等も存在しますが,著者らは大規模データセットを利用することでそもそも低頻出単語の出現頻度を軽減しています.分散表現の生成で合計の単語数が100億単語以上に上っていることから相当数のデータセットを使用しています.(※英語の単語種数は現在で100万種程度のため,ほとんどは重複した単語です.)

 

まだできないこと

高精度な前置詞の誤り訂正

 スライドp.15で従来の最高精度の手法(著者らが以前報告した統計的機械翻訳手法)と提案手法を比較していますが,前置詞の誤りに関しては従来法の誤り訂正精度が上回っています.これは,単語同士が離れにくい前置詞とそれにかかる単語の訂正は,統計的機械翻訳手法の方が優れているということを示します.この結果を受けて,著者らは従来法と提案手法の良いところを組み合わせたモデルを提案することを今後の課題として述べています.単語が近いところに位置している誤りであれば従来法でも訂正可能ですが,主述関係や特殊な係り受けなど,単語間が多少離れている文章の訂正にはAttentionの付いたニューラルネットワークを使った方が正確な訂正が可能だと述べています.

大きく離れた単語間の関係解析

 RNNと比較すると,CNNは複数の単語をまとめて畳み込めるため,離れた単語の関係も学習できる利点があります.さらに,固定幅の解析窓をスライドさせて畳み込むことで入力文の特徴を徐々に獲得していきます.これにより,RNNよりは入力文全体の特徴を抽出できているかとは思います.しかし,解析窓の長さが固定であることはRNNと同じで,CNNの解析窓から大きく離れた単語間の依存関係をはっきりと考慮することはできません.これに対応するには,これまでの記事でご紹介したTransformerなどを利用すると改善できると考えられます.

 

ohashi39.work

所感

 今回の論文はCNN+Attentionを使った文法誤り訂正でした.自然言語処理にも畳み込みニューラルネットワークが使われていることに驚きましたが,やはり入力文章の全てを考慮して解析したいという動機があるため,CNNは最適解ではないのかな,という印象を受けました.とはいえ,CNNで解析窓をスライディングさせながら特徴抽出していく+Attentionで特に重要なところは重みづけておく,という処理が内部で行われていると解釈できるため,誤り訂正に必要な特徴は抽出されているのかな,とも感じました.前回紹介したTransformerの論文は日本語を対象にしていたため,次回は英語を対象にしたTransformerを使った文法誤り訂正手法についてご紹介します.

 

ohashi

 

f:id:bonjiri_3939:20200818220918p:plain

おはし

 2019年入社,深層学習を扱う部署に配属.大学院では動画から脈波を抽出する研究に従事.動画像の理解,人間の魅力の解析,人間の自律神経や生体信号に興味関心.深層学習だと自然言語処理の実用化に興味関心.

 同じ研究分野の人間が利害問わず協力して研究動向を追って,初学者の方に自分が勉強した教材を利用してもらって,研究のコミュニティが広がると嬉しいですよね.AIはとっつきにくい分野ではないことを知ってほしいです.むしろ社会にも実装され始めている現在は,みんなでAIが今できることとできないことを把握して,知恵を絞って面白いアイデアをどんどん出して実現していく段階だと思います.そういった時代に向けて,情報共有の一助になれば幸いです.

ご連絡はお問い合わせフォームからお願い致します.

 

ohashi39.work