Grad-CAM | Abstract 第6文
For image captioning and VQA, our visualizations show even non-attention based models can localize inputs.
Ramprasaath R. Selvaraju, et al., "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"
出力のクラスに対応する判断根拠を可視化できる手法であるGrad-CAMの論文の"Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"のAbstractの第6文について、英語リーディング教本のFrame of Reference(F.o.R.)を使って英文構造を解読します。
「画像キャプショニングとVQAのために、我々の可視化は、アテンションに基づかないモデルでさえも入力の部位を特定することできることを示す。」
従属接続詞のthatが省略されています。
リーディング教本の49ページに記載があり、それに該当する文です。
「従属接続詞のthatが名詞節を作り、その名詞節が動詞の目的語になっているときは、thatを省略することができます。」
PythonとKerasによるディープラーニングの「5.4 CNNが学習した内容を可視化する」に、Grad-CAMについてサンプルコード付きの説明があります。
薬袋善郎先生の公式ウェブサイト