Grad-CAM | Abstract 第3文
Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families: (1) CNNs with fully-connected layers (e.g. VGG), (2) CNNs used for structured outputs (e.g. captioning), (3) CNNs used in tasks with multi-modal inputs (e.g. VQA) or reinforcement learning, without architectural changes or re-training.
Ramprasaath R. Selvaraju, et al., "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"
出力のクラスに対応する判断根拠を可視化できる手法であるGrad-CAMの論文の"Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"のAbstractの第3文について、英語リーディング教本のFrame of Reference(F.o.R.)を使って英文構造を解読します。
「以前の手法とは異なり、Grad-CAMは、 (1)全結合層を伴うCNN(例えばVGG)、(2)構造出力(例えばキャプショニング)に使用されているCNN、(3)マルチモーダルな入力(例えばVQA)や強化学習を伴うタスクに使用されているCNN、といった幅広い種類のCNNモデル群に対して、構造的な変更や再訓練なしで適用できる。」
"a wide variety of CNN model-families"をコロンの後で列挙していて、
"(1)
"(2)
"(3)
と具体的に述べられています。コロン以降は文ではなく単なる列挙なので、CNNsは名詞を意味するnという記号で示しています。
(1), (2), (3)の部分を省略すると、
"Unlike previous approaches, Grad-CAM is applicable to a wide variety of CNN model-families, without architectural changes or re-training."
「以前の手法とは異なり、Grad-CAMは幅広い種類のCNNモデル群に対して、構造的な変更や再訓練なしで適用できる。」
という文になり、読みやすくなると思います。
"to a wide variety of CNN model-families"
と言う副詞句の中に入っているので、図解では省略されていますが、
"a wide variety of"は「種類 of ~」の形で、前から後ろの名詞を修飾しています。
PythonとKerasによるディープラーニングの「5.4 CNNが学習した内容を可視化する」に、Grad-CAMについてサンプルコード付きの説明があります。
薬袋善郎先生の公式ウェブサイト