Grad-CAM | Abstract 第2文
Our approach – Gradient-weighted Class Activation Mapping (Grad-CAM), uses the gradients of any target concept (say logits for ‘dog’ or even a caption), flowing into the final convolutional layer to produce a coarse localization map highlighting the important regions in the image for predicting the concept.
Ramprasaath R. Selvaraju, et al., "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"
出力のクラスに対応する判断根拠を可視化できる手法であるGrad-CAMの論文の"Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"のAbstractの第2文について、英語リーディング教本のFrame of Reference(F.o.R.)を使って英文構造を解読します。
「我々の手法であるGradient-weighted Class Activation Mapping (Grad-CAM)は、概念を予測するための画像内の重要な領域を強調する粗い局所化マップを作り出すための最後の畳み込み層に流れ込む、任意の目標概念(例えば「犬」またはキャプションのロジットなど)の勾配を使用する。」
カッコ内のsayは「例えば」という意味で使われていると考えられます。口語的な表現です。
英語「say」の意味・使い方・読み方 | Weblio英和辞書
logitsはロジット関数のことです。
日本語訳の中に、evenのニュアンスをうまく入れることができなかったので、入れていません。犬という分類ラベルだけでなく、キャプション「にさえも」使えるというニュアンスがあると思います。
PythonとKerasによるディープラーニングの「5.4 CNNが学習した内容を可視化する」に、Grad-CAMについてサンプルコード付きの説明があります。
薬袋善郎先生の公式ウェブサイト