1006

CNNにおいて画像データまたは特徴マップを空間的な局所ごとに代表値に集約することで、解像度を下げる層の名称として、最も適切なものを1つ選べ。

プーリング層

ソフトマックス層

畳み込み層

全結合層

CNNにおいて、畳み込み層の出力に対して非線形な変換を行う層の名称として、最も適切なものを1つ選べ。

プーリング層

ソフトマックス層

畳み込み層

活性化関数層

CNNにおいて、活性化関数としてよく使われるReLU関数の式として、最も適切なものを1つ選べ。

f(x) = max(0,x)

f(x) = 1 / (1 + exp(-x))

f(x) = tanh(x)

f(x) = x / (1 + |x|)

CNNの学習に利用する画像データに対して行うべきではない処理を1つ選べ。

ランダムクロップ

ガウシアンノイズ

グレースケール化

回転

以下の画像認識に用いるモデルに関する説明として、最も適切なものを1つ選べ。

AlexNetはILSVRCという画像認識コンペティションで2012年に優勝し、ディープラーニングの火付け役となったモデルである。

ResNetは層が深くなると学習が困難になる問題を解決するために、入力層から出力層まで直接つなぐショートカット構造を導入したモデルである。

GoogLeNetは複数の畳み込み方法を並列して行いそれを統合するインセプションモジュールが適用されたモデルである。

MobileNetは計算量削減を目的としたモデルであり、その要素技術として深さごとに分離可能な畳み込み（Depthwise Separable Convolution）がある。

以下の画像認識に用いるモデルに関する説明として、最も適切でないものを1つ選べ。

VGGNetは畳み込み層とプーリング層を交互に重ねたシンプルな構造であり、畳み込み層のフィルターサイズはすべて3×3である。

ResNetはショートカット構造によって勾配消失や表現力の低下を防ぎ、1000層以上の超深層モデルを実現した。

GoogLeNetはインセプションモジュールの他にも、オーキシャリーネットワークと呼ばれる分岐した出力層を持ち、学習時に正則化効果を得た。

MobileNetは深さごとに分離可能な畳み込み（Depthwise Separable Convolution）によって計算量削減を目指したが、精度はVGGNetやResNetよりも劣った。

RNNを用いた自然言語処理の説明として、最も適切なものを1つ選べ。

予め別の言語で学習済のモデルに対して、新しい言語で入力された文を逐次的に処理して出力する。

予め別のタスクで学習済のモデルに対して、新しいタスクで入力された文から特徴量を抽出して出力する。

予め別のタスクで学習済のモデルに対して、新しいタスクで入力された文から単語ごとに分割して出力する。

予め別のタスクで学習済のモデルに対して、新しいタスクで入力された文から文脈情報を考慮して出力する。

GANでは生成器Gと識別器Dが相互に学習しながら進化していく。以下のうち、GANの学習におけるGとDの目的関数として正しいものを1つ選べ。

G: log(D(G(z))) を最大化する D: log(D(x)) + log(1 - D(G(z))) を最大化する

G: log(D(G(z))) を最小化する D: log(D(x)) + log(1 - D(G(z))) を最小化する

G: log(1 - D(G(z))) を最小化する D: log(D(x)) + log(1 - D(G(z))) を最大化する

G: log(1 - D(G(z))) を最大化する D: log(D(x)) + log(1 - D(G(z))) を最小化する

物体検出は、画像に写っている物体の分類と位置の特定を行うタスクである。代表的な2段階モデルのアルゴリズムとして、最も適切なものを1つ選べ。

SSD

Mask R-CNN

U-Net

MobileNet

セマンティックセグメンテーションタスクに用いる手法の1つであるU-Netの説明として、最も適切なものを1つ選べ。

畳み込み層とプーリング層を繰り返して得た特徴マップを画像サイズまで1度に拡大する。

エンコーダで得た特徴マップをデコーダで画像サイズまで徐々に拡大する。

エンコーダで得た特徴マップの一部を切り出してデコーダでも用いる。

デコーダの各畳み込み層で得た特徴マップを一つに加算してセグメンテーション結果にする。

セマンティックセグメンテーションタスクに用いる手法の1つであるFCNの説明として、最も適切なものを1つ選べ。

畳み込み層とプーリング層を繰り返して得た特徴マップを画像サイズまで1度に拡大する。

エンコーダで得た特徴マップをデコーダで画像サイズまで徐々に拡大する。

エンコーダで得た特徴マップの一部を切り出してデコーダでも用いる。

デコーダの各畳み込み層で得た特徴マップを一つに加算してセグメンテーション結果にする。

リカレントニューラルネットワーク（RNN）の中で、過去の時刻の情報を長期的に保持できる構造として、最も適切なものを1つ選べ。

LSTM（Long Short-Term Memory）

GRU（Gated Recurrent Unit）

CNN（Convolutional Neural Network）

MLP（Multi-Layer Perceptron）

LSTMにおける入力ゲートは、長期記憶に追加する情報の量を決めるためのゲートである。入力ゲートは、入力 xt と一つ前のセルの出力値 ht-1 を受け取り、どのような関数を用いて計算するか。

シグモイド関数

ハイパータンジェント（tanh）関数

ソフトマックス関数

畳み込み関数

深層強化学習に関する以下の文章のうち、最も適切なものを1つ選べ。

深層強化学習は、ディープラーニングと強化学習を組み合わせた手法であり、高次元な状態空間や行動空間を扱うことができる。

深層強化学習は、ディープラーニングと強化学習を同時に行う手法であり、教師あり学習と教師なし学習の両方を利用することができる。

深層強化学習は、ディープラーニングと強化学習を相互に補完する手法であり、複雑な報酬関数や方策関数を自動的に生成することができる。

深層強化学習は、ディープラーニングと強化学習を競争させる手法であり、自己対戦や敵対的生成ネットワークなどの技術を利用することができる。

強化学習のアルゴリズムに関する以下の文章のうち、最も適切なものを1つ選べ。

Q学習は、価値関数を更新する際に、現在の行動によって得られる報酬と次の状態で取るべき最適な行動によって得られる報酬の和を用いる。

SARSAは、価値関数を更新する際に、現在の行動によって得られる報酬と次の状態で実際に取った行動によって得られる報酬の和を用いる。

モンテカルロ法は、価値関数を更新する際に、現在の行動からエピソードが終了するまで得られた報酬の合計を用いる。

TD学習は、価値関数を更新する際に、現在の行動からエピソードが終了するまで得られた報酬と次の状態で実際に取った行動によって得られる報酬の和を用いる。

DeepMind社が開発し、ルールを教えられずに囲碁や将棋などのゲームをマスターした、強化学習が使われているプログラムを以下の選択肢から1つ選んで答えよ。

MuZero

Leela Zero

AlphaZero

KataGo

DeepMind社が開発し、チェスや将棋などのボードゲームだけでなく、ビデオゲームの「スタークラフトⅡ」でも人間を超えた、深層強化学習が使われているプログラムを以下の選択肢から1つ選んで答えよ。

AlphaStar

AlphaFold

AlphaGo Zero

MuZero

DeepMind社が開発し、タンパク質の立体構造を予測することができる、深層学習が使われているプログラムを以下の選択肢から1つ選んで答えよ。

AlphaFold

AlphaZero

AlphaGo Zero

MuZero

新しい問題を作りました。以下の文章を読んで、空欄（ア）～（エ）に当てはまる語句の組み合わせとしてふさわしいものを1つ選んで答えてください。音声生成モデルの代表例として、（　ア　）と（　イ　）の2つのモデルがあります。（　ア　）は教師あり学習の手法でもある（　ウ　）を応用したもので、テキストから音声波形を直接生成することによって、高品質な音声合成を可能にしています。一方の（　イ　）は、2つのネットワークを連結することによって、テキストから音声特徴量を生成し、それから音声波形を生成することを可能にしています。この2つのネットワークは（　エ　）と呼ばれています。

（ア）Tacotron （イ）WaveNet （ウ）Seq2Seq （エ）Encoder・Decoder

（ア）WaveNet （イ）Tacotron （ウ）Seq2Seq （エ）Encoder・Decoder

（ア）Tacotron （イ）WaveNet （ウ）GAN （エ）Generator・Discriminator

（ア）WaveNet （イ）Tacotron （ウ）GAN （エ）Generator・Discriminator

以下の文章を読んで、空欄（ア）～（エ）に当てはまる語句の組み合わせとしてふさわしいものを1つ選んで答えてください。画像分類モデルの代表例として、（　ア　）と（　イ　）の2つのモデルがあります。（　ア　）は畳み込みニューラルネットワーク(CNN)を応用したもので、画像から特徴量を抽出することによって、画像がどのクラスに属するかを判定します。一方の（　イ　）は、CNNと再帰型ニューラルネットワーク(RNN)を組み合わせたもので、画像からキャプション(文章)を生成することができます。この2つのモデルは（　ウ　）や（　エ　）などの応用分野に使われています。

（ア）ResNet （イ）Show and Tell （ウ）顔認識（エ）画像検索

（ア）Show and Tell （イ）ResNet （ウ）顔認識（エ）画像検索

（ア）ResNet （イ）Show and Tell （ウ）音声合成（エ）音声認識

（ア）Show and Tell （イ）ResNet （ウ）音声合成（エ）音声認識

以下の文章を読んで、空欄（ア）～（オ）に当てはまる語句の組み合わせとしてふさわしいものを1つ選んで答えてください。画像分類モデルとは、画像を何らかの主題に基づき分類する処理方法です。画像分類モデルは、画像から特徴量を抽出する部分（学習部分）と、その特徴量から種類を分類する部分（判別器）で構成されています。画像から特徴量を抽出する部分では、畳み込みニューラルネットワーク(CNN)がよく使われます。CNNは、（　ア　）や（　イ　）などの演算を繰り返すことで、画像のテクスチャや色や形状などのパターンを見つけることができます。CNNには様々な種類がありますが、代表的なものとして（　ウ　）や（　エ　）などがあります。（　ウ　）は層数が非常に深い(152層など)にもかかわらず、勾配消失問題(gradient vanishing problem)を回避することができる工夫がされています。（　エ　）はCNNと再帰型ニューラルネットワーク(RNN)を組み合わせたもので、画像からキャプション(文章)を生成することができます。これらのモデルはImageNet Large Scale Visual Recognition Challenge (ILSVRC)やMicrosoft COCO Image Captioning Challengeなどのコンペティションで高い性能を示しました。また、これらのモデルは（　オ　）や画像検索などの応用分野に使われています。

（ア）畳み込み（イ）プーリング（ウ）ResNet （エ）Show and Tell （オ）顔認識

（ア）畳み込み（イ）プーリング（ウ）Show and Tell （エ）ResNet （オ）音声合成

（ア）プーリング（イ）畳み込み（ウ）ResNet （エ）Show and Tell （オ）音声認識

（ア）プーリング（イ）畳み込み（ウ） Show and Tell （エ） ResNet （オ）顔認識

Faster R-CNN、YOLO、SSDの中で、最も高速な手法はどれか。１つ選べ。

Faster R-CNN

YOLO

SSD

上記3つの選択肢はすべて誤りである。

以下の選択肢の中から、単語埋め込みモデルの特徴として正しいものを1つ選べ。

単語埋め込みモデルは、自然言語処理の第一段階として、文章に含まれる単語を数値ベクトルに変換する。

単語埋め込みモデルは、多義語や同義語を適切に処理できる。

単語埋め込みモデルは、ニューラル確率言語モデルと呼ばれることもある。

単語埋め込みモデルは、コサイン距離などで意味的な関係を捕捉できない。

自然言語処理分野においてもディープラーニングは成果を上げている。自然言語処理のいくつかの用語について整理する。品詞タグ付けと関連性の深いものとして、最も適切なものを1つ選べ。

ある文章・句に含まれる単語ごとに品詞（名詞、動詞、形容詞など）を付与すること。

ある文章・句から主要な単語やフレーズ（キーワード）を抽出すること。

ある文章・句から人物や地名など固有名詞（固有表現）を識別すること。

ある文章・句から感情や態度（極性）を分析すること。

自然言語処理分野においてもディープラーニングは成果を上げている。自然言語処理のいくつかの用語について整理する。構文解析と関連性の深いものとして、最も適切なものを1つ選べ。

ある文章・句に含まれる単語や句の組み合わせや順序に基づいて文法的な構造（構文木）を生成すること。

ある文章・句に含まれる単語や句がどのような意味や役割（主語、目的語など）を持っているかを分析すること。

ある文章・句がどのような話者や聴者（対話者）に向けられているかを推定すること。

ある文章・句がどのような文体やジャンル（敬語、口語、小説、ニュースなど）で書かれているかを判定すること。

自然言語処理分野においてもディープラーニングは成果を上げている。自然言語処理のいくつかの用語について整理する。BERTと関連性の深いものとして、最も適切なものを1つ選べ。

ある文章・句から重要な情報や知識を抽出し、構造化されたデータベースに格納すること。

ある文章・句から質問に対する答えや要約文を生成すること。

ある文章・句から単語や句の埋め込みベクトル（分散表現）を学習すること。

ある文章・句から文法的な間違いや不自然さを検出し、修正案を提案すること。

自然言語処理分野においてもディープラーニングは成果を上げている。自然言語処理のいくつかの用語について整理する。GPT-3と関連性の深いものとして、最も適切なものを1つ選べ。

ある文章・句から次に続く単語や句を予測すること。

ある文章・句からその文章・句が表す意図や目的を推定すること。

ある文章・句からその文章・句が含む情報や知識に関する質問に回答すること。

ある文章・句からその文章・句が伝えたいメッセージや感情を分析すること。

word2vecで用いられる単語（あるいは項目）のベクトルを可視化するとき、最も適切なものを1つ選べ。

ベクトルの大きさと方向をそのままプロットする

ベクトルの大きさと方向に応じて色や形を変えてプロットする

ベクトルの次元数を削減してプロットする

ベクトルの成分ごとに別々にプロットする

word2vecで用いられる単語（あるいは項目）のベクトルを足し算や引き算するとき、以下の式の結果として最も適切な単語を1つ選べ。「日本」-「東京」+「パリ」=？

フランス

ヨーロッパ

エッフェル塔

バゲット

音声認識技術は、人間の発話をテキストやコマンドに変換する技術である。音声認識技術には、音響モデルと言語モデルの2つの要素が必要である。音響モデルと言語モデルに関して述べた以下の文章のうち、適切なものを全て選べ。

音響モデルは、発話された音声信号から単語や文節に対応する単位（音素やトライフォンなど）を推定するモデルである。

言語モデルは、単語や文節の並び方に対する確率分布を表すモデルである。

音響モデルと言語モデルは独立しており、互いに影響しない。

音響モデルと言語モデルは同じ種類のニューラルネットワークで構成されている。

音声認識技術は、さまざまな応用分野で利用されている。たとえば、自動車やスマートフォンなどのデバイスに搭載された音声アシスタントは、音声認識技術を利用してユーザーの要求に応える。音声アシスタントに関して述べた以下の文章のうち、最も適切なものを1つ選べ。

音声アシスタントは、ユーザーが話しかけたときだけ反応する。

音声アシスタントは、ユーザーが話しかける前に特定のキーワード（例えば、「OK Google」や「Hey Siri」など）を発話する必要がある。

音声アシスタントは、ユーザーが話しかける前に特定のジェスチャー（例えば、手を振るなど）を行う必要がある。

音声アシスタントは、ユーザーが話しかける前に特定のコマンド（例えば、「起動」や「終了」など）を入力する必要がある。

音声認識技術は、音声信号をテキストやコマンドに変換するだけでなく、音声信号の特徴や属性を分析することもできる。たとえば、話者の年齢や性別、感情などを推定することが可能である。音声信号の特徴や属性に関して述べた以下の文章のうち、最も適切なものを1つ選べ。

音声信号の特徴や属性は、音響モデルだけで推定できる。

音声信号の特徴や属性は、言語モデルだけで推定できる。

音声信号の特徴や属性は、音響モデルと言語モデルの両方が必要である。

音声信号の特徴や属性は、音響モデルと言語モデルとは別のモデルが必要である。

DQNで用いられた深層ニューラルネットワークの役割は次のうちのどれに当たるか、最も適切なものを1つ選べ。

方策関数を近似する

行動価値関数を近似する

状態遷移関数を近似する

上記のうちどれでもない

DQNでは経験リプレイという手法を用いて学習を安定化させています。経験リプレイとは次のうちのどれに当たるか、最も適切なものを1つ選べ。

過去に観測した状態と行動の履歴をランダムにサンプリングして学習する

現在の状態と行動から未来の報酬を予測して学習する

現在の方策に従って最適な行動を選択して学習する

上記のうちどれでもない

次の強化学習に関連する用語のうち、正しい組み合わせはどれか、1つ選んで答えよ。

オンライン強化学習=（Sarsa、TDガンマ）、オフライン強化学習=（DQN、Batch TD）

オンライン強化学習=（DQN、Batch TD）、オフライン強化学習=（Sarsa、TDガンマ）

オンライン強化学習=（Sarsa、DQN）、オフライン強化学習=（TDガンマ、Batch TD）

オンライン強化学習=（TDガンマ、Batch TD）、オフライン強化学習=（Sarsa、DQN）

次の強化学習に関連する用語のうち、正しい組み合わせはどれか、1つ選んで答えよ。

モンテカルロ法=（エピソード完了後に価値関数を更新、サンプリングによる推定）、TD法=（エピソード途中でも価値関数を更新、ブートストラップによる推定）

モンテカルロ法=（エピソード途中でも価値関数を更新、ブートストラップによる推定）、TD法=（エピソード完了後に価値関数を更新、サンプリングによる推定）

モンテカルロ法=（エピソード完了後に価値関数を更新、ブートストラップによる推定）、TD法=（エピソード途中でも価値関数を更新、サンプリングによる推定）

モンテカルロ法=（エピソード途中でも価値関数を更新、サンプリングによる推定）、TD法=（エピソード完了後に価値関数を更新、ブートストラップによる推定）

トランスフォーマーにおけるAttentionの役割として、最も適切なものはどれか、1つ選んで答えよ。

入力文や出力文の各単語間の関連性を計算する

入力文や出力文を固定長のベクトルに変換する

入力文や出力文に対して畳み込み演算を行う

入力文や出力文に対して正則化項を加える

トランスフォーマーのモデルには、エンコーダとデコーダという二つの部分があります。このうち、エンコーダは何をする部分か、1つ選んで答えよ。

入力文を単語や文字に分割する

入力文をベクトルの列に変換する

出力文を生成する

出力文を評価する

トランスフォーマーのモデルには、Multi-head Attentionという仕組みがあります。これは、Attentionを複数回並列に行い、それらの結果を結合することで、何を実現するか、1つ選んで答えよ。

入力文や出力文の長さに応じてAttentionの重みを調整する

入力文や出力文の異なる特徴や視点を捉える

入力文や出力文の単語間の距離を考慮する

入力文や出力文の単語間の順序を変更する

1005

1007