【G検定まとめ】要点整理&当日用カンペの項目別詳解ページです。

詳細な知識や実装は試験には必ずしも必須ではありませんが、試験対策として理解を深めたい方はぜひ最後までご覧ください。

G検定まとめはこちら

デンドログラム(樹形図)

クラスター分析において、逐次的に標本がグループ化される様子を木の枝のような線で表したもの。

デンドログラム

デンドログラムとは、分析の対象となる個体がまとめられていく様を樹形図の形で表したものです。例えば、階層的クラスタリングによるクラスター分析では、データを似たもの同士でグループ化していきますが、その過程を木の枝のような線で描画したグラフがデンドログラムです。デンドログラムからは、どの個体がどのクラスターに属し、どのクラスターがどれくらい近いかなどが一目でわかります。また、あらかじめクラスター数を決める必要がなく、後から任意の数に分けることができます。

デンドログラムを作成する手順

デンドログラムを作成するには、まず分析の対象となる個体間の距離を計算します。距離の計算方法は様々ありますが、一般的にはユークリッド距離やマハラノビス距離などが用いられます。次に、最も距離の近い2つの個体を1つのクラスターとしてまとめます。この時、クラスター内の代表点(例えば重心)を求めます。この操作を繰り返し、全ての個体が1つのクラスターになるまで結合していきます。この過程で、どの個体がどのクラスターに属し、どのクラスターがどれくらい近いかなどを木の枝のような線で描画したグラフがデンドログラムです。

距離測定

距離測定方法は、個体間の距離とクラスター間の距離の2種類があります。個体間の距離は、個体の特徴を表す変数の値に基づいて計算されます。一般的にはユークリッド距離やマハラノビス距離などが用いられます。ユークリッド距離は、2点間の直線上の距離を表します。マハラノビス距離は、変数間の相関や分散を考慮した重み付きの距離です 。

クラスター間の距離は、クラスター内の代表点や全ての組み合わせに基づいて計算されます。代表的な方法としてウォード法や群平均法などがあります。ウォード法は、2つのクラスターを結合したときに生じる情報ロス量(重心と各サンプルとの距離の2乗和)が最小となるようなクラスター同士を結合する手法です。群平均法は、各クラスター同士で全ての組み合わせのサンプル間距離の平均をクラスター間距離とする手法です 。

デンドログラムの読み方

デンドログラムは、階層的クラスタリングの結果を木の枝のような線で表したグラフです。横軸には各個体やクラスターが、縦軸には距離が表示されます。距離とは、個体間やクラスター間の類似度や非類似度を表す指標です。距離が小さいほど類似しており、距離が大きいほど非類似です。

デンドログラムを読み解くときには、以下の点に注意します。

・線分が結合する高さ(距離)は、その2つのクラスターが結合したときの情報ロス量やサンプル間距離などを表します。高さが低いほど近く、高いほど遠いことを意味します 。
・線分の長さは、そのクラスター内の個体やサブクラスターのばらつきや分散などを表します。長さが短いほど均一でまとまりがあり、長いほど不均一でまとまりがないことを意味します。
・水平方向に引かれた線(カットオフ)でデンドログラムを切ることで、任意の数のクラスターに分割することができます。カットオフは分析目的やデータ内容に応じて適切に設定する必要があります1。

デンドログラムのメリット

デンドログラムの長所は、あらかじめクラスター数を決める必要がないことです。デンドログラムからは、分類の過程でどのようにクラスターが結合していくかを確認できるので、クラスター数を後から決めることができます 。また、デンドログラムは、個体やクラスター間の距離やばらつきなどを視覚的に把握することができるため、分析結果の解釈に役立ちます2。

デンドログラムのデメリット

デンドログラムの短所は、分類の対象が非常に多い場合、計算量が多くなり実行が困難になったり、デンドログラムが巨大になり結果が不明瞭になったりすることです。また、デンドログラムは、一度結合したクラスターを分割することができないため、分類の過程で生じる誤差やノイズに弱いという欠点もあります。

デンドログラムの応用例

デンドログラムは、様々な分野でクラスター分析を行う際に利用されます。例えば、以下のようなケースがあります。

・顧客のグルーピング:化粧品や塾などのサービス業では、顧客の満足度や意向、性格や嗜好などをアンケート調査し、デンドログラムを使って顧客をグループ化することで、各グループの特徴やニーズを把握し、マーケティング戦略やサービス改善に活かすことができます 。
・都道府県の分類:都道府県の人口や面積、産業構造などの特徴データを用いて、デンドログラムを使って都道府県をグループ化することで、地域間の類似性や差異性を分析し、政策立案や経済発展に役立てることができます。
・遺伝子発現解析:生物学では、遺伝子発現量のデータからデンドログラムを使って遺伝子やサンプル(細胞や組織)をグループ化することで、遺伝子間やサンプル間の関係性や機能的なクラスターを探索し、生物学的な意味付けに活かすことができます 。

デンドログラム(樹形図)の実装

最後にデンドログラム(樹形図)の実装を紹介します。

# 必要なライブラリをインポート
import numpy as np
from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage

# 公開データを読み込む(ここではirisデータセットを使用)
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data # 特徴量の行列

# 階層的クラスタリングを実行(ここではウォード法とユークリッド距離を使用)
Z = linkage(X, method="ward", metric="euclidean")

# デンドログラムをプロット
plt.figure(figsize=(10, 5))
dendrogram(Z, labels=iris.target)
plt.title("Dendrogram of iris dataset")
plt.xlabel("Sample index")
plt.ylabel("Distance")
plt.show()

G検定学習法

最後までご覧いただきありがとうございました。

当サイトではG検定に役立つ情報をまとめています。

ぜひご覧ください。

本サイトの活用方法

【G検定まとめ2024】試験当日も使える! 要点整理&試験対策カンペ【動画】

1. 人工知能とは 第1回:人工知能の定義、人工知能研究の歴史 2. 人工知能をめぐる動向 第2回:探索・推論 第3回:知識表現、機械学習・深層学習 3. 人工知能分野の問題 第4回:人工知能分野の問題 4. 機械学習の […]

【G検定まとめ2024】試験当日も使える! 要点整理&試験対策カンペ

G検定の要点をシラバスから抜粋してまとめました。これから学習する方も、復習したい方にもお使いいただけます。試験当日用のG検定のカンニングペーパー参考としてもお役立てください。試験結果を保証するものではありませんので、試験 […]

【G検定2023まとめ】理解度確認&問題集まとめ【直前対策】

G検定の要点を問題形式にまとめました。試験前の理解度確認、直前対策にお役立てください。 (最終更新日:2023年3月1日) 1. 人工知能とは 問題を解く 2. 人工知能をめぐる動向 問題を解く 3. 人工知能分野の問題 […]

【G検定2023】G検定の概要と試験のポイント

このシリーズではG検定の要点を項目ごとにまとめています。 今回の記事では「G検定の概要と試験のポイント」について紹介します。 試験の概要  G検定(公式名:ジェネラリスト検定)は、JDLA:Japan Deep Lear […]

【G検定】G検定合格体験記 〜学習方法と受験体験〜

このシリーズではG検定の要点を項目ごとにまとめています。 今回の記事では、2022年7月2日(土)開催のG検定(2022#2 )に合格した学習方法と受験体験について紹介します。 これから受験される方へ参考になれば幸いです […]

【G検定2022】シラバスでみるG検定の試験内容

このシリーズではG検定の要点を項目ごとにまとめています。 今回の記事ではシラバスをもとに「G検定の試験内容」について紹介します。 試験の概要  G検定(公式名:ジェネラリスト検定)は、JDLA:Japan Deep Le […]

参考書籍

教科書として使用する書籍

体系的に知識を整理することができます。

まずは、この1冊を読んでG検定の学習を進めましょう。

検索機能が使用できるので、Kindle版が特におすすめです。

②問題集として使用する書籍

ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。

本番の試験環境を意識して、このページ「要点整理&当日用カンペ」を使用しながら解答してみましょう。