【G検定まとめ】要点整理&当日用カンペの項目別詳解ページです。
詳細な知識や実装は試験には必ずしも必須ではありませんが、試験対策として理解を深めたい方はぜひ最後までご覧ください。
G検定まとめはこちら
デンドログラム(樹形図)
クラスター分析において、逐次的に標本がグループ化される様子を木の枝のような線で表したもの。
デンドログラム
デンドログラムとは、分析の対象となる個体がまとめられていく様を樹形図の形で表したものです。例えば、階層的クラスタリングによるクラスター分析では、データを似たもの同士でグループ化していきますが、その過程を木の枝のような線で描画したグラフがデンドログラムです。デンドログラムからは、どの個体がどのクラスターに属し、どのクラスターがどれくらい近いかなどが一目でわかります。また、あらかじめクラスター数を決める必要がなく、後から任意の数に分けることができます。
デンドログラムを作成する手順
デンドログラムを作成するには、まず分析の対象となる個体間の距離を計算します。距離の計算方法は様々ありますが、一般的にはユークリッド距離やマハラノビス距離などが用いられます。次に、最も距離の近い2つの個体を1つのクラスターとしてまとめます。この時、クラスター内の代表点(例えば重心)を求めます。この操作を繰り返し、全ての個体が1つのクラスターになるまで結合していきます。この過程で、どの個体がどのクラスターに属し、どのクラスターがどれくらい近いかなどを木の枝のような線で描画したグラフがデンドログラムです。
距離測定
距離測定方法は、個体間の距離とクラスター間の距離の2種類があります。個体間の距離は、個体の特徴を表す変数の値に基づいて計算されます。一般的にはユークリッド距離やマハラノビス距離などが用いられます。ユークリッド距離は、2点間の直線上の距離を表します。マハラノビス距離は、変数間の相関や分散を考慮した重み付きの距離です 。
クラスター間の距離は、クラスター内の代表点や全ての組み合わせに基づいて計算されます。代表的な方法としてウォード法や群平均法などがあります。ウォード法は、2つのクラスターを結合したときに生じる情報ロス量(重心と各サンプルとの距離の2乗和)が最小となるようなクラスター同士を結合する手法です。群平均法は、各クラスター同士で全ての組み合わせのサンプル間距離の平均をクラスター間距離とする手法です 。
デンドログラムの読み方
デンドログラムは、階層的クラスタリングの結果を木の枝のような線で表したグラフです。横軸には各個体やクラスターが、縦軸には距離が表示されます。距離とは、個体間やクラスター間の類似度や非類似度を表す指標です。距離が小さいほど類似しており、距離が大きいほど非類似です。
デンドログラムを読み解くときには、以下の点に注意します。
・線分が結合する高さ(距離)は、その2つのクラスターが結合したときの情報ロス量やサンプル間距離などを表します。高さが低いほど近く、高いほど遠いことを意味します 。
・線分の長さは、そのクラスター内の個体やサブクラスターのばらつきや分散などを表します。長さが短いほど均一でまとまりがあり、長いほど不均一でまとまりがないことを意味します。
・水平方向に引かれた線(カットオフ)でデンドログラムを切ることで、任意の数のクラスターに分割することができます。カットオフは分析目的やデータ内容に応じて適切に設定する必要があります1。
デンドログラムのメリット
デンドログラムの長所は、あらかじめクラスター数を決める必要がないことです。デンドログラムからは、分類の過程でどのようにクラスターが結合していくかを確認できるので、クラスター数を後から決めることができます 。また、デンドログラムは、個体やクラスター間の距離やばらつきなどを視覚的に把握することができるため、分析結果の解釈に役立ちます2。
デンドログラムのデメリット
デンドログラムの短所は、分類の対象が非常に多い場合、計算量が多くなり実行が困難になったり、デンドログラムが巨大になり結果が不明瞭になったりすることです。また、デンドログラムは、一度結合したクラスターを分割することができないため、分類の過程で生じる誤差やノイズに弱いという欠点もあります。
デンドログラムの応用例
デンドログラムは、様々な分野でクラスター分析を行う際に利用されます。例えば、以下のようなケースがあります。
・顧客のグルーピング:化粧品や塾などのサービス業では、顧客の満足度や意向、性格や嗜好などをアンケート調査し、デンドログラムを使って顧客をグループ化することで、各グループの特徴やニーズを把握し、マーケティング戦略やサービス改善に活かすことができます 。
・都道府県の分類:都道府県の人口や面積、産業構造などの特徴データを用いて、デンドログラムを使って都道府県をグループ化することで、地域間の類似性や差異性を分析し、政策立案や経済発展に役立てることができます。
・遺伝子発現解析:生物学では、遺伝子発現量のデータからデンドログラムを使って遺伝子やサンプル(細胞や組織)をグループ化することで、遺伝子間やサンプル間の関係性や機能的なクラスターを探索し、生物学的な意味付けに活かすことができます 。
デンドログラム(樹形図)の実装
最後にデンドログラム(樹形図)の実装を紹介します。
# 必要なライブラリをインポート
import numpy as np
from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage
# 公開データを読み込む(ここではirisデータセットを使用)
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data # 特徴量の行列
# 階層的クラスタリングを実行(ここではウォード法とユークリッド距離を使用)
Z = linkage(X, method="ward", metric="euclidean")
# デンドログラムをプロット
plt.figure(figsize=(10, 5))
dendrogram(Z, labels=iris.target)
plt.title("Dendrogram of iris dataset")
plt.xlabel("Sample index")
plt.ylabel("Distance")
plt.show()
G検定学習法
最後までご覧いただきありがとうございました。
当サイトではG検定に役立つ情報をまとめています。
ぜひご覧ください。
本サイトの活用方法
【G検定2024最新】試験当日も使える! 187項目の要点整理&試験対策カンペ【新シラバス対応】
G検定の要点をシラバスから抜粋してまとめました。これから学習する方も、復習したい方にもお使いいただけます。試験当日用のG検定のカンニングペーパー参考としてもお役立てください。試験結果を保証するものではありませんので、試験 […]
G検定シラバス改訂の概要と変更のポイント
シラバス改訂の概要 一般社団法人日本ディープラーニング協会(JDLA)は、2024年11月実施の「G検定2024 #6」よりG検定(ジェネラリスト検定)のシラバスを改訂すると発表しました。 JDLAによると、今回の改訂で […]
【G検定2024まとめ】理解度確認問題集【直前対策】
問題 すべての問題の解答が終わると答えを見ることができます。 解説動画 関連記事【G検定2024最新】試験当日も使える! 187項目の要点整理&試験対策カンペ【新シラバス対応】 2024年10月24日 G検定シ […]
【G検定まとめ2024】YouTube動画リスト(問題編)
講義編はこちら 関連記事【G検定2024最新】試験当日も使える! 187項目の要点整理&試験対策カンペ【新シラバス対応】 2024年10月24日 G検定シラバス改訂の概要と変更のポイント 2024年6 […]
【G検定まとめ2024】YouTube動画リスト(講義編)
問題編はこちら 関連記事【G検定2024最新】試験当日も使える! 187項目の要点整理&試験対策カンペ【新シラバス対応】 2024年10月24日 G検定シラバス改訂の概要と変更のポイント 2024年6 […]
【G検定まとめ2024】試験当日も使える! 要点整理&試験対策カンペ【旧シラバス】
G検定の要点をシラバスから抜粋してまとめました。これから学習する方も、復習したい方にもお使いいただけます。試験当日用のG検定のカンニングペーパー参考としてもお役立てください。試験結果を保証するものではありませんので、試験 […]
参考書籍
①教科書として使用する書籍
体系的に知識を整理することができます。
まずは、この1冊を読んでG検定の学習を進めましょう。
検索機能が使用できるので、Kindle版が特におすすめです。
②問題集として使用する書籍
ある程度学習が進んだら、本番を意識して問題集に取り組みましょう。
本番の試験環境を意識して、このページ「要点整理&当日用カンペ」を使用しながら解答してみましょう。