Patterns of Algorithm

Overview

t分布型確率的近傍埋め込み法(T-distributed Stochastic Neighbor Embedding, t-SNE)は、Laurens van der Maatenとジェフリー・ヒントンにより開発された可視化のための機械学習アルゴリズムである。[1] これは、高次元データの可視化のため2次元または3次元の低次元空間へ埋め込みに最適な非線形次元削減手法である。具体的には、高次元のデータ集合を2次元または3次元へ配置する際に、高い確率で類似した集合が近傍に、異なる集合が遠方となるように対応付ける。

t分布型確率的近傍埋め込み法のアルゴリズムは主に2つの段階で構成される。 第一に、高次元データの各対について類似する集合が選択される可能性が高く、一方で異なる集合が選択される可能性が極めて小さくなるように確率分布を構築する。第二に、低次元マップ上の集合について同様な確率分布を定義し、2つの分布間のカルバック・ライブラー情報量を最小化する低次元マップ内の点の位置を求める。元のアルゴリズムは二点の類似度の指標にユークリッド距離を使用しているが、これは必要に応じ適切に変更する必要がある。

t 分布型確率的近傍埋め込みは、コンピュータセキュリティ研究[2]、音楽分析[3]、癌研究,[4]、バイオインフォマティクス[5]、および生物医学信号処理[6]を含む、幅広い応用の可視化に利用されている。人工ニューラルネットワークによって学習された高レベルの表現の可視化にもよく使用される。[7]

多くの場合、t分布型確率的近傍埋め込み法で表示された図ではクラスターが見えるが、可視化されたクラスターは選択したパラメータにより強く影響される可能性があるため、t分布型確率的近傍埋め込み法のパラメータをよく理解することが必要である。 そのような「クラスター」は、非クラスターのデータにも現れることがあり[8]、したがって誤った発見かもしれない。したがって、パラメータを選択して結果を検証を繰り返す探索が必要となる可能性がある。[9][10] t 分布型確率的近傍埋め込みはよく分離されたクラスターを復元できることが多く、特別なパラメーターを選択により単純な形のスペクトルクラスター形状を近似することが実証されている。[11]

-

Use Case

comming soon...  

-

reference

  • wikipedia
  • 「見て試してわかる機械学習アルゴリズムの仕組み 機械学習図鑑」秋庭 伸也 (著)、 杉山 阿聖 (著), 寺田 学 (著), 加藤 公一 (監修)