最近のデータ分類とhomotopy persistentな組み合わせ対象について

用途に合う構造 (e.g. 形式や型) を与えたデータは (c.f. モデリング)、蓄積された時に表す意味を解釈しやすい。

現実の世界では全てのデータにこうした構造を与えられる訳ではなく、また個々のデータに構造が与えられていたとしても塊として意味を成さないものも多い。

データの集まりを (有限の) 構造に分離した時、データの有限点の集合[1]しばしば現実の物体の境界を近似する場合に使われる。point-cloud dataと言い、構造[2]しばしば実三次元空間の部分空間が使われる。underlying space (of data)と言う。以降データの集まりを:

  • point-cloud: V,
  • underlying space: X,
  • embedding: \tau:V\hookrightarrow X.

の組で(V, X,\tau)と表すことにする。

ここで採用した定義は、幾何的な対象に限定されるものではない。実際以下のようなデータ:

顧客ID顧客姓顧客名顧客国籍顧客年齢
394934SudoAkoJapan32
109214ItoIkoJapan24
210143SatoUoJapan13
202148DavidsonEdwardAmerica22
810714ShiingChernChina71

を恣意的に、又は適当なDRT[3]Dimensionality Reduction Techniquesの略。によって国籍と年齢に制限すると、このデータは((n_j,a_j)_j,\mathbb{N}\times\mathbb{R},\tau)と表現される[4]最適なDRT、そして与えられた生のデータの表現を与える問題一つ一つが大きなトピックで、この記事では踏み込まない。表現問題はCategory … Continue reading


一般のデータ分類問題[5]構造の無い現実の生データから、誘導されるtopology invariantな特徴を抽出する問題。の一つの解釈として、次のようなFunctor (の合成) が考えられる:

    \[{\bf Set}_m^I \xrightarrow{P} {\bf Top}_m^I \xrightarrow{Q} {\bf Set}^\Delta^{\rm op} \xrightarrow{R} {\bf Ab}.\]

記号が多いのでその定義は以下表でまとめた。

項番記号定義解釈
1{\bf Set}_m^IArrow category of a subcategory of {\bf Set} whose morphisms are mono.Point-cloud data and its underlying unstructured total set.
2{\bf Top}_m^IArrow category of a subcategory of {\bf Top} whose morphisms are mono.Point-cloud data and its underlying space.
3{\bf Set}^\Delta^{\rm op}Category of simplicial set.Combinatorial representation of topologized data.
4{\bf Ab}Abelian category.Represents a value of classification.
5PA faithful topological translation.Responsible for the reduction, optimization and possible structurization (e.g. metric) of data.
6QA composition functor of simplicial interpretation followed by the forgetful functor that discards canonical inclusion of vertices.Give a combinatorial interpretation of data along with parameters responsible for homotopy persistence.
7RDold-Kan correspondence followed by a choice functor of the object with global persistence for given parameter.Give a reduced representation of evaluated class of data.

記号表の項番3以降の対象とそれに付随する問題については個人的な興味があり、特に5と6は私のバックボーンからしてしばしば研究の対象になる。

今回は6について、以下の Witness ComplexのSimulator (PC推奨) で次の事を直感的に体感できるプログラムを作ってみたので、興味がある方は試してみると面白いと思う:

  1. 円を粗くなぞる様に配置されたpoint-cloud data (黒い点) に対し, 初期化処理でランダムに頂点 (赤い点, landmarks) を配置する;
  2. +Rボタンを何度か押し半径を大きくしていくと, いずれS^1にホモトピー同値なSimplicial Complexを得る(各Simplex \sigmaが表れる最小の半径RをR_\sigmaと書き, [Silva]では\sigmatime of appearanceと呼んでいる);[6]初期化時の頂点の配置が偏り過ぎていると, 期待したホモトピー型 ()を持つSimplicial Complexに到達するまでに大きな半径を要することがある. … Continue reading

Persistent Homologyの理論では, (PH Barcode Decompositionにおいて) 最も長く持続したホモトピー型[7]この場合半径Rで添字付けられたSimplicial Complexesのfiltrationの, 各Rにおけるホモトピー型.を意味のあるデータとして重要視するが、注意深く選択したパラメタを採用した特別な事例において、殆ど全ての試行でこのデータが期待されたものと整合するという結果が示されている(c.f. [Silva])。

また以下の動画は、乱数で与えられたpoint-cloud dataに対し、幾つかのパラメタを動かして変化するSimplicial Decompositionの様子を観察できるように作成した。

Footnotes

Footnotes
1 しばしば現実の物体の境界を近似する場合に使われる。
2 しばしば実三次元空間の部分空間が使われる。
3 Dimensionality Reduction Techniquesの略。
4 最適なDRT、そして与えられた生のデータの表現を与える問題一つ一つが大きなトピックで、この記事では踏み込まない。表現問題はCategory Cのmorphismをmonomorphismに制限したsubcategoryをC_mと書くと、Arrow Categoryの間のFunctor {\bf Set}_m^I \to {\bf Top}_m^Iを考えることに対応する。
5 構造の無い現実の生データから、誘導されるtopology invariantな特徴を抽出する問題。
6 初期化時の頂点の配置が偏り過ぎていると, 期待したホモトピー型 (S^1)を持つSimplicial Complexに到達するまでに大きな半径を要することがある. また稀に期待したホモトピー型が得られない場合もある.
7 この場合半径Rで添字付けられたSimplicial Complexesのfiltrationの, 各Rにおけるホモトピー型.