Estimation de mouvement pour les grands déplacements et déformations
La figure 2 et l’algorithme 1 résument les étapes de la technique proposée. HybridFlow est le flux raffiné généré par l’interpolation des flux bruts agrégés calculés à partir d’une correspondance de graphes clairsemés de superpixels et de correspondances de caractéristiques de pixels dans de petits clusters, comme indiqué ci-dessous.
Regroupement sensoriel et correspondance des caractéristiques
Les descripteurs de caractéristiques codent des informations discriminatoires sur un pixel et forment la base du regroupement et de la correspondance perceptifs. Nous expérimentons trois descripteurs de fonctionnalités différents : le rootSIFT proposé dans la réf.28DeepLab pré-entraînés sur ImageNet, et encodeurs pré-entraînés avec la même architecture que dans la réf.25. Comme indiqué plus loin dans la section Résultats expérimentaux et détails de mise en œuvre, ce dernier descripteur donne les meilleures performances. Ensuite, nous regroupons les pixels en fonction de leurs descripteurs de caractéristiques pour remplacer la structure rigide du réseau de pixels, comme indiqué sur la figure 1b. Plus précisément, nous classons chaque pixel comme la valeur argmax de son descripteur de caractéristique à N dimensions et les regroupons en groupes. Et donc, pixels s L’index de bloc est défini \(i_{p}\) donné par,
$$\beginning{align}{i_{p}={{\,\mathrm{arg\,max}\,}}(Softmax(ReLU({F}_{c}(p)))},\ fin {aligner} $$
(3)
où \(\mathscr{F}_{c}\) est le descripteur de fonctionnalité. Par conséquent, cela se traduit par un nombre arbitraire de grappes de taille grossière dans chaque image correspondante en fonction de leurs indices de masse. Le groupe peut ne pas être contigu. Étant donné que l’indice est calculé à partir du descripteur de caractéristique comme dans l’équation. (3), définit la classe de l’objet et est utilisé lors de la mise en correspondance de graphes pour faire correspondre des groupes de la même classe, comme indiqué dans la section suivante.
Les pixels dans des groupes de surface inférieure à 10 000 sont mis en correspondance en fonction de la similarité de leurs descripteurs de caractéristiques à l’aide de la somme des différences au carré (SSD) avec test de rapport. Les valeurs aberrantes dans les correspondances initiales sont supprimées du post-traitement à l’aide de RANSAC, qui trouve une matrice principale locale pour chaque groupe.
Le flux creux initial généré par cette étape est constitué du flux calculé à partir de chacune des caractéristiques intrinsèques. La figure 1f montre le flux initial généré par l’appariement clairsemé des caractéristiques des pixels situés dans tous les microclusters. La taille des pixels est agrandie de \(10\fois 10\) Pour une clarté de perception.
Les grappes à grande échelle d’une superficie supérieure à 10 000 pixels sont en outre regroupées au moyen d’un simple réseau itératif linéaire (SLIC) qui adapte le regroupement k-means pour regrouper les pixels en régions atomiques perceptuellement significatives29. Prof \(\kappa\) Il est calculé en fonction de la taille d’image requise et de la taille de super pixel et est fourni par \(\kappa = \frac{|I|}{|s|}\) où \(|s|\environ 2223, s \in \mathscr{S}\)et |je| est la taille de l’image. Cela limite le nombre de super pixels à une taille approximativement égale \(\mathscr{S}\); Dans nos expériences discutées dans la section Détails de la mise en œuvre, la valeur optimale pour \(\kappa\) \(\environ 250\) à 300. Pour les pixels ultra-fins \(\mathscr{S}\)un graphique est généré où chaque nœud correspond au centroïde du superpixel, et les arêtes correspondent au résultat du triangle de Delaunay comme décrit dans la section suivante « Graphique de correspondance ».
Correspondance graphique
Les deux groupes de superpixels inclus dans les groupes d’images identiques à grande échelle \(Je_{1},Je_{2}\) Il est représenté par le modèle de graphe décrit dans la section « Modèle de graphe et appariement ». par super pixel sContracter s est un sous-ensemble de tous les pixels s dans s En d’autres termes \(P\sous-ensemble \{p:\pour tout p\dans S \dans I\}\). bords e et topologie t De chaque graphique, la triangulation des nœuds de Delaunay est dérivée s. Le graphe n’est pas orienté et la fonction de poids des arêtes w(., .) est symétrique par rapport aux bords \(\vec{e_{a}}, \vec{e_{b}}\in E\)Tel que \(w (\vec {e_{a}}, \vec {e_{b}}) = w (\vec {e_{b}}, \vec {e_{a}})\). fonctions de similarité \(\lambda ^{P}(.,.)\) Et le \(\lambda ^{E}(.,.)\) également symétrique; pour \(p_{i},p_{j}\in P_{1}\)Et le \(p_{k},p_{l}\in P_{2}\)et bords \(e_{a}\in E_{1}\)Et le \(e_{b} \in E_{2}\)les fonctions de similarité sont données par,
$$\start{align}&\lambda ^{P}(p_{i},p_{k})=e^{-\bigg | d^{P}(f(p_{i}),f(p_{k}))\bigg|},\end{aligner}$$
(4)
$$\start{align} &\lambda ^{E}(e_{a},e_{b})=e^{-\frac{1}{2}\left[ \Phi ^{\circ } + \bigg |d^{E}(\theta _{e_{a}}, \theta _{e_{b}})\bigg | + \bigg |d^{L}(e_{a}, e_{b})\bigg | \right] }, \end{aligner}$$
(5)
où \(\Phi ^{\circ }\) donné avant,
$$\début{aligner}\Phi ^{\circ} &=\Phi ^{1}_{gradient}(f(p_{i}),f(p_{j}),f(p_{k}) , f (p_{l})) + \Phi ^{2}_{gradient} (f (p_{i}), f (p_{j}), f (p_{k}), f (p_{l })) \nonombre \\ & \quad + \Phi ^{1}_{couleur}({{C}}_(p_{i}),{{C}}_(p_{j} ), {{ C}}_(p_{k}),{{{C}}}_(p_{l})) + \Phi ^{2}_{couleur}({{C}}_ (p_{i}) , {{C}}_(p_{j}), {{C}}_(p_{k}), {{C}}_(p_{ l}))), \ end {align} $$
(6)
$$\begin{align}\Phi ^{1}_{dégradé}&=\bigg| ré ^{P}(f(p_{i}),f(p_{k}))\bigg| + \beige | d^{P}(f(p_{j}),f(p_{l})) \bigg|, \nonumber \\ \Phi ^{1}_{couleur} & = \bigg | d^{\mathscr{C}}(f(p_{i}),f(p_{k}))\bigg | + \beige | d^{\mathscr{C}}(f(p_{j}),f(p_{l}))\bigg | , \end{aligner}$$
(sept)
$$\begin{align}\Phi^{2}_{dégradé}&=\bigg| ré ^{P}(f(p_{i}),f(p_{j}))\bigg| -\Beige | d^{P}(f(p_{k}),f(p_{l})) \bigg|, \nonumber \\ \Phi ^{2}_{couleur} & = \bigg | d^{\mathscr{C}}(f(p_{i}),f(p_{j}))\bigg | -\Beige | d^{\mathscr{C}}(f(p_{k}),f(p_{l}))\bigg|. \end{aligner}$$
(8)
\(f : P\longrightarrow S\) C’est un descripteur de fonctionnalité avec une origine s pour le nœud \ (Afif \)Et le \(\mathscr{C} : P\longrightarrow 6\) C’est une fonction qui calcule le vecteur 6 \ (<\ mu _ {r}، \ mu _ {g}، \ mu _ {b}، \ sigma _ {r}، \ sigma _ {g}، \ sigma _ {b}> \) Il contient des moyens de répartition des couleurs et des nuances (\(\mu, \sigma\)) dans s Semblable à 1D Gaussian pour chaque canal de couleur, \(d^{P} :S\fois S\longrightarrow \mathbb{R}\) Est-ce que vous \(\mathscr{L}^{1}\)– le taux de différence entre les descripteurs de caractéristiques des deux nœuds dans \(p_{i}, p_{j}, p_{k}, p_{l} \in P\)Et le \(d^{E} : \mathbb{R} \times \mathbb{R} \longrightarrow \mathbb{R}\) est la différence entre les angles \(\theta _{e_{a}}\theta _{e_{b}}\) des deux bords \(e_{a}\dans E_{1},e_{b}\dans E_{2}\) aux axes horizontaux, et \(d^{\mathscr{C}} : 6\fois 6\longrightarrow \mathbb{R}\) Est-ce que vous \(\mathscr{L}^{1}\)— Normal est la différence entre les deux six vecteurs qui contiennent les informations de distribution de couleur des deux nœuds à \(p_{i}, p_{j}, p_{k}, p_{l} \in P\).
\(\Phi ^{1}_{*}\) Il indique les similitudes de premier ordre et mesure les similitudes entre les nœuds et les arêtes des deux graphes. De plus, les similitudes sont excellentes \(\Phi ^{1}_{*}\)les fonctions dans les équations ci-dessus définissent des similitudes quadratiques supplémentaires \(\Phi ^{2}_{*}\) dont il a été démontré qu’ils améliorent les performances de correspondance30. Autrement dit, au lieu d’utiliser uniquement des fonctions de similarité qui entraînent de petites différences entre des dégradés / couleurs similaires et autrement grands, disons du premier ordre, nous incorporons également les similitudes de second ordre définies ci-dessus, qui mesurent la similitude entre deux dégradés / couleurs en utilisant le La distance entre leurs différences31. Par exemple, la similarité est du premier ordre \(\Phi ^{1}_{dégradé}\) Calcule la distance entre deux descripteurs d’entités dans les deux graphiques, par exemple \(\lambda ^{P}(p_{i},p_{k})\) en éq. (4), tandis que la similarité quadratique est calculée La distance entre les différences de descripteur de caractéristiques des points finaux dans chaque graphique En d’autres termes \(\Phi ^{2}_{dégradé}\) Et le \(\Phi ^{2}_{couleur}\) Dans les éq. (4) et (8). descripteur \(et (s_{i})\), tel que défini par l’éq. (6), le barycentre représentant le superpixel est calculé pour chaque nœud \(s_{i} \in \mathscr{S}\) comme la moyenne des descripteurs de caractéristiques de tous les pixels qu’il contient \(f (s_{i})=\frac{1}{|s_{i}|}\sum _{\forall p \in s_{i}\subset I} \phi _{p}\) où \(|s_{i}|\) C’est le nombre de pixels dans un superpixel \(si}\)Et le \(\phi _{p}\) C’est le descripteur de fonctionnalité de pixel \(p\in s_{i}\sous-ensemble I\).
Compte tenu des définitions de fonctions ci-dessus, la correspondance de graphes est résolue en maximisant Eq. (1) Utilisation de l’algorithme de suivi de chemin. \({\textbf{K}}\) Le produit de Kronecker comprend six matrices plus petites assurant une complexité de calcul qui peut être tracée sur des graphes de nœuds. \(N,M\environ 300\)32. De plus, la force des transformations géométriques telles que la rotation et l’échelle est augmentée en trouvant le décalage optimal en même temps que la recherche de la correspondance optimale, imposant ainsi des contraintes géométriques rigides (par exemple, similarité, affine) et non strictes lors de l’optimisation.33.
Le résultat est des superpixels identiques dans des groupes identiques à grande échelle. En supposant un mouvement rigide multi-définition, nous utilisons RANSAC pour supprimer les valeurs aberrantes des correspondances de superpixels. par super pixel s Ayant au moins trois voisins identiques, on ajuste la transformation affine. On vérifie juste si c’est un superpixel s est une exception, auquel cas il est retiré du traitement ultérieur. Ce processus est répété pour tous les sous-groupes et super-pixels correspondant à l’histogramme. Nous effectuons un cycle en faisant correspondre les pixels existants en superpixels identiques en fonction de leurs descripteurs de caractéristiques. Comme précédemment dans la section « Regroupement perceptif et correspondance des caractéristiques », nous supprimons les correspondances de pixels extrinsèques trouvées dans les superpixels à l’aide de RANSAC pour trouver la matrice dorsale localisée.
Le flux creux initial généré par la mise en correspondance d’histogrammes est constitué du flux calculé à partir de chaque pixel présent dans les superpixels mis en correspondance. La figure 1b montre le résultat du regroupement des descripteurs de traits pour l’image représentée sur la figure 1a. Les clusters de grande surface sont divisés en super pixels. Les nœuds du graphe correspondent au centre de gravité de chaque pixel, et les bords sont causés par la triangulation de Delaunay des nœuds, comme indiqué ci-dessus. La figure 1c, d montre le résultat de l’histogramme correspondant des superpixels dans des groupes identiques à échelle grossière. Les correspondances sont codées par couleur et les nœuds sans correspondance sont représentés par des cercles jaunes plus petits. Des exemples de nœuds incompatibles sont illustrés dans la partie gauche de l’image de gauche sur la figure 1c. Les images présentées proviennent de l’ensemble de données de référence MPI-Sintel13.
interpolation et raffinement
Les flux élémentaires clairsemés agrégés (Fig. 1e, f) calculés à partir de l’appariement des caractéristiques clairsemées et de l’appariement des graphes, comme décrit ci-dessus dans les sections « Regroupement perceptif et appariement des caractéristiques » et « Appariement des graphes » respectivement, sont d’abord approximés puis affinés. Pour l’interpolation, nous appliquons la technique de préservation des bordsdix. Il en résulte un écoulement dense comme le montre la figure 1g. Dans la dernière étape, nous optimisons le flux interpolé en utilisant une optimisation variable sur toute la gamme des flux bruts, c’est-à-dire sans schéma approximatif à fin, avec les mêmes données et conditions de lissage que celles utilisées dans la réf.dix. Le résultat final est montré dans la figure. 1h.