Les images de télédétection contiennent souvent du bruit et des distorsions. Pour supprimer ou atténuer ce bruit, nous suggérons d’utiliser la binarisation d’image à plusieurs seuils, car elle permet de filtrer les pixels qui ne répondent pas aux valeurs de seuil spécifiées. Le multi-seuil binaire est une technique puissante qui adapte les seuils à chaque image ou à des régions distinctes de l’image, facilitant ainsi une extraction améliorée des caractéristiques dans différentes conditions. S’il est nécessaire de mettre en évidence des objets ou des caractéristiques d’une image dont le contraste ou la luminosité varie par rapport à l’arrière-plan, la binarisation à plusieurs seuils peut contribuer à améliorer la précision de l’extraction en utilisant différents seuils pour différentes parties de l’image.
Par conséquent, la conception de l’algorithme d’extraction de caractéristiques doit répondre aux exigences suivantes :
-
Distinguer les objets au premier plan dans différentes conditions d’éclairage et de luminosité ;
-
Soutenez des contours lisses et nets.
-
Soyez résistant au bruit supplémentaire ;
-
Soyez constant pour la transformation d’affinité.
-
être invariant aux déformations non linéaires ;
-
Être compatible avec la lecture en temps réel.
La méthode traditionnelle de transformation binaire des images en niveaux de gris et en couleur consiste à utiliser un seuillage global pour obtenir simplement une carte de caractéristiques binaire :
$$\begin{aligned} \left\{ \begin{array}{ll} B(x,y)=0,&{}\quad if\,\, f(x,y)
(1)
où B(s, oui) est une représentation binaire, F(s, oui) est une image en niveaux de gris, T C’est un seuil binaire.
Cependant, étant donné que le réseau neuronal dense et profond (DNN) est utilisé comme classificateur dans les applications modernes de vision par ordinateur, le nombre de caractéristiques extraites à l’aide du seuillage binaire global n’est pas suffisant pour une classification précise des images de télédétection multispectrales. Par conséquent, dans cet article, nous proposons une binaire multi-seuil, qui permet à chaque sous-image d’être transformée en plusieurs représentations binaires basées sur différents seuils. L’ensemble correspondant de représentations binaires est traité comme un tenseur de caractéristiques informatif pour chaque sous-image. Les principaux avantages de l’approche proposée sont qu’elle permet d’extraire davantage de fonctionnalités et qu’elle offre également une flexibilité dans l’extraction de fonctionnalités en utilisant un nombre variable de seuils.
Décrivons le flux de travail de l’approche proposée. Tout d’abord, l’image multispectrale est analysée par pixel, en tenant compte de toutes les bandes spectrales, représentées sous forme d’un ensemble de matrices. Ensuite, nous définissons le seuil global, qui peut être calculé comme une moyenne de toutes les valeurs :
$$\begin{aligned} {{T}_{G}}=1/{{n}_{G}}\underset{i=0}{\overset{{{n}_{G}}}{ \mathop \sum }}\,{{P}_{i}}, \end{align}$$
(2)
où \({{baie}}\) est la valeur de densité de pixels, \({{n}_{G}}=x\fois y\fois m\) est le nombre total de tous les pixels, en tenant compte de toutes les bandes spectrales m. Ensuite, les seuils supérieur et inférieur sont déterminés à partir des valeurs maximales et minimales d’intensité des pixels :
$$\begin{aligned} \begin{aligned} {{T}_{U}}=\max (I), \\ {{T}_{D}}=\min (I), \end{aligned } \end{align}$$
(3)
où \({{T}_{U}}\)—le seuil supérieur, \({{T}_{D}}\)-Seuil inférieur.
Pour déterminer le meilleur compromis entre complexité informatique et précision, nous avons mené une évaluation expérimentale pour évaluer le nombre effectif de seuils par image. D’après nos observations sur les jeux de données étudiés, l’équilibre est atteint à 7 seuils locaux équidistants avec un seuil global :
$$\begin {align} \begin {align} {{T}_{1}} = \frac {{{T}_{G}} – {{T}_{D}}} {3} + { {T}_{D}}, {{T}_{2}} = 2\frac {{{T}_{G}} – {{T}_{D}}}{3}+{ {T }_{D}},{{T}_{3}} = 8\frac {{{T}_{G}} – {{T}_{D}}}{9}+{ {T}_ {D}},{{T}_{4}} = {{T}_{G}},{{T}_{5}} = {{T}_{U }}-\frac {{{ T}_{U}} – {{T}_{G}}}{3},\{{T}_{6}} = {{T}_{U} } -2\frac {{{T }_{U}} – {{T}_{G}}}{3},\{{T}_{7}} = {{T}_{U} }-8\frac{{{T} _{U}}-{{T}_{G}}}{9}.\\ \end{align} \end{align}$$
(4)
L’augmentation supplémentaire du nombre de seuils n’offre pas d’avantage significatif par rapport à la complexité de calcul supplémentaire.
Généralisons-le à un nombre arbitraire de seuils :
$$\begin{align} {{T}_{V}} = j\frac {{{T}_{U}} – {{T}_{D}}} {r-1} + {{T }_{D}},\end{align}$$
(5)
où Cinquième est l’indicateur de seuil, s Il y a un certain nombre de seuils.
La dualité multi-seuil permet de représenter chaque bande spectrale de l’image multispectrale je En tant que tableau de tableaux binaires à (Graphique 1). Notez que la taille des matrices \({{L}_{m}}\gauche( x,y \droite)\) C’est la même taille que la sous-image d’entrée\(i\gauche(x,y\droite)\).
En fonction du nombre de sous-images M Nous obtiendrons un nombre différent de matrices \(n’a pas fait}\).
Pour fusionner un grand nombre de tableaux, nous utilisons les opérations XOR et OR comme suit :
$$\begin{align} L=\left( {{L}_{1}}\oplus {{L}_{2}} \right) \vee \left( {{L}_{3}}\ oplus {{L}_{4}} \right) \vee \ldots \left( {{L}_{m-1}}\oplus {{L}_{m}} \right), \end{align }$$
(6)
où à C’est la matrice binaire résultante, qui indique les changements de certains éléments de toutes les matrices.
Pour les cas où l’invariance par rotation n’est pas obligatoire, la matrice à Il est utilisé directement comme entrée du classificateur, qui peut être basé sur un réseau de neurones classique ou dense. Chaque fois que l’invariance de rotation est nécessaire, nous pouvons utiliser l’augmentation des données pour obtenir un ensemble de données plus grand avec une rotation d’image arbitraire.
Le système avancé de télédétection se compose de plusieurs capteurs, capables de déterminer l’altitude, les coordonnées GPS et l’orientation spatiale, représentées par des quaternions :
$$\begin{align} q=a+bi+ci+dk,\end{align}$$
(7)
où une, B, C, Docteur– Nombres réels je, Oui, K– Des nombres imaginaires.
Le quadrilatère peut être représenté en angles d’Euler selon les équations suivantes :
$$\begin{aligned} \begin{aligned} \varphi&=\arctan \left( \frac{2\left( ab+cd \right) }{1-2\left( {{b}^{2}} +{{c}^{2}} \right) } \right) ,\\ \theta&=\arcsin (2\left( ac-db \right) ),\\ \psi&=\arctan \left( \frac {2\left(ac+bc \right)} {1-2\left( {{c}^{2}}+{{d}^{2}} \right) } \right), \end{align } \end{align}$$
(8)
où \(\phi,\thêta,\psi\)– Angles de rotation de s, oui, Z Les axes sont droits.
Les angles obtenus \(\phi,\thêta,\psi\) Peut être utilisé pour faire pivoter la matrice de fonctionnalités \(n’a pas fait}\) Et l’alignement des perspectives. Ainsi, chaque image est une sous-image \(L_{m}(x,y)\) Il tourne selon un angle \(\Fi\). Si la rotation est effectuée autour de l’origine (0, 0), la transformation correspondante est représentée selon les équations suivantes :
$$\begin{align} \begin{align} {{x}_{2}}&=\cos (\varphi ){{x}_{1}}+\sin (\varphi ){{y}_ {1}},\\ {{y}_{2}}&=-\sin (\varphi ){{x}_{1}}+\cos (\varphi ){{y}_{1}} ,\end{align}\end{align}$$
(9)
où \(\gauche( {{x}_{2}},{{y}_{2}} \droite)\)– Coordonnées après rotation. Étant donné que les images peuvent être obtenues sous des angles différents de la normale, nous devons également prendre en compte la transformation de perspective. Ceci peut être réalisé en utilisant la rotation le long oui Et Z Interlocuteur:
$$\begin{align} \begin{align} {\textbf{R}}_{{\varvec{\theta }}}=\begin{bmatrix} cos(\theta ) &{}\quad -sin(\ theta ) &{}\quad 0 &{}\quad 0\\ sin(\theta ) &{}\quad cos(\theta ) &{}\quad 0 &{}\quad 0\\ 0 &{}\ Quad 0 &{}\quad 1 &{}\quad 0\\ 0 &{}\quad 0 &{}\quad 0 &{}\quad 1, \end{bmatrix} \\ {\textbf{R}} _{{\varvec{\psi}}}=\begin{bmatrix} 1 &{}\quad 0 &{}\quad 0 &{}\quad 0\\ 0 &{}\quad cos(\psi ) & {}\quad -sin(\psi ) &{}\quad 0\\ 0 &{}\quad sin(\psi ) &{}\quad cos(\psi ) &{}\quad 0\\ 0 &{ }\quad 0 &{}\quad 0 &{}\quad 1 \end{bmatrix} \end{align} \end{align}$$
(dix)
où \({\textbf{R}}_{\varvec{\theta}},{\textbf{R}}_{\varvec{\psi }}\)– Matrices de rotation sur la longueur oui Et Z Haches.
En prétraitant la matrice de fonctionnalités \(n’a pas fait}\),Nous obtenons l’invariance de la rotation et de l’alignement de la projection. Cette approche permet une formation plus rapide car elle élimine le besoin de former le modèle sur un ensemble de données redondant avec des échantillons soumis à une rotation supplémentaire.