Operador de proyección

La transformación P es la proyección ortogonal sobre una recta m

En matemáticas, un operador de proyección P en un espacio vectorial es una transformación lineal idempotente, es decir, que satisface la igualdad P2 = P.[1]

Introducción

Dichas transformaciones proyectan cualquier punto x del espacio vectorial a un punto del subespacio imagen de la transformación. En caso de que x pertenezca al subespacio imagen, la proyección no tiene efecto, dejando el punto x fijo.[2]

Por ejemplo, el operador P definido en R3 de la forma siguiente

P ( x y z ) = ( x 0 z ) {\displaystyle P{\begin{pmatrix}x\\y\\z\end{pmatrix}}={\begin{pmatrix}x\\0\\z\end{pmatrix}}}

es un operador que "proyecta" el espacio R3 sobre el espacio de dimensión 2 que consiste de los vectores cuya coordenada y es cero.

Esta definición abstracta, de "proyector" o "proyección" generaliza la idea gráfica intuitiva de proyección extendiéndola a cualquier tipo de espacio vectorial, incluyendo el caso de dimensión infinita donde no resulta posible una aproximación gráfica.

Descomposición de un vector mediante una proyección

Sea V un espacio vectorial, P : V V {\displaystyle P:V\to V} una proyección e I : V V {\displaystyle I:V\to V} la aplicación identidad. Se verifica que Q=I-P es una proyección. Además, dado que P+Q=I todo vector puede ser descompuesto de la siguiente forma: x = P ( x ) + Q ( x ) = x 1 + x 2 {\displaystyle {\boldsymbol {x}}={\boldsymbol {P}}({\boldsymbol {x}})+{\boldsymbol {Q}}({\boldsymbol {x}})={\boldsymbol {x}}_{1}+{\boldsymbol {x}}_{2}} .[3]

Proyectores ortogonales o autoadjuntos

Artículo principal: Proyección ortogonal

Para pasar del concepto de «proyección» al de «proyección ortogonal» es preciso que exista un instrumento que nos diga si dos vectores son ortogonales, es decir, perpendiculares. Este instrumento es un producto interior definido en el espacio vectorial. Todo producto interior define una norma. El espacio vectorial puede ser o no completo respecto a ella. Si lo es, pasamos a hablar de un espacio de Hilbert. En este espacio, los conceptos «ortogonal» y «proyección ortogonal» están dotados plenamente de sentido.

En general, dado un subespacio vectorial W de un espacio V, existen muchas proyecciones sobre V. Si el espacio es un espacio de Hilbert y se exige además que el operador P sea un autoadjunto, es decir

P x , y = x , P y , x , y V {\displaystyle \langle Px,y\rangle =\langle x,Py\rangle ,\quad x,y\in V}

entonces la proyección sobre V es única. El término «operador de proyección ortogonal» significa «operador de proyección autoadjunto».

En física, el término «operador de proyección» es sinónimo con proyección ortogonal.

En álgebra lineal y análisis funcional, una proyección es un aplicación lineal P {\displaystyle P} de un espacio vectorial sobre sí mismo (un endomorfismo) tal que P P = P {\displaystyle P\circ P=P} . Es decir, siempre que P {\displaystyle P} se aplica dos veces a cualquier vector, se obtiene el mismo resultado que si se aplicara una vez (es decir, P {\displaystyle P} es idempotente). Expresado de otra manera, la imagen resultante queda sin cambios tras sucesivas aplicaciones.[2]​ Esta definición de proyección formaliza y generaliza la idea de proyección tridimensional. También se puede considerar el efecto de una proyección sobre un objeto geométrico examinando el efecto de la proyección sobre sus puntos.

Definiciones

Una proyección sobre un espacio vectorial V {\displaystyle V} es un operador lineal P : V V {\displaystyle P\colon V\to V} tal que P 2 = P {\displaystyle P^{2}=P} .

Cuando V {\displaystyle V} posee un producto interior y es completo, es decir, cuando V {\displaystyle V} es un espacio de Hilbert, se puede utilizar el concepto de ortogonalidad. Una proyección P {\displaystyle P} en un espacio de Hilbert V {\displaystyle V} se denomina proyección ortogonal si satisface P x , y = x , P y {\displaystyle \langle P\mathbf {x} ,\mathbf {y} \rangle =\langle \mathbf {x} ,P\mathbf {y} \rangle } para todo x , y V {\displaystyle \mathbf {x} ,\mathbf {y} \in V} . Una proyección sobre un espacio de Hilbert que no es ortogonal se denomina proyección oblicua.

Matriz de proyección

  • Una matriz cuadrada P {\displaystyle P} se llama matriz de proyección si es igual a su cuadrado,[4]: p. 38  es decir, si P 2 = P {\displaystyle P^{2}=P} .
  • Una matriz cuadrada P {\displaystyle P} se denomina matriz de proyección ortogonal si P 2 = P = P T {\displaystyle P^{2}=P=P^{\mathrm {T} }} para una matriz real y, respectivamente, P 2 = P = P {\displaystyle P^{2}=P=P^{*}} para una matriz compleja, donde P T {\displaystyle P^{\mathrm {T} }} denota la matriz transpuesta de P {\displaystyle P} y P {\displaystyle P^{*}} denota la matriz adjunta o traspuesta hermítica[4]: p. 223  de P {\displaystyle P} .
  • Una matriz de proyección que no es una matriz de proyección ortogonal se denomina matriz de proyección oblicua.

Los autovalores de una matriz de proyección deben ser 0 o 1.

Ejemplos

Proyección ortogonal

Artículo principal: Proyección ortogonal

Por ejemplo, la función que asigna el punto ( x , y , z ) {\displaystyle (x,y,z)} en el espacio tridimensional R 3 {\displaystyle \mathbb {R} ^{3}} al punto ( x , y , 0 ) {\displaystyle (x,y,0)} es una proyección ortogonal sobre el plano xy. Esta función está representada por la matriz.

P = [ 1 0 0 0 1 0 0 0 0 ] . {\displaystyle P={\begin{bmatrix}1&0&0\\0&1&0\\0&0&0\end{bmatrix}}.}

La acción de esta matriz sobre un vector arbitrario es

P [ x y z ] = [ x y 0 ] . {\displaystyle P{\begin{bmatrix}x\\y\\z\end{bmatrix}}={\begin{bmatrix}x\\y\\0\end{bmatrix}}.}

Para ver que P {\displaystyle P} es de hecho una proyección, es decir, P = P 2 {\displaystyle P=P^{2}} , se calcula

P 2 [ x y z ] = P [ x y 0 ] = [ x y 0 ] = P [ x y z ] . {\displaystyle P^{2}{\begin{bmatrix}x\\y\\z\end{bmatrix}}=P{\begin{bmatrix}x\\y\\0\end{bmatrix}}={\begin{bmatrix}x\\y\\0\end{bmatrix}}=P{\begin{bmatrix}x\\y\\z\end{bmatrix}}.}

Debe observarse que P T = P {\displaystyle P^{\mathrm {T} }=P} muestra que la proyección es una proyección ortogonal.

Proyección oblicua

Un ejemplo simple de una proyección no ortogonal (oblicua) es

P = [ 0 0 α 1 ] . {\displaystyle P={\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}.}

A través de multiplicación de matrices, se ve que

P 2 = [ 0 0 α 1 ] [ 0 0 α 1 ] = [ 0 0 α 1 ] = P . {\displaystyle P^{2}={\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}{\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}={\begin{bmatrix}0&0\\\alpha &1\end{bmatrix}}=P.}

mostrando que P {\displaystyle P} es de hecho una proyección.

La proyección P {\displaystyle P} es ortogonal si y solo si α = 0 {\displaystyle \alpha =0} porque solo entonces P T = P . {\displaystyle P^{\mathrm {T} }=P.}

Propiedades y clasificación

La transformación T es la proyección a lo largo de k sobre m. El rango de T es m y el núcleo es k

Idempotencia

Por definición, una proyección P {\displaystyle P} es idempotente (es decir, P 2 = P {\displaystyle P^{2}=P} ).

Aplicación abierta

Cada proyección es una aplicación abierta, lo que significa que asigna cada conjunto abierto de su dominio a un conjunto abierto en el subespacio topológico de la imagen. Es decir, para cualquier vector x {\displaystyle \mathbf {x} } y cualquier bola B x {\displaystyle B_{\mathbf {x} }} (con radio positivo) centrada en x {\displaystyle \mathbf {x} } , existe una bola B P x {\displaystyle B_{P\mathbf {x} }} (con radio positivo) centrada en P x {\displaystyle P\mathbf {x} } que está totalmente contenida en la imagen P ( B x ) {\displaystyle P(B_{\mathbf {x} })} .

Complementariedad de imagen y kernel

Sea W {\displaystyle W} un espacio vectorial de dimensión finita y sea P {\displaystyle P} una proyección sobre W {\displaystyle W} . Supóngase que los subespacios U {\displaystyle U} y V {\displaystyle V} son imagen y núcleo de P {\displaystyle P} respectivamente. Entonces, P {\displaystyle P} tiene las siguientes propiedades:

  1. P {\displaystyle P} es la función identidad I {\displaystyle I} en U {\displaystyle U} :
x U : P x = x . {\displaystyle \forall \mathbf {x} \in U:P\mathbf {x} =\mathbf {x} .}
  1. Existe la suma directa W = U V {\displaystyle W=U\oplus V} . Cada vector x W {\displaystyle \mathbf {x} \in W} puede descomponerse únicamente como x = u + v {\displaystyle \mathbf {x} =\mathbf {u} +\mathbf {v} } con u = P x {\displaystyle \mathbf {u} =P\mathbf {x} } y v = x P x = ( I P ) x {\displaystyle \mathbf {v} =\mathbf {x} -P\mathbf {x} =\left(I-P\right)\mathbf {x} } , y donde u U , v V . {\displaystyle \mathbf {u} \in U,\mathbf {v} \in V.}

La imagen y el núcleo de una proyección son complementarios, al igual que P {\displaystyle P} y Q = I P {\displaystyle Q=I-P} . El operador Q {\displaystyle Q} también es una proyección, ya que la imagen y el núcleo de P {\displaystyle P} se convierten en el núcleo y la imagen de Q {\displaystyle Q} y viceversa. Se dice que P {\displaystyle P} es una proyección en V {\displaystyle V} sobre U {\displaystyle U} (núcleo/imagen) y Q {\displaystyle Q} es una proyección en U {\displaystyle U} sobre V {\displaystyle V} .

Espectro

En espacios vectoriales de dimensión infinita, el espectro de una proyección está contenido en { 0 , 1 } {\displaystyle \{0,1\}} como

( λ I P ) 1 = 1 λ I + 1 λ ( λ 1 ) P . {\displaystyle (\lambda I-P)^{-1}={\frac {1}{\lambda }}I+{\frac {1}{\lambda (\lambda -1)}}P.}

Sólo 0 o 1 puede ser los valores propios de una proyección. Esto implica que una proyección ortogonal P {\displaystyle P} es siempre una matriz semidefinida positiva. En general, los espacios propios correspondientes son (respectivamente) el núcleo y el rango de la proyección. La descomposición de un espacio vectorial en sumas directas no es única. Por lo tanto, dado un subespacio V {\displaystyle V} , puede haber muchas proyecciones cuyo rango (o núcleo) sea V {\displaystyle V} .

Si una proyección no es trivial, tiene como polinomio mínimo x 2 x = x ( x 1 ) {\displaystyle x^{2}-x=x(x-1)} , que se descompone en distintos factores lineales y, por lo tanto, P {\displaystyle P} es diagonalizable.

Producto de proyecciones

El producto de proyecciones no es en general una proyección, aunque sean ortogonales. Si dos proyecciones conmutan entonces su producto es una proyección, pero el enunciado inverso es falso: el producto de dos proyecciones que no conmutan puede ser una proyección.

Si dos proyecciones ortogonales conmutan, entonces su producto es una proyección ortogonal. Si el producto de dos proyecciones ortogonales es una proyección ortogonal, entonces las dos proyecciones ortogonales conmutan (de manera más general: dos endomorfismo autoadjuntos conmutan si y solo si su producto es autoadjunto).

Proyecciones ortogonales

Artículos principales: Teorema de proyección de Hilbert y Subespacio complementado.

Cuando el espacio vectorial W {\displaystyle W} tiene un espacio prehilbertiano y está completo (es decir, es un espacio de Hilbert) se puede utilizar el concepto de ortogonalidad. Una proyección ortogonal se caracteriza porque el rango U {\displaystyle U} y el núcleo V {\displaystyle V} son subespacios ortogonales. Así, por cada x {\displaystyle \mathbf {x} } y y {\displaystyle \mathbf {y} } en W {\displaystyle W} , P x , ( y P y ) = ( x P x ) , P y = 0 {\displaystyle \langle P\mathbf {x} ,(\mathbf {y} -P\mathbf {y} )\rangle =\langle (\mathbf {x} -P\mathbf {x} ),P\mathbf {y} \rangle =0} .

Equivalentemente:

x , P y = P x , P y = P x , y . {\displaystyle \langle \mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,\mathbf {y} \rangle .}

Una proyección es ortogonal si y solo si es autoadjunta. Usando las propiedades de ser autoadjunta e idempotente de P {\displaystyle P} , para cualquier x {\displaystyle \mathbf {x} } y y {\displaystyle \mathbf {y} } en W {\displaystyle W} se tiene que P x U {\displaystyle P\mathbf {x} \in U} , y P y V {\displaystyle \mathbf {y} -P\mathbf {y} \in V} y

P x , y P y = x , ( P P 2 ) y = 0 {\displaystyle \langle P\mathbf {x} ,\mathbf {y} -P\mathbf {y} \rangle =\langle \mathbf {x} ,\left(P-P^{2}\right)\mathbf {y} \rangle =0}

donde , {\displaystyle \langle \cdot ,\cdot \rangle } es el producto interno asociado con W {\displaystyle W} . Por tanto, P {\displaystyle P} y I P {\displaystyle I-P} son proyecciones ortogonales.[5]​ La relación en sentido contrario, es decir, que si P {\displaystyle P} es ortogonal, entonces es autoadjunta; se sigue de la implicación de ( x P x ) , P y = P x , ( y P y ) = 0 {\displaystyle \langle (\mathbf {x} -P\mathbf {x} ),P\mathbf {y} \rangle =\langle P\mathbf {x} ,(\mathbf {y} -P\mathbf {y} )\rangle =0} a

x , P y = P x , P y = P x , y = x , P y {\displaystyle \langle \mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,P\mathbf {y} \rangle =\langle P\mathbf {x} ,\mathbf {y} \rangle =\langle \mathbf {x} ,P^{*}\mathbf {y} \rangle }

para cada x {\displaystyle x} y y {\displaystyle y} en W {\displaystyle W} ; y por lo tanto P = P {\displaystyle P=P^{*}} .

La existencia de una proyección ortogonal sobre un subespacio cerrado se desprende del teorema de proyección de Hilbert.

Propiedades y casos especiales

Una proyección ortogonal es un operador lineal acotado. Esto se debe a que para cada v {\displaystyle \mathbf {v} } en el espacio vectorial se tiene que, por la desigualdad de Cauchy-Bunyakovsky-Schwarz:

P v 2 = P v , P v = P v , v P v v {\displaystyle \left\|P\mathbf {v} \right\|^{2}=\langle P\mathbf {v} ,P\mathbf {v} \rangle =\langle P\mathbf {v} ,\mathbf {v} \rangle \leq \left\|P\mathbf {v} \right\|\cdot \left\|\mathbf {v} \right\|}

Así, P v v {\displaystyle \left\|P\mathbf {v} \right\|\leq \left\|\mathbf {v} \right\|} .

Para espacios vectoriales reales o complejos de dimensión finita, el producto escalar se puede sustituir por , {\displaystyle \langle \cdot ,\cdot \rangle } .

Fórmulas

Un caso simple ocurre cuando la proyección ortogonal es sobre una recta. Si u {\displaystyle \mathbf {u} } es un vector unitario en la recta, entonces la proyección viene dada por el producto exterior

P u = u u T . {\displaystyle P_{\mathbf {u} }=\mathbf {u} \mathbf {u} ^{\mathsf {T}}.}

(si u {\displaystyle \mathbf {u} } tiene un valor complejo, la traspuesta en la ecuación anterior se reemplaza por una transpuesta hermítica). Este operador deja invariante u y anula todos los vectores ortogonales a u {\displaystyle \mathbf {u} } , lo que demuestra que de hecho es la proyección ortogonal sobre la línea recta que contiene a u.[6]​ Una forma sencilla de ver esto es considerar un vector arbitrario x {\displaystyle \mathbf {x} } como la suma de una componente de la recta (es decir, el vector proyectado que buscamos) y otra perpendicular a ella, x = x + x {\displaystyle \mathbf {x} =\mathbf {x} _{\parallel }+\mathbf {x} _{\perp }} . Aplicando la proyección se obtiene

P u x = u u T x + u u T x = u ( sgn ( u T x ) x ) + u 0 = x {\displaystyle P_{\mathbf {u} }\mathbf {x} =\mathbf {u} \mathbf {u} ^{\mathsf {T}}\mathbf {x} _{\parallel }+\mathbf {u} \mathbf {u} ^{\mathsf {T}}\mathbf {x} _{\perp }=\mathbf {u} \left(\operatorname {sgn} \left(\mathbf {u} ^{\mathsf {T}}\mathbf {x} _{\parallel }\right)\left\|\mathbf {x} _{\parallel }\right\|\right)+\mathbf {u} \cdot \mathbf {0} =\mathbf {x} _{\parallel }}

por las propiedades del producto escalar de vectores paralelos y perpendiculares.

Esta fórmula se puede generalizar a proyecciones ortogonales en un subespacio de dimensión arbitraria. Sea u 1 , , u k {\displaystyle \mathbf {u} _{1},\ldots ,\mathbf {u} _{k}} una base ortonormal del subespacio U {\displaystyle U} , asumiendo que el número entero k 1 {\displaystyle k\geq 1} , y sea A {\displaystyle A} la matriz n × k {\displaystyle n\times k} cuyas columnas son u 1 , , u k {\displaystyle \mathbf {u} _{1},\ldots ,\mathbf {u} _{k}} , es decir, A = [ u 1 u k ] {\displaystyle A={\begin{bmatrix}\mathbf {u} _{1}&\cdots &\mathbf {u} _{k}\end{bmatrix}}} . Entonces, la proyección viene dada por:[7]

P A = A A T {\displaystyle P_{A}=AA^{\mathsf {T}}}

que se puede reescribir como

P A = i u i , u i . {\displaystyle P_{A}=\sum _{i}\langle \mathbf {u} _{i},\cdot \rangle \mathbf {u} _{i}.}

La matriz A T {\displaystyle A^{\mathsf {T}}} es la isometria parcial que desaparece en el complemento ortogonal de U {\displaystyle U} , y A {\displaystyle A} es la isometría que embebe a U {\displaystyle U} en el espacio vectorial subyacente. Por tanto, el rango de P A {\displaystyle P_{A}} es el espacio final de A {\displaystyle A} . También está claro que A A T {\displaystyle AA^{\mathsf {T}}} es el operador de identidad en U {\displaystyle U} .

También se puede eliminar la condición de ortonormalidad. Si u 1 , , u k {\displaystyle \mathbf {u} _{1},\ldots ,\mathbf {u} _{k}} es una base (no necesariamente ortonormal) con k 1 {\displaystyle k\geq 1} , y A {\displaystyle A} es la matriz con estos vectores como columnas, entonces la proyección es:[8][9]

P A = A ( A T A ) 1 A T . {\displaystyle P_{A}=A\left(A^{\mathsf {T}}A\right)^{-1}A^{\mathsf {T}}.}

La matriz A {\displaystyle A} todavía incorpora U {\displaystyle U} en el espacio vectorial subyacente pero ya no es una isometría en general. La matriz ( A T A ) 1 {\displaystyle \left(A^{\mathsf {T}}A\right)^{-1}} es un factor normalizador que recupera la norma. Por ejemplo, el operador u u T {\displaystyle \mathbf {u} \mathbf {u} ^{\mathsf {T}}} de rango-1 no es una proyección si u 1. {\displaystyle \left\|\mathbf {u} \right\|\neq 1.} . Después de dividir por u T u = u 2 , {\displaystyle \mathbf {u} ^{\mathsf {T}}\mathbf {u} =\left\|\mathbf {u} \right\|^{2},} se obtiene la proyección u ( u T u ) 1 u T {\displaystyle \mathbf {u} \left(\mathbf {u} ^{\mathsf {T}}\mathbf {u} \right)^{-1}\mathbf {u} ^{\mathsf {T}}} sobre el subespacio abarcado por u {\displaystyle u} .

En el caso general, se puede tener una matriz positiva definida arbitraria D {\displaystyle D} que define un producto interno x , y D = y D x {\displaystyle \langle x,y\rangle _{D}=y^{\dagger }Dx} , y la proyección P A {\displaystyle P_{A}} viene dada por P A x = argmin y range ( A ) x y D 2 {\textstyle P_{A}x=\operatorname {argmin} _{y\in \operatorname {range} (A)}\left\|x-y\right\|_{D}^{2}} . Entonces

P A = A ( A T D A ) 1 A T D . {\displaystyle P_{A}=A\left(A^{\mathsf {T}}DA\right)^{-1}A^{\mathsf {T}}D.}

Cuando el espacio de rango de la proyección es generado por un marco (es decir, el número de generadores es mayor que su dimensión), la fórmula para la proyección toma la forma: P A = A A + {\displaystyle P_{A}=AA^{+}} . Aquí A + {\displaystyle A^{+}} represnta la matriz pseudoinversa de Moore-Penrose. Esta es solo una de las muchas formas de construir el operador de proyección.

Si [ A B ] {\displaystyle {\begin{bmatrix}A&B\end{bmatrix}}} es una matriz no singular y A T B = 0 {\displaystyle A^{\mathsf {T}}B=0} (es decir, B {\displaystyle B} es la matriz núcleo de A {\displaystyle A} ),[10]​ se cumple lo siguiente:

I = [ A B ] [ A B ] 1 [ A T B T ] 1 [ A T B T ] = [ A B ] ( [ A T B T ] [ A B ] ) 1 [ A T B T ] = [ A B ] [ A T A O O B T B ] 1 [ A T B T ] = A ( A T A ) 1 A T + B ( B T B ) 1 B T {\displaystyle {\begin{aligned}I&={\begin{bmatrix}A&B\end{bmatrix}}{\begin{bmatrix}A&B\end{bmatrix}}^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}\\&={\begin{bmatrix}A&B\end{bmatrix}}\left({\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}{\begin{bmatrix}A&B\end{bmatrix}}\right)^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}\\&={\begin{bmatrix}A&B\end{bmatrix}}{\begin{bmatrix}A^{\mathsf {T}}A&O\\O&B^{\mathsf {T}}B\end{bmatrix}}^{-1}{\begin{bmatrix}A^{\mathsf {T}}\\B^{\mathsf {T}}\end{bmatrix}}\\[4pt]&=A\left(A^{\mathsf {T}}A\right)^{-1}A^{\mathsf {T}}+B\left(B^{\mathsf {T}}B\right)^{-1}B^{\mathsf {T}}\end{aligned}}}

Si la condición ortogonal se mejora a A T W B = A T W T B = 0 {\displaystyle A^{\mathsf {T}}WB=A^{\mathsf {T}}W^{\mathsf {T}}B=0} con W {\displaystyle W} no singular, se cumple lo siguiente:

I = [ A B ] [ ( A T W A ) 1 A T ( B T W B ) 1 B T ] W . {\displaystyle I={\begin{bmatrix}A&B\end{bmatrix}}{\begin{bmatrix}\left(A^{\mathsf {T}}WA\right)^{-1}A^{\mathsf {T}}\\\left(B^{\mathsf {T}}WB\right)^{-1}B^{\mathsf {T}}\end{bmatrix}}W.}

Todas estas fórmulas también son válidas para espacios con productos internos complejos, siempre que se utilice la matriz traspuesta conjugada en lugar de la traspuesta. Se pueden encontrar más detalles sobre las sumas de las proyecciones en Banerjee y Roy (2014).[8]​ Véase también Banerjee (2004)[11]​ para la aplicación de sumas de proyecciones en trigonometría esférica básica.

Proyecciones oblicuas

El término proyecciones oblicuas se utiliza a veces para referirse a proyecciones no ortogonales. Estas proyecciones también se utilizan para representar figuras espaciales en dibujos bidimensionales (véase proyección oblicua), aunque no con tanta frecuencia como las proyecciones ortogonales. Mientras que calcular el valor ajustado de una regresión mínimos cuadrados ordinarios requiere una proyección ortogonal, calcular el valor ajustado de una regresión variable instrumental requiere una proyección oblicua.

Una proyección se define por su núcleo y los vectores base utilizados para caracterizar su rango (que es un complemento del núcleo). Cuando estos vectores base son ortogonales al núcleo, entonces la proyección es ortogonal. Cuando estos vectores base no son ortogonales al núcleo, la proyección es una proyección oblicua, o simplemente una proyección.

Fórmula de representación matricial para un operador de proyección distinto de cero

Sea P {\displaystyle P} un operador lineal, P : V V , {\displaystyle P:V\to V,} tal que P 2 = P {\displaystyle P^{2}=P} y supóngase que P : V V {\displaystyle P:V\to V} no es el operador cero. Ahora, se considera que los vectores u 1 , , u k {\displaystyle \mathbf {u} _{1},\ldots ,\mathbf {u} _{k}} forman una base para el rango de P {\displaystyle P} , que se representan en la matriz A {\displaystyle A} de orden n × k {\displaystyle n\times k} . Por lo tanto, el número entero k 1 {\displaystyle k\geq 1} ; de lo contrario, k = 0 {\displaystyle k=0} y P {\displaystyle P} es el operador cero. El rango y el núcleo son espacios complementarios, por lo que el núcleo tiene dimensión n k {\displaystyle n-k} . De ello se deduce que el complemento ortogonal del núcleo tiene la dimensión k {\displaystyle k} . Sea v 1 , , v k {\displaystyle \mathbf {v} _{1},\ldots ,\mathbf {v} _{k}} una base para el complemento ortogonal del núcleo de la proyección, represéntesen estos vectores en la matriz B {\displaystyle B} . Entonces, la proyección P {\displaystyle P} (con la condición k 1 {\displaystyle k\geq 1} ) viene dada por

P = A ( B T A ) 1 B T . {\displaystyle P=A\left(B^{\mathsf {T}}A\right)^{-1}B^{\mathsf {T}}.}

Esta expresión generaliza la fórmula para proyecciones ortogonales dada anteriormente.[8][12]​ Una prueba estándar de esta expresión es la siguiente. Para cualquier vector x {\displaystyle \mathbf {x} } en el espacio vectorial V {\displaystyle V} , se puede descomponer x = x 1 + x 2 {\displaystyle \mathbf {x} =\mathbf {x} _{1}+\mathbf {x} _{2}} , donde el vector x 1 = P ( x ) {\displaystyle \mathbf {x} _{1}=P(\mathbf {x} )} está en la imagen de P {\displaystyle P} y el vector x 2 = x P ( x ) . {\displaystyle \mathbf {x} _{2}=\mathbf {x} -P(\mathbf {x} ).} Entonces P ( x 2 ) = P ( x ) P 2 ( x ) = 0 {\displaystyle P(\mathbf {x} _{2})=P(\mathbf {x} )-P^{2}(\mathbf {x} )=\mathbf {0} } , y entonces x 2 {\displaystyle \mathbf {x} _{2}} está en el núcleo de P {\displaystyle P} , que es el espacio nulo de A . {\displaystyle A.} En otras palabras, el vector x 1 {\displaystyle \mathbf {x} _{1}} está en el espacio de columnas de A , {\displaystyle A,} , por lo que x 1 = A w {\displaystyle \mathbf {x} _{1}=A\mathbf {w} } para algún vector de dimensión k {\displaystyle k} w {\displaystyle \mathbf {w} } y el vector x 2 {\displaystyle \mathbf {x} _{2}} satisface B T x 2 = 0 {\displaystyle B^{\mathsf {T}}\mathbf {x} _{2}=\mathbf {0} } mediante la construcción de B {\displaystyle B} . Uniendo estas condiciones se encuentra un vector w {\displaystyle \mathbf {w} } tal que B T ( x A w ) = 0 {\displaystyle B^{\mathsf {T}}(\mathbf {x} -A\mathbf {w} )=\mathbf {0} } . Dado que las matrices A {\displaystyle A} y B {\displaystyle B} tienen el rango completo k {\displaystyle k} por su construcción, la matriz k × k {\displaystyle k\times k} B T A {\displaystyle B^{\mathsf {T}}A} es invertible. Entonces la ecuación B T ( x A w ) = 0 {\displaystyle B^{\mathsf {T}}(\mathbf {x} -A\mathbf {w} )=\mathbf {0} } da el vector w = ( B T A ) 1 B T x . {\displaystyle \mathbf {w} =(B^{\mathsf {T}}A)^{-1}B^{\mathsf {T}}\mathbf {x} .} . De esta manera, P x = x 1 = A w = A ( B T A ) 1 B T x {\displaystyle P\mathbf {x} =\mathbf {x} _{1}=A\mathbf {w} =A(B^{\mathsf {T}}A)^{-1}B^{\mathsf {T}}\mathbf {x} } para cualquier vector x V {\displaystyle \mathbf {x} \in V} y por lo tanto P = A ( B T A ) 1 B T {\displaystyle P=A(B^{\mathsf {T}}A)^{-1}B^{\mathsf {T}}} .

En el caso de que P {\displaystyle P} sea una proyección ortogonal, se puede tomar A = B {\displaystyle A=B} , y se deduce que P = A ( A T A ) 1 A T {\displaystyle P=A\left(A^{\mathsf {T}}A\right)^{-1}A^{\mathsf {T}}} . Al utilizar esta fórmula, se puede comprobar fácilmente que P = P T {\displaystyle P=P^{\mathsf {T}}} . En general, si el espacio vectorial está definido sobre el cuerpo de los números complejos, se usa la matriz traspuesta conjugada A {\displaystyle A^{*}} , y se obtiene la fórmula P = A ( A A ) 1 A {\displaystyle P=A\left(A^{*}A\right)^{-1}A^{*}} . Recuérdese que se puede definir la matriz pseudoinversa de Moore-Penrose de la matriz A {\displaystyle A} por A + = ( A A ) 1 A {\displaystyle A^{+}=(A^{*}A)^{-1}A^{*}} , ya que A {\displaystyle A} tiene rango de columna completo, y por lo tanto P = A A + {\displaystyle P=AA^{+}} .

Valores singulares

Téngase en cuenta que I P {\displaystyle I-P} también es una proyección oblicua. Los valores singulares de P {\displaystyle P} e I P {\displaystyle I-P} se pueden calcular mediante una base ortonormal de A {\displaystyle A} .

Sea Q A {\displaystyle Q_{A}} una base ortonormal de A {\displaystyle A} y sea Q A {\displaystyle Q_{A}^{\perp }} el complemento ortogonal de Q A {\displaystyle Q_{A}} . Ahora, se denotan los valores singulares de la matriz Q A T A ( B T A ) 1 B T Q A {\displaystyle Q_{A}^{T}A(B^{T}A)^{-1}B^{T}Q_{A}^{\perp }} mediante los valores positivos γ 1 γ 2 γ k {\displaystyle \gamma _{1}\geq \gamma _{2}\geq \ldots \geq \gamma _{k}} . Con esto, los valores singulares para P {\displaystyle P} son:[13]

σ i = { 1 + γ i 2 1 i k 0 en caso contrario {\displaystyle \sigma _{i}={\begin{cases}{\sqrt {1+\gamma _{i}^{2}}}&1\leq i\leq k\\0&{\text{en caso contrario}}\end{cases}}}

y los valores singulares para I P {\displaystyle I-P} son

σ i = { 1 + γ i 2 1 i k 1 k + 1 i n k 0 en caso contrario {\displaystyle \sigma _{i}={\begin{cases}{\sqrt {1+\gamma _{i}^{2}}}&1\leq i\leq k\\1&k+1\leq i\leq n-k\\0&{\text{en caso contrario}}\end{cases}}}

Esto implica que los valores singulares más grandes de P {\displaystyle P} e ( I P ) {\displaystyle (I-P)} son iguales y, por lo tanto, que la norma matricial de las proyecciones oblicuas es la misma. Sin embargo, su número de condición satisface la relación κ ( I P ) = σ 1 1 σ 1 σ k = κ ( P ) {\displaystyle \kappa (I-P)={\frac {\sigma _{1}}{1}}\geq {\frac {\sigma _{1}}{\sigma _{k}}}=\kappa (P)} y, por lo tanto, no es necesariamente igual.

Determinar una proyección con un producto interno

Sea V {\displaystyle V} un espacio vectorial (en este caso un plano) abarcado por vectores ortogonales u 1 , u 2 , , u p {\displaystyle \mathbf {u} _{1},\mathbf {u} _{2},\dots ,\mathbf {u} _{p}} . Sea y {\displaystyle y} un vector. Se puede definir una proyección de y {\displaystyle \mathbf {y} } sobre V {\displaystyle V} como

proj V y = y u i u i u i u i {\displaystyle \operatorname {proj} _{V}\mathbf {y} ={\frac {\mathbf {y} \cdot \mathbf {u} ^{i}}{\mathbf {u} ^{i}\cdot \mathbf {u} ^{i}}}\mathbf {u} ^{i}}

donde los índices repetidos se suman (de acuerdo con el convenio de suma de Einstein). El vector y {\displaystyle \mathbf {y} } se puede escribir como una suma ortogonal tal que y = proj V y + z {\displaystyle \mathbf {y} =\operatorname {proj} _{V}\mathbf {y} +\mathbf {z} } . proj V y {\displaystyle \operatorname {proj} _{V}\mathbf {y} } a veces se denomina y ^ {\displaystyle {\hat {\mathbf {y} }}} . Hay un teorema en álgebra lineal que establece que este z {\displaystyle \mathbf {z} } es la distancia más pequeña (la distancia ortogonal) de y {\displaystyle \mathbf {y} } a V {\displaystyle V} y se usa comúnmente en áreas como el aprendizaje automático.

y proyectado en el espacio vectorial V

Formas canónicas

Cualquier proyección P = P 2 {\displaystyle P=P^{2}} sobre un espacio vectorial de dimensión d {\displaystyle d} sobre un cuerpo es una matriz diagonalizable, ya que su polinomio mínimo divide a x 2 x {\displaystyle x^{2}-x} , que se divide en distintos factores lineales. Por lo tanto, existe una base en la que P {\displaystyle P} tiene la forma

P = I r 0 d r {\displaystyle P=I_{r}\oplus 0_{d-r}}

donde r {\displaystyle r} es el rango de P {\displaystyle P} . Aquí, I r {\displaystyle I_{r}} es la matriz identidad de tamaño r {\displaystyle r} , 0 d r {\displaystyle 0_{d-r}} es la matriz cero de tamaño d r {\displaystyle d-r} y {\displaystyle \oplus } es el operador suma directa. Si el espacio vectorial es complejo y está equipado con un espacio prehilbertiano, entonces existe una base ortonormal en la que la matriz de P es[14]

P = [ 1 σ 1 0 0 ] [ 1 σ k 0 0 ] I m 0 s . {\displaystyle P={\begin{bmatrix}1&\sigma _{1}\\0&0\end{bmatrix}}\oplus \cdots \oplus {\begin{bmatrix}1&\sigma _{k}\\0&0\end{bmatrix}}\oplus I_{m}\oplus 0_{s}.}

donde σ 1 σ 2 σ k > 0 {\displaystyle \sigma _{1}\geq \sigma _{2}\geq \dots \geq \sigma _{k}>0} . Los números enteros k , s , m {\displaystyle k,s,m} y los números reales σ i {\displaystyle \sigma _{i}} están determinados de forma única. Téngase en cuenta que 2 k + s + m = d {\displaystyle 2k+s+m=d} . El factor I m 0 s {\displaystyle I_{m}\oplus 0_{s}} corresponde al subespacio invariante máximo en el que P {\displaystyle P} actúa como una proyección ortogonal (de modo que P es ortogonal si y solo si k = 0 {\displaystyle k=0} ) y los bloques σ i {\displaystyle \sigma _{i}} corresponden a las componentes oblicuas.

Proyecciones sobre espacios vectoriales normados

Cuando el espacio vectorial subyacente X {\displaystyle X} es un espacio vectorial normado (no necesariamente de dimensión finita), es necesario considerar cuestiones analíticas, irrelevantes en el caso de dimensión finita. Supóngase ahora que X {\displaystyle X} es un espacio de Banach.

Muchos de los resultados algebraicos discutidos anteriormente se conservan en este nuevo contexto. Una descomposición de suma directa dada de X {\displaystyle X} en subespacios complementarios todavía especifica una proyección, y viceversa. Si X {\displaystyle X} es la suma directa X = U V {\displaystyle X=U\oplus V} , entonces el operador definido por P ( u + v ) = u {\displaystyle P(u+v)=u} sigue siendo una proyección con rango U {\displaystyle U} y núcleo V {\displaystyle V} . También está claro que P 2 = P {\displaystyle P^{2}=P} . Por el contrario, si P {\displaystyle P} es una proyección sobre X {\displaystyle X} , es decir, P 2 = P {\displaystyle P^{2}=P} , entonces se verifica fácilmente que ( 1 P ) 2 = ( 1 P ) {\displaystyle (1-P)^{2}=(1-P)} . En otras palabras, 1 P {\displaystyle 1-P} también es una proyección. La relación P 2 = P {\displaystyle P^{2}=P} implica que 1 = P + ( 1 P ) {\displaystyle 1=P+(1-P)} y X {\displaystyle X} es la suma directa rg ( P ) rg ( 1 P ) {\displaystyle \operatorname {rg} (P)\oplus \operatorname {rg} (1-P)} .

Sin embargo, a diferencia del caso de dimensión finita, las proyecciones no necesitan ser continuas en general. Si un subespacio U {\displaystyle U} de X {\displaystyle X} no está cerrado en la topología normal, entonces la proyección sobre U {\displaystyle U} no es continua. En otras palabras, el rango de una proyección continua P {\displaystyle P} debe ser un subespacio cerrado. Además, el núcleo de una proyección continua (de hecho, un operador lineal continuo en general) es cerrado. Así, una proyección continua P {\displaystyle P} da una descomposición de X {\displaystyle X} en dos subespacios cerrados complementarios: X = rg ( P ) ker ( P ) = ker ( 1 P ) ker ( P ) {\displaystyle X=\operatorname {rg} (P)\oplus \ker(P)=\ker(1-P)\oplus \ker(P)} .

Lo contrario también es válido, con un supuesto adicional. Supóngase que U {\displaystyle U} es un subespacio cerrado de X {\displaystyle X} . Si existe un subespacio cerrado V {\displaystyle V} tal que X= UV, entonces la proyección P {\displaystyle P} con rango U {\displaystyle U} y núcleo V {\displaystyle V} es continua. Esto se desprende del teorema de la gráfica cerrada. Supóngase también que xnx y Pxny. Es necesario demostrar que P x = y {\displaystyle Px=y} . Dado que U {\displaystyle U} es cerrado y {Pxn} ⊂ U, y se encuentra en U {\displaystyle U} , es decir, Py= y. Además, xnPxn= (IP)xnxy. Debido a que V {\displaystyle V} está cerrado y {(IP)xn} ⊂ V, se tiene que x y V {\displaystyle x-y\in V} , es decir, P ( x y ) = P x P y = P x y = 0 {\displaystyle P(x-y)=Px-Py=Px-y=0} , lo que prueba la afirmación.

El argumento anterior hace uso del supuesto de que tanto U {\displaystyle U} como V {\displaystyle V} están cerrados. En general, dado un subespacio cerrado U {\displaystyle U} , no es necesario que exista un subespacio cerrado complementario V {\displaystyle V} , aunque para un espacio de Hilbert esto siempre se puede hacer tomando el complemento ortogonal. Para los espacios de Banach, un subespacio unidimensional siempre tiene un subespacio complementario cerrado. Esta es una consecuencia inmediata del teorema de Hahn–Banach. Sea U {\displaystyle U} el tramo lineal de u {\displaystyle u} . Por el mencionado teorema de Hahn-Banach, existe una funcional lineal φ {\displaystyle \varphi } acotada tal que φ(u)= 1. El operador P ( x ) = φ ( x ) u {\displaystyle P(x)=\varphi (x)u} satisface que P 2 = P {\displaystyle P^{2}=P} , es decir, es una proyección. La acotación de φ {\displaystyle \varphi } implica continuidad de P {\displaystyle P} y, por lo tanto, ker ( P ) = rg ( I P ) {\displaystyle \ker(P)=\operatorname {rg} (I-P)} es un subespacio complementario cerrado de U {\displaystyle U} .

Aplicaciones y consideraciones adicionales

Las proyecciones (ortogonales y de otro tipo) juegan un papel importante en la algoritmia para ciertos problemas de álgebra lineal:

Como se indicó anteriormente, las proyecciones son un caso especial de idempotencia. Analíticamente, las proyecciones ortogonales son generalizaciones no conmutativas de funciones características. La idempotencia se utiliza para clasificar, por ejemplo, álgebras semisimples, mientras que la teoría de medida comienza considerando las funciones características de los conjuntos mdibles. Por lo tanto, como se puede imaginar, las proyecciones se encuentran muy a menudo en el contexto del álgebra de operadores. En particular, un álgebra de von Neumann se genera por su retículo completo de proyecciones.

Generalizaciones

De manera más general, dada una aplicación entre espacios vectoriales normados T : V W , {\displaystyle T\colon V\to W,} , se puede pedir de manera análoga que esta aplicación sea una isometría en el complemento ortogonal del núcleo: que ( ker T ) W {\displaystyle (\ker T)^{\perp }\to W} sea una isometría (compárese con una isometría parcial); y en particular debe ser sobreyectiva. El caso de una proyección ortogonal es cuando W es un subespacio de V. En la geometría de Riemann, esto se utiliza en la definición de submersión riemanniana.

Véase también

  • Matriz de centrado, que es un ejemplo de matriz de proyección.
  • Algoritmo de proyección de Dykstra para calcular la proyección sobre una intersección de conjuntos
  • Subespacio invariante
  • Análisis espectral de mínimos cuadrados
  • Ortogonalización
  • Propiedades de la traza

Referencias

  1. "Basic methods of linear Functional Analysis" J.D. Pryce. Hutchinson University Library. Página 150
  2. a b Meyer, pp 386+387
  3. "Basic methods of linear functional analysis" J.D. Pryce. Hutchinson University Library. Página 150.
  4. a b Horn, Roger A.; Johnson, Charles R. (2013). Matrix Analysis, second edition. Cambridge University Press. ISBN 9780521839402. 
  5. Meyer, p. 433
  6. Meyer, p. 431
  7. Meyer, equation (5.13.4)
  8. a b c Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st edición), Chapman and Hall/CRC, ISBN 978-1420095388 .
  9. Meyer, equation (5.13.3)
  10. Véase también Mínimos cuadrados lineales (matemáticas) § Propiedades de los estimadores de mínimos cuadrados.
  11. Banerjee, Sudipto (2004), «Revisiting Spherical Trigonometry with Orthogonal Projectors», The College Mathematics Journal 35 (5): 375-381, S2CID 122277398, doi:10.1080/07468342.2004.11922099 .
  12. Meyer, equation (7.10.39)
  13. Brust, J. J.; Marcia, R. F.; Petra, C. G. (2020), «Computationally Efficient Decompositions of Oblique Projection Matrices», SIAM Journal on Matrix Analysis and Applications 41 (2): 852-870, OSTI 1680061, S2CID 219921214, doi:10.1137/19M1288115 .
  14. Doković, D. Ž. (August 1991). «Unitary similarity of projectors». Aequationes Mathematicae 42 (1): 220-224. S2CID 122704926. doi:10.1007/BF01818492. 

Bibliografía

  • Banerjee, Sudipto; Roy, Anindya (2014), Linear Algebra and Matrix Analysis for Statistics, Texts in Statistical Science (1st edición), Chapman and Hall/CRC, ISBN 978-1420095388 .
  • Dunford, N.; Schwartz, J. T. (1958). Linear Operators, Part I: General Theory. Interscience. 
  • Meyer, Carl D. (2000). Matrix Analysis and Applied Linear Algebra. Society for Industrial and Applied Mathematics. ISBN 978-0-89871-454-8. 

Enlaces externos

  • MIT Linear Algebra Lecture on Projection Matrices en YouTube., del MIT OpenCourseWare
  • Linear Algebra 15d: The Projection Transformation en YouTube., por Pavel Grinfeld.
  • Tutorial de proyecciones geométricas planas Archivado el 4 de marzo de 2016 en Wayback Machine. – un tutorial fácil de seguir que explica los diferentes tipos de proyecciones geométricas planas.
  • MIT Linear Algebra Lecture on Projection Matrices at Google Video, from MIT OpenCourseWare
  • Planar Geometric Projections Tutorial - a simple-to-follow tutorial explaining the different types of planar geometric projections.
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q519967
  • Wd Datos: Q519967