¿Qué es Deep Learning AF: cómo funciona el enfoque automático impulsado por IA de Canon?

Canon ha hecho mucho ruido sobre su nuevo sistema AF de aprendizaje profundo, que se encuentra en el corazón de la última cámara profesional insignia del fabricante. Suena increíblemente inteligente, pero hay muchas preguntas: ¿qué es el aprendizaje profundo? ¿Quién imparte la enseñanza? ¿El sistema aprende mientras dispara? ¿Es realmente inteligencia artificial en una cámara? ¿Realmente mejora el enfoque automático?

Si ha leído nuestra revisión de Canon EOS-1D X Mark III, sabrá que la respuesta a la última pregunta es un rotundo sí. En cuanto a las respuestas a las otras preguntas sobre Deep Learning AF, tómate una bebida y un refrigerio y sigue leyendo …

La mecánica de enfoque automático de la Canon EOS-1D X Mark III es increíblemente inteligente y admite dos sistemas AF individuales. Primero está el sistema óptico, que dispara 16 fotogramas por segundo a través del visor, utilizando un sensor de medición de 400.000 píxeles junto con un procesador Digic 8 dedicado, para un AF de 191 puntos con capacidad de seguimiento facial.

Luego está el sistema Live View, capaz de disparar 20 cuadros por segundo, empleando los 20.1 millones de píxeles del sensor de imagen combinado con el nuevo procesador Digic X, para 3869 puntos CMOS de doble píxel que pueden realizar AF de detección de ojo completo.

El motor de estos dos sistemas es la tecnología EOS iTR AFX central de Canon, la última versión de su enfoque automático de reconocimiento y seguimiento inteligente, que debutó en la EOS-1D X original (y posteriormente llegó a la familia 7D Mark II y 5D). Y enterrado dentro de sus circuitos está el algoritmo de aprendizaje profundo.

El aprendizaje profundo NO es lo mismo que la IA

En primer lugar, es importante aclarar que el Deep Learning no debe confundirse con la inteligencia artificial (IA). Un sistema de IA es algo que se encuentra en un estado de desarrollo continuo. El aprendizaje profundo, o aprendizaje automático, es un subconjunto de la inteligencia artificial.

A diferencia de la verdadera IA, el aprendizaje profundo es un proceso cerrado. Es un algoritmo de preensamblaje que permite que la arquitectura de la cámara se enseñe esencialmente a sí misma, mucho más rápido de lo que podría ser programado manualmente por ingenieros humanos. Una vez que se ha completado este aprendizaje, se bloquea y se carga en la cámara.

A partir de ese punto, ya no es posible aprender más; a pesar del nombre, y Deep Learning es el nombre de la tecnología, no una descripción del proceso, la cámara no está aprendiendo constantemente y no mejorará cuanto más dispares (de hecho, un verdadero sistema de IA aprendería como muchos de sus malos hábitos como de los buenos!).

"Se ha enseñado", explica Mike Burnhill, director de soporte técnico de Canon Europa. "Lo pones en una computadora, crea el algoritmo que luego se carga en la cámara. Por lo tanto, es diferente de la IA: la IA es un aprendizaje continuo; el aprendizaje profundo es básicamente, se enseña a sí mismo y te da un resultado final que luego se carga en la cámara ".

Lo que plantea la pregunta: con tantas empresas que gritan sobre las funciones basadas en inteligencia artificial, ¿es una cámara realmente capaz de admitir inteligencia artificial?

"La potencia de procesamiento para hacer una verdadera IA no es factible en una cámara", dice Burnhill. "Si quieres hacer eso, hay teléfonos, pero los datos no están en tu teléfono, están en Silicon Valley. Ahí es donde está el sistema de inteligencia artificial. Es solo que la conexión de tu teléfono se conecta a él, no está aquí, está allí (en la nube), porque necesitas un servidor. Podríamos hacer una cámara, pero estarías cargando un estuche de vuelo gigante contigo todo el tiempo ".

¿Cómo se enseña el aprendizaje profundo a sí mismo?

Entonces, el algoritmo de aprendizaje profundo se enseña solo, pero ¿de dónde aprende realmente? La respuesta, en pocas palabras, es "de los mejores".

"Canon trabajó con nuestras agencias", nos dice Burnhill. "Básicamente recibimos acceso a toda su base de datos de imágenes de fotografía deportiva, de todas las agencias importantes, trabajamos con nuestros embajadores que fotografían deportes, y nos proporcionaron sus imágenes de diferentes sujetos, y nos permitió enseñarle a este sistema AF cómo reconocer personas en los deportes ".

Los deportes, obviamente, son el método de enseñanza específico porque la Canon EOS-1D X Mark III es principalmente una cámara deportiva. El problema es que, tanto si se trata de un jugador de baloncesto de espaldas a la cámara, un esquiador con gafas protectoras o un piloto de Fórmula 1 con casco, las personas que practican deportes suelen tener la cara oculta, lo que significa que el AF tradicional con detección de rostros o incluso de ojos no lo hace. No funciona, y la cámara se fijará en cosas como los números en el uniforme de un jugador.

Al dar acceso al algoritmo de aprendizaje profundo a una vasta biblioteca de imágenes, de todo, desde gimnastas al revés hasta jugadores de hockey que usan almohadillas y cascos, es capaz de aprender y diferenciar la forma humana en una variedad infinita de situaciones y, en última instancia, es capaz de para realizar esta 'detección de cabeza', de modo que incluso si la cara de la persona no es visible, la cabeza es siempre el punto principal de enfoque.

"El aprendizaje profundo consiste básicamente en imágenes, creas un conjunto de reglas para que aprenda, y luego se pone en marcha y crea su propio algoritmo basado en", continúa Burnhill. "Así que estableces los parámetros de cómo se vería la persona, dices, 'Aquí está la persona', luego analiza todas las imágenes de las personas y dice, 'Esta es una persona', 'Esa es una persona'. pasa por millones de imágenes durante un período de tiempo y crea esa base de datos, y aprende por sí misma ".

De hecho, el algoritmo crea dos bases de datos: una para dar servicio al sistema de AF del visor óptico y la medición, utilizando Digic 8, y otra para dar servicio al sistema de AF Live View que utiliza Digic X. Dado que es el Digic X el que hace todos los cálculos para seguimiento de la cabeza, una vez que el algoritmo AF detecta a una persona en el encuadre, todo se transfiere al nuevo procesador.

"Una vez que tienes a una persona, en realidad tienes el procesamiento dual en marcha", dice Burnhill. "Hay dos bases de datos aquí, porque la entrada de ambos sensores será ligeramente diferente, por lo que la forma en que se reconocerá será ligeramente diferente, por lo que estos son subconjuntos del mismo algoritmo. Los datos centrales para ambos son los mismos, es solo cómo se reconocerá y se le aplicarán los datos correctos ".

Si no puede aprender cosas nuevas … ¿qué pasa con la FA animal?

Por supuesto, la Canon EOS-1D X Mark III no es solo una cámara deportiva, su otra audiencia clave son los fotógrafos de vida salvaje. Sin embargo, la cámara no posee la capacidad de enfoque automático animal, y hemos establecido que Deep Learning no puede aprender ningún truco nuevo una vez que se ha incorporado a la cámara. ¿Así que es eso? Con toda esta nueva y elegante tecnología, ¿la cámara ni siquiera se enfocará en el perro de la familia?

Es cierto que, en este momento, la cámara no cuenta con AF de animal (o ojo de animal). "Básicamente, nos estamos concentrando en las personas para empezar a hacer que ese tipo de algoritmo funcione primero", responde Burnhill. "Es por eso que nos hemos centrado en el deporte, porque es un parámetro establecido y podemos enseñarlo en un cierto período de tiempo".

La respuesta, entonces, está en el firmware. Burnhill confirmó que existe la posibilidad de que la cámara se someta a más aprendizaje profundo, para cosas como aves y vida silvestre, y que este algoritmo actualizado se difunda a los usuarios a través de actualizaciones de firmware, aunque no hay planes concretos que anunciar.

"Lo desarrollaremos todo el tiempo, por lo que por el momento aún no está claro cómo y adónde vamos. Pero el equipo de desarrollo está analizando otras fotografías de animales; nos damos cuenta de que hay una gran cantidad de campos, pero obviamente el gran El enfoque de esta cámara es el deporte y luego la vida salvaje, y obviamente con Tokio 2022-2023 esta era la prioridad ".

Es un buen punto; si Canon hubiera esperado a que Deep Learning aprendiera todo, habría tardado más en lanzar la cámara. Y aunque los fabricantes como Sony cuentan con un enfoque automático animal selectivo en sus cámaras, Burnhill señala que Canon preferiría lanzar una solución completa de enfoque automático animal en lugar de una selectiva y fragmentada. Y aquí es donde el aprendizaje profundo se volverá invaluable.

"El problema es con la vida silvestre, hay muchos animales diferentes; obviamente tienes depredadores con los ojos al frente, y luego tienes los (ojos) de los conejos a los lados, tienes serpientes, tienes pájaros … no hay un sistema que reconoce las caras de todos los animales. Y ahí es donde se entra en todo este aprendizaje profundo, de enseñar al sistema a reconocer estas cosas complejas ".

Entonces, si bien su Sony puede rastrear a su perro o su gato, pero no a una salamandra o un flamenco, Canon quiere producir una cámara que haga todo o nada. "Si fuéramos a hacerlo, querríamos hacerlo para un espectro tan amplio; no queremos hacer una cámara amigable para perros y una cámara amigable para gatos, queremos hacer una cámara amigable para animales eso funciona para la amplia gama de animales que (los profesionales) dispararían ".

Revisión de Canon EOS-1D X Mark III
¿Cómo Canon fabricó la DSLR más rápida de la historia? Rediseñando la caja del espejo
102 actualizaciones en la Canon EOS-1D X Mark III

Articulos interesantes...