Cargando

Type to search

Tecnología

Así funciona la tecnología de las imágenes animadas en 3D

Compartir

La herramienta genera automáticamente imágenes con profundidad para lograr una experiencia más inmersiva. El uso de algoritmos y modelos de aprendizaje automático en el desarrollo de esta técnica.

En diciembre, Google Fotos incorporó las fotografías cinemáticas que se pueden generar de forma automática desde la aplicacion. Las fotos cinematográficas pueden convertir una foto 2D en una animación 3D para generar una experiencia más envolvente. Los usuarios ya pueden comenzar a verlas dentro del apartado fotos recientes de la app.

Ahora la compañía explicó en su blog oficial cómo es la tecnología detrás de esta herramienta que permite revivir recuerdos con esta capa adicional de movimiento.

Una combinación de algoritmos y modelos de machine learning

Las fotografías cinematográficas requieren de un mapa de profundidad para proporcionar información sobre la estructura 3D de una escena. Las técnicas para calcular la profundidad en un smartphone se basan en la captura simultánea de varias fotos desde diferentes puntos de vista.

Ahora bien, para generar ese efecto en fotos que no fueron tomadas de este modo, se entrenó una red neuronal convolucional con arquitectura de codificador-decodificador para predecir un mapa de profundidad a partir de una sola imagen RGB. Usando solo una vista, el modelo aprendió a estimar la profundidad usando señales monoculares, como los tamaños relativos de los objetos, perspectiva lineal, desenfoque de desenfoque, etc.

La compañía creó su propio conjunto de datos para entrenar el modelo de profundidad monocular usando fotos capturadas en un equipo personalizado de 5 cámaras, así como otro conjunto de datos de fotos de retrato capturadas en Pixel 4.

La combinación de varios conjuntos de datos de esta manera expone el modelo a una mayor variedad de escenas y hardware de la cámara, con el objetivo de mejorar sus predicciones al analizar fotos que se toman en entornos naturales.

Para mitigar errores en el mapa de profundidad se aplicó un filtrado que optimiza los bordes y también se empeló un modelo de segmentación de DeepLab entrenado en el conjunto de datos Open Images.

Uno de los desafíos en la reconstrucción de escenas en 3D es lograr una imagen que muestre los cambios de profundidad manteniendo una textura adecuada y sin ruidos. Para eso también se recurre a la inteligencia artificial.

Tags:

Te puede interesar

Deja un comentario

Your email address will not be published. Required fields are marked *