ImageNet; así aprenden a ver los robots

ImageNet es una de las mayores bases de datos de imágenes del mundo. Organizada bajo la jerarquía WordNet, fue creada con un objetivo; ayudar a las inteligencias artificiales a entender lo que ven.

En la actualidad, ImageNet es una de las referencias que utilizan investigadores de todo el mundo a la hora de enseñar a los algoritmos de inteligencia artificial a reconocer imágenes. Hoy vamos a conocer un poco más acerca de cómo nació ImageNet y cómo aprenden las IA a ver el mundo.

Imagenet

ImageNet es un proyecto desarrollado por el Laboratorio Standford Vision, la Universidad de Stanford y la Universidad de Princeton. El mismo consiste en una enorme base de datos de imágenes (más de 14 millones) organizada en más de 20.000 categorías, según el sistema WordNet.

Durante los últimos años, se ha convertido en una herramienta indispensable para que equipos de desarrollo de algoritmos de inteligencia artificial de todo mundo sean capaces de enseñar a sus programas a entender las imágenes que ven. Pero, ¿cómo surgió la idea de ImageNet, cómo se desarrolló y cómo aprenden las IA a ver el mundo a través de esa enorme cantidad de imágenes?

Nadie mejor que su principal promotora, la profesora de ciencias de la computación de la Universidad de Stanford Fei-Fei Li, para explicárnoslo en esta charla TED ofrecida en el mes de marzo de este año:

Sin duda hay un par de puntos culminantes en la estupenda charla ofrecida por la Dra. Fei-Fei Li

En primer lugar, narra cómo fue capaz de darse cuenta de la tremenda importancia que tendría constituir una gran base de datos visual para ayudar a las IA a entender las imágenes. Tal como afirma Fei-Fei Li, nadie indica a un niño cómo debe ver. Un adulto puede enseñar a un niño (pensemos en un niño de 1 o 2 años) que lo que ve un día en una fotografía es un gato, pero después observará cientos de gatos distintos, de todos los tamaños, formas, colores, y en todo tipo de situaciones y posturas diferentes, y no tendrá un adulto al lado para explicarle siempre que lo que está viendo es un gato.

La visión del mundo de un niño no se limita a lo que los adultos le enseñan; casi la totalidad de su aprendizaje se nutre de los millones de imágenes que verá, día a día, a lo largo de sus primeros años de vida (bien sean imágenes fijas, por ejemplo fotografías en un libro, bien sean las “capturas” del mundo que toma continuamente según lo observa) y que pondrá en relación con esas “instrucciones básicas” que ha recibido y otras a las que pueda acceder por su cuenta.

En base a ello, Fei-Fei Li concluyó que no bastaba con enseñar a una inteligencia artificial lo que era un gato, un perro o una farola; era necesario ofrecerles -de una forma similar al proceso de aprendizaje de los niños- millones de imágenes para que aprendieran de ellas.

En segundo lugar, la Dra. Fei-Fei Li nos explica de qué forma las IA procesan la enorme información visual categorizada que les proporciona ImageNet; se utiliza un tipo de algoritmos de aprendizaje automático denominado red neuronal convolucional, que funciona de una forma similar a como trabajan las redes neuronales humanas e involucra nada menos que 24 millones de nodos, 140 millones de parámetros y 15.000 millones de conexiones.

Así, las inteligencias artificiales reciben instrucciones sobre lo que es un gato, adquieren experiencia observando millones de gatos gracias a la base de datos de ImageNet y procesando esa información están en condiciones de identificar un gato en cualquier imagen en la que esté presente (aunque se trate de una imagen distinta de las que se encuentran en ImageNet). Han aprendido, al menos a nivel visual, cómo es un gato.

Pero, tal como nos cuenta Fei-Fei Li, ya hemos conseguido llegar más allá. Algunos investigadores ya han logrado integrar las funciones de identificación visual y algunas capacidades de lenguaje natural. Gracias a ello, ahora las IA no sólo pueden identificar objetos en las imágenes, sino que pueden también crear frases para describir las interrelaciones que observan entre dichos objetos; no sólo pueden identificar un gato en una imagen, sino afirmar, por ejemplo, que es “un gato tumbado en una cama con un ordenador portátil”.

Reconocimiento visual

Para finalizar su charla, la Dra. Fei-Fei Li nos regala un emotivo elogio a la tecnología, soñando con las maravillas de las que su hijo Leo podrá disfrutar, un mundo en el que los médicos y enfermeras contarán con dos ojos extra incansables que les ayudarán a salvar vidas en su trabajo, en el que los automóviles autónomos conducirán de forma segura evitando miles de accidentes en las carreteras o en el que con la ayuda de las inteligencias artificiales llegaremos a lugares nunca soñados.

Como os comentaba al inicio del post, ImageNet se ha convertido en una referencia para la identificación visual artificial en el mundo, hasta el punto de que organiza una competición anual en la que han participado nombres tan ilustres como el M.I.T., el Centro de Investigación T.J. Watson de IBM, Microsoft, Google o las Universidades de Oxford y Tokio, entre otros muchos.

Tal como veíamos hace algunas semanas, los robots están aprendiendo como niños. Cuidado, no confundamos las cosas, no quiero decir con ello que sean niños ni que aprendan de una forma idéntica a como lo hacen los niños, pero sí que su proceso de aprendizaje guarda algunas similitudes muy evidentes. Como a los niños, hay que darles tiempo; con tiempo crecerán hasta convertirse en nuestros semejantes. Y en ese momento, el mundo cambiará para siempre.

humano robot

Anuncios

Un pensamiento en “ImageNet; así aprenden a ver los robots

  1. Pingback: ImageNet; así aprenden a ver los robots

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s