El doctor Basam Musleh, investigador sénior en Inteligencia Artificial y Aprendizaje Automático en ITCL Centro Tecnológico, ha formado parte del Tribunal de Evaluación de la lectura de la Tesis ‘Convolutional neural networks for joint object detection and pose estimation in traffic scenes’, del doctorando: D. Carlos Guindel Gómez en la Universidad Carlos III de Madrid.
El responsable de ITCL ha formado parte del tribunal en base a su experiencia en el campo de actuación de una tesis que han dirigido José María Armingol Moreno, catedrático del Departamento de Ingeniería de Sistemas y Automática de la Universidad Carlos III de Madrid; y David Martín Gómez, profesor ayudante Doctor del Departamento de Ingeniería de Sistemas y Automática de la Universidad Carlos III de Madrid, dentro del Programa de Doctorado: Ingeniería Eléctrica, Electrónica y Automática de la citada universidad madrileña.
Vehículo autónomo
Considerada una tesis pionera en lo que al vehículo autónomo se refiere en España, nace de la importancia que se otorga a los vehículos autónomos, “como un elemento clave del transporte en las próximas décadas”.
En base a esa percepción fiable del entorno del vehículo autónomo entiende que éste es “ uno de los retos técnicos que hay que afrontar para garantizar una navegación autónoma segura, especialmente en entornos con muchos agentes”. Así, entiende que esta funcionalidad “se basa, normalmente, en sensores embarcados, que proporcionan datos que deben ser procesados de forma adecuada”.
En concreto, el estudio tiene en cuenta que entre las diferentes tareas asignadas al sistema de percepción de un vehículo automatizado, la detección de otros usuarios de la vía puede interferir potencialmente con la trayectoria del vehículo.
Así, la tesis tiene como objetivo proporcionar soluciones comercialmente viables para estos problemas, aprovechando el impresionante avance que han experimentado las redes neuronales profundas en la última década.
Los métodos propuestos en esta tesis se basan en un marco de detección popular, Faster R-CNN, que ofrece una alta precisión de detección a velocidades cercanas al tiempo real. Así, se presentan y discuten algunas propuestas para mejorar el rendimiento del algoritmo en las imágenes obtenidas de las cámaras a bordo.
Localización en 3D
Una de las aportaciones centrales de la tesis es la ampliación de la arquitectura Faster R-CNN para estimar la orientación de los objetos detectados basándose exclusivamente en la información de apariencia, lo que hace que el método sea robusto frente a las diferentes fuentes de error presentes en los entornos de tráfico.
Como siguiente paso natural, se proponen dos algoritmos que aprovechan esta funcionalidad para realizar la localización de objetos en 3D. Como resultado, la combinación de los métodos descritos a lo largo de esta tesis permite construir un procedimiento capaz de proporcionar conciencia situacional de los peligros potenciales en los alrededores del vehículo.
Todos los métodos propuestos son analizados y validados mediante experimentación sistemática utilizando una reconocida base de datos pública (KITTI Vision Benchmark Suite), donde se han obtenido resultados notables. También se discute la viabilidad de la implementación de las soluciones en un vehículo real.