"El futuro del transporte: ¿cuál será el papel de los vehículos autónomos? ¡Aprende sobre las últimas innovaciones y tendencias en este sector en constante evolución!

Vehículos autónomos que aprenden a conducir como niños aprenden a caminar

¿Qué son los vehículos autónomos y cómo están cambiando el futuro del transporte? ¡Aprende sobre los beneficios y desafíos de esta tecnología emergente!

Alejandro
Por Alejandro

Hace algún tiempo, me gustó mucho una broma sobre «un vehículo autónomo que se negó a llevar a un pasajero a un restaurante de comida rápida, alegando la primera ley de la robótica». Se trata de una de las «leyes de la robótica» formuladas por el escritor de ciencia ficción estadounidense Isaac Asimov en 1942, que se formula de la siguiente manera:

«Un robot no puede causar daño a un ser humano o, por su inacción, permitir que le cause daño». Aunque las leyes de la robótica son un fenómeno literario y no tecnológico, me pareció interesante analizar en Habré cómo los vehículos autónomos se adaptan a las acciones humanas, coexisten con flujos de peatones, pueden aprender sin refuerzo y mostrar heurística, así como qué desarrollos se están llevando a cabo en este campo.

En la actualidad, ya es relativamente fácil formalizar las reglas del tráfico en forma algorítmica. También es fácil equipar a un vehículo con cámaras inteligentes que puedan distinguir señales de tráfico y colores de semáforos, detectar con anticipación una intersección peatonal y orientarse en el mapa de la ciudad por el mismo principio que un conductor se orienta con un navegador.

Sin embargo, al probar un vehículo autónomo, no se destina tanto al aprendizaje automático y visión por computadora como al aprendizaje con refuerzo. Un vehículo autónomo moderno aprende a conducir paso a paso, más o menos como un niño aprende a caminar.

He descubierto que las principales «competencias» del manejo autónomo se resumen en construir una ruta cómoda, circular sin accidentes entre el tráfico normal en calles concurridas y en intersecciones, reconocer peatones y evitar obstáculos. La última tarea es relativamente sencilla y se puede resolver con la ayuda de un láser de distancia (lidar), mientras que el reconocimiento de otros vehículos y peatones requiere una percepción visual completa y orientación en el flujo de objetos, algunos de los cuales son estacionarios y otros

  1. Para reconocer patrones en condiciones climáticas claras, nocturnas, lluviosas o neblinosas
  2. Para reconocer y predecir maniobras de otros conductores, incluidas las peligrosas
  3. Para reconocer a niños, animales y personas con discapacidad, en particular, usuarios de sillas de ruedas
  4. Para reconocer otros vehículos en ángulos poco comunes
  5. Para luchar contra prácticas malintencionadas diseñadas para desorientar al vehículo autónomo. Ejemplos de estas «ataques competitivos» son pegar etiquetas reflectantes brillantes en señales de tráfico, o llevar imágenes de señales de tráfico en la ropa (especialmente la señal de STOP, que tiene una forma característica independientemente del alfabeto en que esté escrita).

En conjunto, estos requisitos significan que la visión por computadora debe implementarse siguiendo el modelo y la semejanza de la visión humana.

La orientación de los vehículos autónomos se logra mediante algoritmos de aprendizaje automático, que actualmente permiten alcanzar una conducción segura, siempre y cuando hayan sido entrenados en conjuntos de datos específicos y extensos. En estos conjuntos de datos es extremadamente difícil tener en cuenta todos los casos límite y establecer el orden de reacción ante las acciones inadecuadas de otros conductores en el tráfico.

Intentando resolver preci samente este círculo de problemas, un grupo liderado por Asher On-Bar de la Universidad de Boston propuso dos innovaciones. En primer lugar, limitar el conjunto de datos en el que el vehículo se basaría en un momento determinado, y en segundo lugar, hacer hincapié no en el aprendizaje automático tradicional, sino en desplazarlo hacia el aprendizaje por refuerzo: para que el vehículo aprendiera a circular por la carretera, aproximadamente como un niño aprende a caminar, imitando a los demás.

Este tipo de aprendizaje permite que la máquina generalice variantes de maniobras viales realizadas por otros vehículos y peatones, evalúe el tráfico «desde diferentes puntos de vista» y detecte puntos ciegos. Al mismo tiempo, el vehículo se guía por el mapa del navegador, pero también construye un mapa actualizado de su entorno cercano, analiza cómo otros vehículos giran, adelantan y ceden el paso.

El algoritmo propuesto permite que el vehículo detecte y evite obstáculos, así como distinga otros vehículos de peatones.

En realidad, el automóvil extrapola las «puntos de vista» de otros participantes del tráfico y las traduce a su propio sistema de coordenadas.

En 2021, Ashed On-Bar y su estudiante de posgrado, Czimu Yan Zhang, probaron modelos de automóviles autónomos en dos ciudades virtuales. Uno de ellos se asemejaba a un entorno «de aprendizaje».

En particular, no había giros bruscos. En el segundo caso, no solo se incluían intersecciones complejas (hasta cinco carriles), sino también obstáculos inesperados. Sin embargo, en esta simulación, el automóvil llegaba con éxito a su destino en el 92% de los casos. A continuación, se muestra un fragmento de dicha simulación.

Sin embargo, las redes neuronales convolucionales que subyacen a estos algoritmos no recuerdan el pasado y, por lo tanto, no acumulan experiencia, independientemente de cuántas veces el automóvil haya recorrido una carretera específica. Este problema se complica aún más en situaciones de visibilidad reducida debido al mal tiempo.

Después de 2020, los investigadores de la Universidad de Cornell (que trabajan en el Colegio de Informática y Tecnología de la Información y el Colegio de Ingeniería) publicaron varios trabajos sobre herramientas diseñadas para crear precisamente este tipo de recuerdos en automóviles autónomos. Más precisamente, se trata de construir una retrospectiva (en inglés, «hindsight») basada en una nube 3D de puntos.

Esta sistema se describe en el artículo «La visión retrospectiva es de 20/20: cómo aprovechar los recorridos pasados para ayudar a la percepción 3D», donde el conjunto de datos de entrenamiento para el automóvil son las rutas previamente recorridas (recorridos pasados). El código fuente de la herramienta se encuentra en Github. Durante la sesión de entrenamiento, debí conducir el automóvil, pero desde la parte trasera y con un teclado, como lo demuestra uno de los participantes del experimento, Carlos Díaz Ruiz:

Recopilamos el conjunto de datos de entrenamiento en los alrededores de Ithaca, estado de Nueva York, completando 40 vueltas en un recorrido circular de 15 kilómetros en un año y medio. A pesar de que, además de sensores ópticos, el automóvil está equipado con un lidar, estos recorridos mostraron una gran inexactitud al reconocer objetos atípicos a distancia. Por ejemplo, si el automóvil «veía» un árbol con una copa irregular, podía confundirlo con un peatón al principio, pero corría su error al acercarse. Por lo tanto, los investigadores complementaron el conjunto de datos con imágenes tomadas desde otros vehículos que también recorrieron la ruta.

El conjunto de datos resultante, llamado Ithaca365, contiene más de 600 000 imágenes, con especial atención a las imágenes que capturan diferentes condiciones climáticas (carretera nevada, lluvia, niebla). Aquí tienes una de las imágenes como ejemplo:

El algoritmo HINDSIGHT aplica redes neuronales para construir imágenes de los objetos que el automóvil pasa mientras conduce.

Luego, en las descripciones de estos objetos, se reduce la dimensionalidad (se eliminan algunas características), un enfoque que el grupo llamó «SQuaSH» (Historia Espacial-Cuantificada Escasa, «historia espacialmente cuantificada escasa»). Las imágenes simplificadas resultantes se superponen en un mapa virtual. Al parecer, un principio muy similar se encuentra en el funcionamiento de la memoria humana.

También en la base de datos local SQuaSH se almacenan todos los puntos capturados por el lidar en esta ruta y solo la información de posición se «recuerda» plenamente. Esta base de datos puede actualizarse continuamente y compartirse entre cualquier vehículo equipado con la combinación HINDSIGHT+SQuaSH.

Los enfoques descritos parecen prometedores no solo para
los vehículos, sino también para el transporte público ferroviario y los robots móviles de almacén (en condiciones en las que la variabilidad del entorno se reduce al mínimo). Sin embargo, este «aprendizaje pasivo» es claramente insuficiente para el conducción plena, y más adelante examinaremos un enfoque más avanzado: el aprendizaje activo.

Aprendizaje activo

Esta es una subcategoría del aprendizaje automático, una variedad de aprendizaje cíclico con instructor, en la que el algoritmo puede solicitar nueva información en la fuente de datos y etiquetar los datos por sí mismo. El aprendizaje activo permite simplificar significativamente la preparación del conjunto de datos de entrenamiento, es decir, reduce significativamente la cantidad mínima de datos que se requiere etiquetar manualmente.
Aprendizaje activo — es una mejora progresiva del conjunto de datos, que además es fácilmente automatizable. Así es como se diferencian el aprendizaje estándar con instructor y el aprendizaje activo:

Es obvio que incluso este enfoque no es realizable sin la participación de una persona (instructor), pero, como se vio en el ejemplo del conjunto de datos Ithaca365, el primer conjunto de datos del vehículo pionero puede recopilar casi autónomamente, solo bajo la supervisión de un estudiante de posgrado. Al aplicar el aprendizaje activo en el trabajo con vehículos autónomos, lo más importante es no equivocarse en el tamaño del conjunto de datos que debemos etiquetar manualmente. También es importante establecer ese umbral de incertidumbre en la interpretación, después del cual la máquina debe solicitar nuevos datos. Este enfoque se llama «selección por incertidumbre» (uncertainty sampling) y se implementa mediante tres enfoques principales (más información aquí).

  • Menor grado de confianza. En este enfoque, se establece un umbral de confianza determinado (alto), y si el modelo se enfrenta a datos cuya interpretación no es lo suficientemente confiable (por ejemplo, menos del 99,9%), solicita nuevos datos sobre el objeto y comienza a analizarlos.
  • Minimum margin. Este enfoque está diseñado para corregir las limitaciones del primero y prevé dos etiquetas para cada elemento de datos: «la más probable» y «la segunda versión».
    • He puedo orientarme por dos marcas al mismo tiempo y llegar lógicamente a la conclusión de qué objeto tengo delante.
    • Entropía. Medición del grado de incertidumbre para cada variable tomada por separado. En este caso, el grado de (in)certeza al interpretar los datos se convierte en un espectro. La modelo determina qué objeto es exactamente con mayor probabilidad, solicita nuevos datos y continúa «desarrollando» precisamente esa «versión» que en el paso anterior se le asignó la mayor probabilidad.

    Aprendizaje activo aplicado a vehículos autónomos

    Los enfoques descritos anteriormente son en gran medida estadísticos, por lo que incluso el aprendizaje activo fallará al interpretar casos límite o comportamientos ilógicos en la carretera (por parte de peatones o conductores imprudentes). Es relativamente fácil entrenar a una IA para seguir escenarios estándar y reconocer objetos que figuraban en el conjunto de datos de entrenamiento. Pero simplemente no encontraré un conjunto de objetos mínimamente inicial que se encuentren en situaciones como:

    Los problemas pueden surgir debido a obstáculos inusuales en la carretera, animales exóticos o señales de tráfico «humorísticas». Además, el algoritmo puede fallar al interpretar una grúa o un remolque para transportar vehículos livianos, hasta el punto de considerar tales imágenes como una intento de ataque competitivo (combinación de dos o más vehículos en una imagen).

    Al aplicar el aprendizaje activo, se complican significativamente tanto el sistema como su desarrollo. El proceso de aprendizaje también se vuelve más complicado, aunque el resultado del aprendizaje es de mayor calidad, lo que justifica la complejidad adicional. Sin embargo, se amplía el campo para la aparición de bugs en el código o errores en la interpretación de los resultados. También pasa más tiempo antes de obtener los primeros resultados, en comparación con el aprendizaje con un instructor.

    Como mencioné anteriormente, es importante considerar al menos algunos casos límite en el aprendizaje activo. Si aumento un poco la sensibilidad del modelo a estos casos, se centrará en las anomalías. El modelo comenzará a «pedir aclaraciones» sobre las anomalías, y como resultado, se infiltrarán en el conjunto de datos etiquetados por humanos y todo el conjunto de datos se arruinará.

    Aquí pasamos al aspecto más sensible del aprendizaje de los vehículos autónomos: cómo enseñar a la máquina a distinguir a los peatones, especialmente en la oscuridad o en condiciones climáticas difíciles. En 2020, NVIDIA llevó a cabo un estudio que confirmó que, con el aprendizaje activo, el modelo aprende a detectar peatones en condiciones nocturnas tres veces mejor que con la etiqueta manual del conjunto de datos de entrenamiento. Pero la variedad de situaciones no se limita a la detección de peatones. Por ejemplo, ¿cómo interpretará el vehículo autónomo las obras viales?

    Si como conductor veo que la carretera se estrecha de repente porque dos de las cuatro carriles están cerrados, inmediatamente asumo que hay un accidente o obras en el camino. Por lo tanto, ya puede estar formándose un atasco, y si no hay ninguno, es probable que haya obstáculos, equipo de construcción y personas vivas en el camino, ocupadas en reparar los daños del accidente, realizar obras viales o revisar documentos. Además, volviendo al ejemplo del conjunto de datos Ithaca365, esta situación puede ocurrir en una ruta familiar que recorro diariamente durante un año, pero nunca había visto algo similar.

    Pero para un vehículo autónomo, esta «anomalía en los datos» es solo la mitad del problema. Lo que es mucho más importante es que el vehículo debe reaccionar al patrón cambiante del tráfico (reubicación de otros vehículos en la corriente) y a los gestos humanos. La gestualidad de los peatones juega un papel determinante incluso en situaciones más simples: por ejemplo, alguien se acerca a un cruce de peatones no regulado, evalúa la distancia hasta el vehículo que se acerca y decide dejar pasar, realizando al menos una de las tres acciones siguientes:

    1) Deteniéndose y observando la reacción del conductor – si frena para dejar pasar al peatón.

    2) Haciendo un gesto con la mano al conductor, que en este caso no significa «hola» ni «alto», sino «pase».

    3) Cuando me acerco al bordillo, saco mi teléfono inteligente del bolsillo y comienzo a deslizar la pantalla, demostrando así que no tengo intención de cruzar la calle en ese momento.

    Un interesante estudio de este tipo fue llevado a cabo en 2017 por especialistas de la empresa Cruise. La compañía se dedica al desarrollo de software para vehículos autónomos y cuenta con un parque de más de 200 de tales máquinas. San Francisco, ubicada en una zona montañosa y con un tráfico muy complicado y alta densidad de población, fue elegida como polígono de prueba.

    Cruise agregó tecnología de captura de movimiento a su software para vehículos, inicialmente interesada en un caso como este: supongamos que un peatón «vota» intentando subir a un coche, mientras que otro peatón camina junto a él. El segundo peatón ve a un conocido en el lado opuesto de la calle y le hace un gesto con la mano. ¿Cómo puede distinguir un vehículo autónomo entre estos dos gestos?

    Con la ayuda de artistas 3D y diseñadores de juegos, la empresa recopiló un conjunto de datos de decenas de gestos y posturas, simuladas por actores invitados y grabadas en la memoria de la máquina.

    Los sistemas de captura de movimiento se dividen en dos categorías principales: ópticos y no ópticos. En el enfoque óptico, se utilizan multiple cámaras distribuidas uniformemente alrededor de la escena que se está grabando.

    Experiencia con captura de movimiento

    Basándome en el vídeo en streaming procedente de estas cámaras, pude calcular con alta precisión (mediante el método de triangulación) la posición de los marcadores ubicados en el traje. Incluso se captura la expresión facial en estas imágenes. Esta tecnología se utilizó para modelar los movimientos de Smaug y Gollum en las películas de la saga «El Señor de los Anillos», así como los movimientos de los nativos en las películas de la serie «Avatar».

  • Sin embargo, este enfoque solo es posible en un estudio, por lo que preferí la opción no óptica (sensorial). Esta tecnología se basa en el trabajo con sistemas microelectromecánicos (MEMS) – portátiles, inalámbricos y que no requieren de un estudio. Estos sistemas también se integran en el traje, que contiene 19 conjuntos de sensores conectados a la cabeza, torso y extremidades.
  • Cada paquete, del tamaño de una moneda pequeña, contiene un acelerómetro, un giroscopio y un magnetómetro. En un solo ejemplar para todo el traje, se incluye una batería (en el cinturón), una ranura de transmisión de datos y un módulo Wi-Fi.Este enfoque me permitió enseñar a un automóvil a reconocer las acciones más diversas, incluyendo:

    1) Intentar coger un taxi

    2) Desplazar el teléfono mientras camino

    3) Salir a la calle si el asfalto está bloqueado debido a obras de construcción

    4) El gesto que hace un aparcacoches para indicar dónde debe detenerse el coche

    Conclusión

    Todos los experimentos descritos aquí resultaron ser exitosos, al menos lo suficiente como para ser materia de un trabajo científico, una prueba de concepto o futuras desarrolladoras.

    Supongo que estos avances son más aplicables a transporte de carga relativamente lento o a robots móviles que atienden almacenes, aeropuertos o centros comerciales. Además, considerando que la máquina se orienta con confianza en una ruta recorrida múltiples veces, un robot similar podría reemplazar a una persona en lugares inaccesibles, por ejemplo, en cuevas o bajo el agua. Pero por ahora, hay claramente más problemas que soluciones, y te invito a discutirlos en los comentarios.

Compartir este artículo