Naukowcy z Cornell University opracowali sposób, aby pomóc autonomicznym pojazdom tworzyć „wspomnienia” poprzednich doświadczeń i wykorzystywać je w przyszłej nawigacji, zwłaszcza podczas niekorzystnych warunków pogodowych, kiedy samochód nie może bezpiecznie polegać na swoich czujnikach.
Samochody wykorzystujące sztuczne sieci neuronowe nie mają pamięci przeszłości i są w ciągłym stanie postrzegania świata po raz pierwszy – bez względu na to, ile razy wcześniej przejeżdżały daną drogą.
Naukowcy przygotowali trzy równoległe prace, których celem jest pokonanie tego ograniczenia. Dwa z nich są prezentowane na Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2022), odbywającej się w dniach 19-24 czerwca w Nowym Orleanie.
„Fundamentalne pytanie brzmi: czy możemy uczyć się z powtarzających się trawersów?” powiedział starszy autor Kilian Weinberger, profesor informatyki. „Na przykład samochód może pomylić dziwnie ukształtowane drzewo z pieszym za pierwszym razem, gdy jego skaner laserowy dostrzeże je z daleka, ale gdy będzie wystarczająco blisko, kategoria obiektu stanie się jasna. Tak więc, kiedy po raz drugi przejeżdżasz obok tego samego drzewa, nawet we mgle lub śniegu, możesz mieć nadzieję, że samochód nauczył się już poprawnie je rozpoznawać.”
Kierowana przez doktoranta Carlosa Diaza-Ruiza, grupa skompilowała zbiór danych jeżdżąc samochodem wyposażonym w czujniki LiDAR (Light Detection and Ranging) wielokrotnie wzdłuż 15-kilometrowej pętli w i wokół Ithaca, 40 razy w ciągu 18 miesięcy. Przejazdy obejmują różne środowiska (autostrada, miasto, kampus), warunki pogodowe (słonecznie, deszczowo, śnieżnie) i pory dnia. Ten wynikowy zbiór danych ma ponad 600 000 scen.
„Celowo eksponuje jedno z kluczowych wyzwań w samochodach samojezdnych: złe warunki pogodowe” – powiedział Diaz-Ruiz. „Jeśli ulica jest pokryta śniegiem, człowiek może polegać na wspomnieniach, ale bez wspomnień sieć neuronowa jest mocno poszkodowana”.
HINDSIGHT to podejście, które wykorzystuje sieci neuronowe do obliczania deskryptorów obiektów, gdy samochód je mija. Następnie kompresuje te opisy, które grupa nazwała SQuaSH (Spatial-Quantized Sparse History) i przechowuje je na wirtualnej mapie, jak „pamięć” przechowywaną w ludzkim mózgu.
Następnym razem, gdy samochód samojezdny będzie przejeżdżał przez to samo miejsce, może zapytać o lokalną bazę danych SQuaSH każdego punktu LiDAR na trasie i „zapamiętać” to, czego nauczył się poprzednim razem. Baza danych jest stale aktualizowana i współdzielona przez wszystkie pojazdy, co wzbogaca informacje dostępne do przeprowadzenia rozpoznania.
„Te informacje mogą być dodane jako cechy do dowolnego detektora obiektów 3D opartego na LiDAR;” powiedział doktorant Yurong You. „Zarówno detektor, jak i reprezentacja SQuaSH mogą być trenowane wspólnie bez dodatkowego nadzoru, czy też ludzkich adnotacji, co jest czaso- i pracochłonne”.
HINDSIGHT jest prekursorem dodatkowych badań prowadzonych przez zespół, MODEST (Mobile Object Detection with Ephemerality and Self-Training), które poszłyby jeszcze dalej, pozwalając samochodowi nauczyć się całego potoku percepcji od podstaw.
Podczas gdy HINDSIGHT nadal zakłada, że sztuczna sieć neuronowa jest już wyszkolona do wykrywania obiektów i dodaje jej zdolność do tworzenia wspomnień, MODEST zakłada, że sztuczna sieć neuronowa w pojeździe nigdy nie była wystawiona na działanie żadnych obiektów ani ulic. Dzięki wielokrotnemu pokonywaniu tej samej trasy może nauczyć się, które elementy otoczenia są nieruchome, a które to obiekty ruchome. Powoli uczy się, co stanowi innych uczestników ruchu, a co można bezpiecznie zignorować.
Algorytm może następnie niezawodnie wykrywać te obiekty – nawet na drogach, które nie były częścią początkowych powtarzanych przejazdów.
Naukowcy mają nadzieję, że to podejście może drastycznie obniżyć koszty rozwoju autonomicznych pojazdów (które obecnie nadal w dużej mierze opierają się na kosztownych danych przypisywanych przez człowieka) i sprawić, że takie pojazdy będą bardziej wydajne, ucząc się nawigacji w miejscach, w których są najczęściej używane.