Egyre szélesebb körben ismert, hogy a világ elsőszámú autógyártója, a Toyota nem csupán a különböző részben vagy teljesen elektromos meghajtások, vagy épp az aktív biztonsági rendszerek és vezetéstámogató technológiák és az ezekre épülő autonóm autózás, hanem a mesterséges intelligencia és a robotika területén is a világ egyik vezető fejlesztőjének számít. Ezen utóbbi területért a vállalat szilícium-völgybéli kutatóintézete, a Toyota Research Institute felel, amely komoly áttörés előtt áll a többfeladatos finommechanikus mozgások nagy viselkedési modelljeinek alapos vizsgálata, és a robotok flottaszintű tanulása terén. A Toyota a robotikai fejlesztéseit az 1970-es évek végén, 1980-as évek elején kezdte meg, főként az autógyártási folyamatok automatizálására koncentrálva: az ipari robotok bevezetése révén növelte a termelékenységet és a gyártás pontosságát. A vállalat humán jellegű robotikai fejlesztések, vagyis az emberekkel közvetlenül együttműködő robotok (például segítő vagy szórakoztató robotok) iránti érdeklődése a 2000-es évek elején indult el erőteljesebben, 2004-ben pedig a Toyota hivatalosan bejelentette, hogy a robotika az egyik stratégiai kutatási iránya lesz az autóipar mellett. Ezt követően a társadalmi felelősségvállalás számos területén aktív vállalat elkezdte kutatni azokat a robottechnológiákat, amelyek az idősek, betegek vagy mozgáskorlátozottak támogatását szolgálják, a dedikáltan ezekre a területekre fókuszáló Human Support Robot (HSR) projekt pedig 2017-ben indult. Az utóbbi két év legforróbb robotikai fejlesztési területét ugyanakkor a nagy nyelvi modelleket kiegészítő nagy viselkedési modellek jelentik a Toyota Research Institute mérnökei számára.
2025. július 22.
Robotikai áttörés előtt áll a Toyota?
A Toyota az elmúlt két évtizedben látványos és sokszínű robotikai fejlesztéseket mutatott be, amelyek nemcsak a technológiai innovációt, hanem az emberközpontú megközelítést is tükrözik. A humán segítő robotok közül kiemelkedik a Human Support Robot (HSR), amely kerekesszékes vagy mozgáskorlátozott emberek számára kínál otthoni segítséget – például tárgyak felvételével vagy egyszerű házimunkák elvégzésével. Ehhez kapcsolódik a Partner Robot program, amelynek keretében a Toyota több generáción át fejlesztett társalkodó és zenélő robotokat is – például a trombitáló és hegedülő robotokat, amelyek egyesítették a művészetet és a mérnöki precizitást. A japán vállalat a 2021-ben megrendezett Tokiói Olimpia és Paralimpia során is reflektorfénybe helyezte robotjait: a Field Support Robotok önvezető módon szállították vissza a sporteszközöket a dobóversenyeken, míg a T-HR3 humanoid robot a látogatók köszöntésében és információadásban működött közre. A Toyota nem feledkezett meg a játékosságról sem: a vállalat mérnökei által fejlesztett CUE nevű humanoid kosárlabdázó robotj, amely mesterséges intelligenciával számolja ki a dobások ívét és erejét, két Guinness-rekordot is felállított: 2019-ben a legtöbb sikeres büntetődobásét (itt 2020 csont nélküli büntető után leállították a robotot, utalva a Toyota mobilitási partnerségében megrendezett Tokiói Olimpia tervezett 2020-as dátumára), 2024-ben pedig 24,55 méterrel a humanoid robot által legtávolabbról sikeresen bedobott kosárlabdával.
Az általános célú robotok hatalmas segítséget jelenthetnek a jövőben a mindennapokban
Az általános célú robotok olyan jövőt ígérnek, ahol a háztartási segítségnyújtás mindenütt jelen van, és az időskori otthonban való életet megbízható, intelligens segítség támogatja. Ezek a robotok felszabadítják az emberi potenciált azáltal, hogy lehetővé teszik az emberek számára, hogy teljesen új módon alakítsák és befolyásolják a fizikai világot. Ennek az átalakulásnak a középpontjában a nagy viselkedési modellek (LBM-ek) állnak – megtestesült mesterséges intelligencia rendszerek, amelyek robotérzékelő adatokból kiindulva cselekvéseket hajtanak végre. Az LBM-ek nagy, sokszínű manipulációs adathalmazokon előre betanítottak, és kulcsot jelentenek a robusztus, általános célú robotikus intelligencia megvalósításához. Növekvő népszerűségük ellenére azonban még mindig meglepően keveset tudunk a mai LBM-ek által kínált lehetőségek finom árnyalatairól. Ez a bizonytalanság abból fakad, hogy a valós robotikában nehéz szigorú, nagyszabású értékeléseket végezni. Ennek eredményeként az algoritmusok és adatkészletek tervezésében a fejlődést gyakran inkább az intuíció, mint a bizonyítékok irányítják, ami gátolja a haladást. Munkánk célja az, hogy ezt megváltoztassuk.
A Toyota Research Institute kiemelt kutatási területként kezeli a nagy viselkedési modelleket
A Toyota kutatóintézete kiemelkedő eredményt ért el közel 1700 órányi robotikai adat feldolgozása, 1800 órányi valós körülmények közötti értékelés és több mint 47 000 szimulációs értékelést elvégezése révén. A mérnökök kiképeztek számos diffúzió-alapú LBM-et, hogy alaposan tanulmányozzuk képességeiket, és az alábbi megállapításokat tették:
- A nulláról induló irányelvekhez képest következetes teljesítményjavulást biztosítanak.
- Lehetővé teszik új feladatok elsajátítását 3-5-ször kevesebb adattal egy olyan kihívásokkal teli környezetben, ahol a különböző környezeti tényezőkkel szembeni ellenálló képességre van szükség.
- A pretraining adatok növelésével folyamatosan fejlődnek.
- Még néhány száz órányi változatos adat – és viselkedésenként csak néhány száz demo – esetén is jelentősen javult a teljesítmény. Az előzetes képzés a vártnál korábban biztosít következetes teljesítménynövekedést.
A Toyota mérnökei által összeállított értékelési csomag több újszerű és rendkívül kihívást jelentő, hosszú távú, valós világbeli feladatot tartalmaz; ebben a környezetben finomhangolt és értékelt LBM előképzés javítja a teljesítményt, annak ellenére, hogy ezek a viselkedések jelentősen eltérnek az előképzési feladatoktól. A mérnökök mind a látott feladatok (amelyek az előképzési adatokban szerepelnek), mind a nem látott feladatok (amelyeken előképzett modellünket finomítjuk) alapján értékelik a robotokat. Ennek részét képezi 16 szimulált, előképzés során látott feladat, 3 valós, előképzés során látott feladat, 5 korábban nem látott, hosszú távú szimulált feladat és 5 komplex, korábban nem látott, hosszú távú valós feladat. Minden modellt 50 rollouttal tesztelnek minden valós feladat esetében, és 200 rollouttal minden szimulációs feladat esetében.
Közel lehet az áttörés
A Toyota mérnökeinek egyik legfontosabb megállapítása, hogy a finomhangolt teljesítmény a pretraining adatok növekedésével egyenletesen javul. A vizsgált adatmennyiségeknél nem tapasztaltak teljesítménybeli folytonossági zavarokat vagy éles inflexiós pontokat; az AI skálázhatósága a robotikában jól működik.
Nem finomhangolt, előzetesen betanított LBM-ekkel ugyanakkor vegyes eredményeket tapasztaltak. Biztató, hogy egyetlen hálózat képes egyszerre több feladatot megtanulni, de nem tapasztaltak következetes teljesítményt a finomhangolás nélküli, nulláról induló, egyetlen feladatot betanító módszerekhez képest. Várhatóan ez részben a modell nyelvi irányíthatóságának köszönhető. Belső tesztelés során néhány ígéretes korai jelet láttak arra, hogy a nagyobb VLA prototípusok leküzdik ezeket a nehézségeket, de további munkára van szükség, hogy ezt a hatást magasabb nyelvi kapacitású modellekben is alaposan megvizsgálják. A Toyota mérnökeinek eredményei nagyrészt alátámasztják az LBM-stílusú robot alapmodellek közelmúltbeli népszerűségének növekedését, és további bizonyítékot szolgáltatnak arra, hogy a különböző robotadatokon végzett nagyszabású előzetes képzés életképes út a képzettebb robotok felé, bár néhány ponton óvatosságra van szükség. Nevezetesen, az olyan finom tervezési döntések, mint az adatok normalizálása, nagy hatással lehetnek a teljesítményre, és gyakran dominálnak az architektúra vagy az algoritmusok változásain. Fontos, hogy ezeket a tervezési döntéseket gondosan elkülönítsék, hogy elkerüljük a teljesítményváltozásokat. Mindezek kiküszöbölése révén ugyanakkor közel lehet a pont, ahol az akár flottaszinten tanítható robotok számos, az emberek számára megterhelő/monoton/fárasztó feladat önálló elvégzésére képesek lehetnek, felszabadítva a humán kapacitásokat a magasabb hozzáadott értékű feladatok elvégzésére.
Nem finomhangolt, előzetesen betanított LBM-ekkel ugyanakkor vegyes eredményeket tapasztaltak. Biztató, hogy egyetlen hálózat képes egyszerre több feladatot megtanulni, de nem tapasztaltak következetes teljesítményt a finomhangolás nélküli, nulláról induló, egyetlen feladatot betanító módszerekhez képest. Várhatóan ez részben a modell nyelvi irányíthatóságának köszönhető. Belső tesztelés során néhány ígéretes korai jelet láttak arra, hogy a nagyobb VLA prototípusok leküzdik ezeket a nehézségeket, de további munkára van szükség, hogy ezt a hatást magasabb nyelvi kapacitású modellekben is alaposan megvizsgálják. A Toyota mérnökeinek eredményei nagyrészt alátámasztják az LBM-stílusú robot alapmodellek közelmúltbeli népszerűségének növekedését, és további bizonyítékot szolgáltatnak arra, hogy a különböző robotadatokon végzett nagyszabású előzetes képzés életképes út a képzettebb robotok felé, bár néhány ponton óvatosságra van szükség. Nevezetesen, az olyan finom tervezési döntések, mint az adatok normalizálása, nagy hatással lehetnek a teljesítményre, és gyakran dominálnak az architektúra vagy az algoritmusok változásain. Fontos, hogy ezeket a tervezési döntéseket gondosan elkülönítsék, hogy elkerüljük a teljesítményváltozásokat. Mindezek kiküszöbölése révén ugyanakkor közel lehet a pont, ahol az akár flottaszinten tanítható robotok számos, az emberek számára megterhelő/monoton/fárasztó feladat önálló elvégzésére képesek lehetnek, felszabadítva a humán kapacitásokat a magasabb hozzáadott értékű feladatok elvégzésére.