Kompyuterni ko'rishning asosiy dasturlaridan biri sifatida ob'ektni aniqlash yuqori aniqlikni talab qiladigan, ammo robotlash va haydovchisiz mashinalar kabi cheklangan hisoblash resurslariga ega bo'lgan stsenariylarda tobora muhim ahamiyat kasb etmoqda. Afsuski, ko'plab zamonaviy yuqori aniqlikdagi detektorlar ushbu cheklovlarga javob bermaydilar. Bundan ham muhimi, ob'ektivni aniqlaydigan real dasturlar turli xil platformalarda ishlaydi, bu ko'pincha turli xil resurslarni talab qiladi.
Xo'sh, tabiiy savol - bu resurslarni cheklashning keng doirasiga moslasha oladigan aniq va samarali ob'ekt detektorlarini qanday yaratish kerak?
EfficientDet: CVPR 2020 da qabul qilingan miqyosli va samarali ob'ektni aniqlash, yangi o'lchovli va samarali ob'ekt detektorlari oilasini taqdim etadi. Neytral tarmoqlarni (EfficientNet) kengaytirish va yangi ikki yo'nalishli funktsional tarmoqni (BiFPN) va yangi miqyoslash qoidalarini o'zlashtirish bo'yicha avvalgi ishlarga asoslanib, EfficientDet zamonaviy aniqlikka 9 baravar kichik va ma'lum bo'lgan zamonaviy detektorlarga qaraganda kamroq hisob-kitoblardan foydalanadi. Quyidagi rasmda modellarning umumiy tarmoq arxitekturasi ko'rsatilgan.
Model arxitekturasini optimallashtirish
EfficientDet-ning asosidagi g'oya avvalgi zamonaviy aniqlash modellarini tizimli ravishda o'rganish orqali hisoblash samaradorligini oshirish uchun echimlar topishga qaratilgan harakatlardan kelib chiqadi. Umuman olganda, ob'ekt detektorlari uchta asosiy tarkibiy qismga ega: ma'lum tasvirdan xususiyatlarni chiqaradigan magistral; magistraldan bir nechta darajadagi funktsiyalarni kirish sifatida qabul qiladigan va tasvirning xarakterli xususiyatlarini aks ettiruvchi birlashtirilgan funktsiyalar ro'yxatini chiqaradigan ob'ektlar tarmog'i; va har bir ob'ektning sinfini va joylashishini taxmin qilish uchun birlashtirilgan funktsiyalardan foydalanadigan yakuniy sinf / quti tarmog'i.
Ushbu komponentlarning dizayn variantlarini ko'rib chiqqandan so'ng, biz ishlash va samaradorlikni oshirish uchun bir nechta asosiy optimallashtirishlarni aniqladik. Avvalgi detektorlar asosan ResNets, ResNeXt yoki AmoebaNet-ni magistral sifatida ishlatadilar, ular kamroq kuchga ega yoki samaradorligi pastroqdir. EfficientNet magistralini dastlabki tatbiq etish bilan ko'proq samaradorlikka erishish mumkin. Masalan, ResNet-50 magistralini ishlatadigan RetinaNet boshlang'ich bosqichidan boshlab, ablasyon tadqiqotimiz shuni ko'rsatadiki, ResNet-50 ni EfficientNet-B3 bilan oddiygina almashtirish aniqlikni 3% ga yaxshilaydi va hisoblash 20% ga kamayadi. Yana bir optimallashtirish - funktsional tarmoqlarning samaradorligini oshirish. Oldingi detektorlarning aksariyati Downlink Piramida Tarmog'idan (FPN) foydalangan bo'lsalar-da, biz quyi oqim FPN tabiatan bir tomonlama ma'lumot oqimi bilan cheklanganligini aniqlaymiz. PANet kabi alternativ FPN-lar qo'shimcha hisoblash evaziga qo'shimcha oqim qo'shadi.
Yaqinda Neural Architecture Search (NAS) dan foydalanishga urinishlar yanada murakkab NAS-FPN arxitekturasini kashf etdi. Biroq, ushbu tarmoq tuzilishi samarali bo'lsa-da, u tartibsiz va ma'lum bir vazifa uchun juda optimallashtirilgan bo'lib, boshqa vazifalarga moslashishni qiyinlashtiradi. Ushbu muammolarni hal qilish uchun biz FPN / PANet / NAS-FPN dan ko'p qavatli funktsiyalarni birlashtirish g'oyasini amalga oshiradigan BiFPN ikki tomonlama funktsiyalarning yangi tarmog'ini taklif qilamiz, bu esa ma'lumotni yuqoridan pastgacha ham uzatishga imkon beradi. pastdan tepaga. muntazam va samarali aloqalardan foydalanish.
Samaradorlikni yanada oshirish uchun biz yangi tez normallashtirilgan sintez texnikasini taklif qilamiz. An'anaviy yondashuvlar odatda FPN-ga kiritilgan barcha ma'lumotlarni bir xilda, hatto turli xil rezolyutsiyalarda ham ko'rib chiqadilar. Shu bilan birga, biz turli xil rezolyutsiyaga ega kirish xususiyatlari ko'pincha chiqish funktsiyalariga tengsiz hissa qo'shishini kuzatamiz. Shunday qilib, biz har bir kirish funktsiyasiga qo'shimcha og'irlik qo'shamiz va tarmoq har birining ahamiyatini bilib olishga imkon beradi. Bundan tashqari, biz barcha oddiy konvulsiyalarni arzonroq, chuqur ajralib turadigan konvolyutsiyalarga almashtiramiz. Ushbu optimallashtirish bilan bizning BiFPN aniqlikni 4% ga yaxshilaydi va hisoblash xarajatlarini 50% ga kamaytiradi.
Uchinchi optimallashtirish resurslarning turli cheklovlari ostida aniqlik va samaradorlik o'rtasida eng yaxshi murosaga erishishni o'z ichiga oladi. Oldingi ishimiz shuni ko'rsatdiki, tarmoqning chuqurligi, kengligi va o'lchamlarini birgalikda masshtablash tasvirni tanib olish ko'rsatkichlarini sezilarli darajada yaxshilaydi. Ushbu g'oyadan ilhomlanib, rezolyutsiya / chuqurlik / kenglikni birgalikda oshiradigan ob'ekt detektorlari uchun yangi kompozit miqyoslash usulini taklif qilamiz. Har bir tarmoq komponenti, ya'ni magistral, ob'ekt va blok / sinfni bashorat qiluvchi tarmoq, evristik qoidalar yordamida barcha o'lchamlarni boshqaradigan bitta murakkab masshtablash omiliga ega bo'ladi. Ushbu yondashuv, ma'lum bir maqsadli resurs cheklovi uchun o'lchov koeffitsientini hisoblash yo'li bilan modelni qanday o'lchashni aniqlashni osonlashtiradi.
Yangi magistral va BiFPN-ni birlashtirib, avval kichik EeffDet-D0 boshlang'ich chizig'ini ishlab chiqamiz va keyin E7DD-D1 dan D7 ga erishish uchun aralash masshtabni qo'llaymiz. Har bir ketma-ket model 3 milliard FLOP dan 300 milliard FLOPS gacha bo'lgan resurslarning cheklanganligini qamrab oladigan yuqori hisoblash narxiga ega va yuqori aniqlikni ta'minlaydi.
Ishlash modeli
Ob'ektni aniqlash uchun keng qo'llaniladigan ma'lumot to'plami bo'lgan COCO ma'lumotlar bazasida EfficientDet-ni baholash. EfficientDet-D7 o'rtacha 52,2 aniqlik (mAP) ga erishadi, bu avvalgi zamonaviy modeldan 1,5 baravar yuqori bo'lib, 4 baravar kam parametrlardan va 9,4 baravar kam hisob-kitoblardan foydalanadi
Bundan tashqari, parametr hajmi va CPU / GPU kechikishini EfficientDet va oldingi modellar bilan taqqosladik. Shunga o'xshash aniqlik cheklovlari bilan, EfficientDet modellari GPU-da 2-4 baravar tezroq va protsessorda boshqa detektorlarga qaraganda 5-11 baravar tez ishlaydi. EfficientDet modellari asosan ob'ektni aniqlash uchun mo'ljallangan bo'lsa, biz ularning samaradorligini semantik segmentatsiya kabi boshqa vazifalarda ham tekshiramiz. Segmentatsiya vazifalarini bajarish uchun biz bir xil o'lchamdagi magistral va BiFPN-ni saqlab, aniqlash boshi va boshning yo'qolishi va yo'qolishini almashtirish orqali EfficientDet-D4-ni biroz o'zgartiramiz. Biz ushbu modelni Paskal VOC 2012 uchun avvalgi zamonaviy segmentatsiya modellari bilan taqqoslaymiz, keng qo'llaniladigan segmentatsiyani sinash ma'lumotlar to'plami.
Favqulodda ko'rsatkichlarini hisobga olgan holda, EfficientDet kelajakda ob'ektlarni aniqlash bo'yicha tadqiqotlar uchun yangi asos bo'lib xizmat qilishi va potentsial ravishda juda aniq ob'ektlarni aniqlash modellarini ko'plab real dasturlarda foydali qilishi kutilmoqda. Shunday qilib, Github.com-da kodning oldindan sinab ko'rilgan barcha modellarini ochdi.