Технологичният гигант Meta направи поредния си мащабен ход в сферата на изкуствения интелект с отворен код, като представи дългоочаквания модел Meta SAM 3 (Segment Anything Model 3). Според първите тестове и демонстрации, това е най-мощният и прецизен софтуер за компютърно зрение, създаван до момента. За да демонстрират възможностите му, разработчиците показаха как моделът може да изолира и проследява в реално време всеки един играч на терена по време на динамичен мач от плейофите на NBA.
Постижението бързо събра погледите на софтуерните инженери и спортните анализатори по света, тъй като обработката на толкова интензивно видео съдържание в реално време досега се смяташе за изключително трудна задача.
Новият Meta SAM 3 не просто разпознава фигури, а прави пълна сегментация на обектите пиксел по пиксел в реално време. Фактът, че компанията предоставя този инструмент с отворен код, дава в ръцете на разработчиците технология, която доскоро беше достъпна само за затворени, скъпоплатени корпоративни системи.
Съдържание
Защо проследяването на мач от NBA е толкова трудно
На пръв поглед проследяването на хора на екран изглежда лесно, но от техническа гледна точка видеото от спортно събитие на живо е истински кошмар за компютърното зрение. Играчите се движат с екстремна скорост, сменят посоката си за милисекунди и непрекъснато се застъпват пред камерата (явление, известно като оклузия).
При стандартните модели, когато един играч премине зад друг или пред съдията, изкуственият интелект често се „обърква“ и разменя техните идентификатори. Моделът Meta SAM 3 преодолява този проблем благодарение на революционна архитектура за пространствено-времева памет, която позволява на софтуера да „помни“ визуалните характеристики на обекта, дори когато той е временно скрит от погледа.
Какво прави модела технически феномен
Тайната на технологията се крие в способността ѝ да обедини два сложни процеса в едно: откриване (detection) и сегментация (segmentation) в реално време. Вместо просто да огражда играчите в груби правоъгълни кутии, Meta SAM 3 очертава точните контури на телата им, екипите и дори топката с перфектна точност.
-
Едновременно проследяване на десетки обекти: Архитектурата поддържа стабилен фокус върху всички 10 играчи на терена, съдиите и топката, без да увеличава латентността (забавянето) на видео стрийма.
-
Нулев секунден трансфер (Zero-shot генерализация): Софтуерът може да премине от проследяване на баскетболисти към проследяване на автомобили или медицински клетки на микроскоп, без да има нужда от допълнително обучение (fine-tuning) за конкретната ниша.
-
Оптимизирана изчислителна ефективност: Въпреки огромната си точност, моделът е проектиран така, че да изисква значително по-малко видео памет в сравнение със своите предшественици, което позволява работата му върху стандартен хардуер.
Бъдещето на спортните анализи и видеообработката
Възможностите на Meta SAM 3 надхвърлят рамките на обикновеното софтуерно забавление. В спортната индустрия този модел ще позволи генерирането на напълно автоматизирана статистика в реално време – от точното разстояние, изминато от даден атлет, до скоростта на пасовете и траекторията на стрелба.
Във видеообработката и киното моделът практически елиминира нуждата от традиционния зелен екран (green screen) за определени кадри. Тъй като изкуственият интелект може перфектно да отдели човека от фона в движение, софтуерните редактори могат да изолират обекти и да сменят фонове директно от заснетия материал с минимални усилия.
Нова ера за отворения код
С официалното пускане на Meta SAM 3, технологичният гигант продължава своята стратегия да подкопава платените и затворени AI екосистеми. Предоставянето на подобна изчислителна мощ безплатно в платформата GitHub означава, че хиляди стартъпи и независими разработчици могат да започнат да изграждат свои приложения за камери за сигурност, автономни автомобили и добавена реалност (AR) още днес. Бъдещето на компютърното зрение току-що стана много по-достъпно и невероятно бързо.
Technology.bg Светът на технологиите