Даже самый совершенный современный компьютер все еще не может конкурировать с мозгом, подарком природы, который быстро и достаточно точно сортирует объекты так, что люди и приматы могут мгновенно интерпретировать то, что они видят.
Классическая задача в компьютерном зрении, определение, содержат ли видеоданные некоторый характерный объект, особенность или активность. Эта задача может быть достоверно и легко решена человеком, но до сих пор не решена удовлетворительно в компьютерном зрении в общем случае: случайные объекты в случайных ситуациях. Существующие методы для решения таких проблем могут быть достоверно решены только для отдельных объектов, таких как простые геометрические объекты (например, многогранники), человеческие лица, печатные или рукописные символы, автомобили и только в определенных условиях, обычно это определенное освещение, фон и положение объекта относительно камеры.
Эти недостатки становятся более заметными, поскольку требования к системам распознавания изображения растет из года в год, например, для
систем безопасности, которые могут распознать лицо известного террориста в переполненном аэропорту и механизмах безопасности автомобиля, датчики которого, при обнаружении пешехода или другого транспортного средства на полосе движения, заставляют машину остановиться. В поисках решения этой задачи, исследователи массачусетского технологического института, пытаются применить достижения неврологии для улучшения искусственного интеллекта. Ведущие умы института в неврологии и информатики объединили свои исследования, соединяя сложные вычислительные модели мозга с работой над компьютерной обработкой изображения.
Этот междисциплинарный подход начал приносить плоды год назад, когда группа исследователей во главе с Томазо Поджио (Tomaso Poggio), учёным из Института Исследования Головного мозга Макговерна Массачусетского технологического института (M.I.T.'s McGovern Institute for Brain Research) и профессором отделения Мозга и Коннективизма института, применили компьютерную модель построенную по подобию человеского мозга, чтобы
интерпретировать ряд фотографий. Несмотря на то, что неврологическая модель была разработана всего лишь в виде теоретического анализа того, как работают зрительные проводящие пути (проводящие пути, по которому проводятся импульсы от сетчатки к подкорковым и корковым зрительным центрам), она оказалось столь же хорошей, как лучшие из существующих систем компьютерного зрения в случаях быстрого распознавания некоторых сложных сцен. Раньше, например, когда компьютеру показывали изображение лошади, которая наряду с прочими животными стояла в лесу, и ставили задачу идентифицировать лошадь, машина каждый раз зависала из за огромного числа данных, которые могли бы быть использованы для отделения лошади от других животных или деревьев.
«Использование неврологической модели стало первым опытом, когда компьютерная модель была в состоянии воспроизвести человеческое поведение при такой задаче, - рассказывает Поджио, – и это приблизило исследователей к пониманию, как зрительная кора головного мозга распознает объекты и сцены».
«Некоторые автомобильные компании в течение многих лет пробовали разработать компьютерные системы, которые позволяли бы их транспортным
средствам идентифицировать пешеходов и другие транспортные средства среди переполненного уличного фона и выдавать водителям предупреждение, как только они подьедут слишком близко. Этот тип распознавания настолько легок для людей, что они даже не ощущают того, что происходит у них в голове в процессе этой работы."
Когда человеку показывают картину, за доли секунды зрительная кора мозга опознаёт изображение. Зрительная кора - большая часть системы
обработки информации головного мозга и одна из самых сложных. «Понимание того, как она работает, могло бы стать существенным шагом к познанию принципа работы мозга. "Зрение представляет знание, - отмечает Поджио, - Человеческий мозг обладает мощной способностью решать сложные проблемы, такие как игра в шахматы или решение алгебраических уравнений, вот почему компьютерные программисты, строя системы, подражающие мозговой деятельности, имеют такой большой успех.»
К настоящему времени разработка Поджио построена на модели "зрительной обратной связи", которая происходит, когда глаз видит изображение в
первый раз. Он и его коллеги теперь надеются построить новые модели, которые помогут им лучше понимать, как работает мозг во время осмотра
глазами изображения на картинке, как он интерпретирует пространственные отношения объектов на ней. Существует надежда на то, что это в конечном счете приведет к программному обеспечению, которое сможет повторить работу человеческого мозга и в конечном счете объяснить не только быстрое познание окружающей среды людьми но также и другиe аспекты нашего зрительного знания.
Комментарии: