Поділитись:

Нова модель сприйняття: наш мозок бачить дуже багатий світ

Субота, 14 березня 2020, 03:19
Нова модель сприйняття: наш мозок бачить дуже багатий світ

Коли ми відкриваємо очі, ми відразу дуже детально бачимо своє оточення. Мозок здатний швидко формувати ці детальні уявлення про світ – це одна з найбільших невирішених головоломок у дослідженні зору.

Комп'ютерна модель обробки обличчя могла б виявити, як мозок так швидко виробляє детально візуальні уявлення, пише MIT News.

Вчені, які вивчають мозок, намагалися повторити це явище за допомогою комп'ютерних моделей зору, але поки що провідні моделі виконують лише набагато простіші завдання, такі як вибір предмета чи обличчя на захаращеному тлі. Команда під керівництвом когнітивних науковців MIT створила комп'ютерну модель, яка відображає здатність зорової системи людини швидко генерувати детальний опис сцени із зображення, пропонує деяке розуміння того, як це досягає мозок.

"Те, що ми намагалися зробити в цій роботі, – це пояснити, як сприйняття може бути набагато багатшим, ніж просто прикріпити семантичні мітки до частин зображення, а також вивчити питання, як ми бачимо весь фізичний світ", – каже Джош Тененбаум, професор обчислювальної когнітивної науки та член лабораторії комп’ютерних наук та штучного інтелекту MIT (CSAIL) та Центру мізків, розумів та машин (CBMM).

Нова модель свідчить про те, що коли мозок отримує візуальний вхід, він швидко виконує серію обчислень, які обертають кроки, які використовує комп'ютерна графічна програма для створення двовимірного зображення обличчя чи іншого об'єкта. Цей тип моделі, відомий як ефективна зворотна графіка (EIG), також добре співвідноситься з електричними записами з обличчя-селективних регіонів у мозку нелюдських приматів, припускаючи, що зорова система приматів може бути організована так само, як і комп'ютерна модель , кажуть дослідники.

Зворотна графіка

Десятиріччя досліджень зорової системи мозку дуже докладно вивчали, як надходження світла на сітківку перетворюється на згуртовані картини. Це розуміння допомогло дослідникам штучного інтелекту розробити комп'ютерні моделі, які можуть повторити аспекти цієї системи, такі як розпізнавання обличь чи інших об'єктів.

"Зір – це функціональний аспект мозку, який ми найкраще розуміємо у людей та інших тварин. І комп’ютерний зір є однією з найуспішніших областей ШІ на сьогоднійшій час. Ми вважаємо належним, що машини тепер можуть переглядати фотографії та дуже добре розпізнавати обличчя та виявляти інші види об’єктів," – говорить Тененбаум.

Однак, навіть ці складні системи штучного інтелекту не наближаються до того, що може зробити візуальна система людини.

"Наш мозок – не просто виявляє, що там є якийсь предмет, або не розпізнає і ставить етикетку на щось. Ми бачимо всі форми, геометрію, поверхні, фактури. Ми бачимо дуже багатий світ", – зазначає  Єлдірім.

Більше століття тому лікар, фізик і філософ Герман фон Гельмгольц висунув гіпотезу, що візуальна система включає генератор зображень, який би використовувався, наприклад, для створення обличь, які ми бачимо під час сновидіння. Запуск цього генератора в зворотному напрямку дозволив би мозку працювати назад від зображення і робити висновок про те, яке обличчя чи інші предмети створюють це зображення, кажуть дослідники

Команда під керівництвом MIT вирішила створити особливий тип моделі глибокої нейронної мережі, щоб показати, як нейронна ієрархія може швидко зробити висновок про основні риси зображення – у цьому випадку конкретного обличчя. На відміну від стандартних глибоких нейронних мереж, використовуваних у комп’ютерному зорі, які навчаються із мічених даних, що вказують на клас об’єкта на зображенні, мережа дослідників навчається за моделлю, яка відображає внутрішні уявлення мозку про те, які зображення обличчями можуть виглядати.

Їх модель, таким чином, вчиться змінювати кроки, виконані програмою комп'ютерної графіки для створення облич. Ці графічні програми починаються з тривимірного зображення окремого обличчя, а потім перетворюють його в двовимірне зображення, як видно з певної точки зору.  Дослідники теоретизують, що зорова система мозку може робити щось подібне, коли сниться чи вигадує мисленнєвий образ чийогось обличчя.

Дослідники навчили свою глибоку нейронну мережу виконувати ці кроки в зворотному порядку – тобто це починається з 2D зображення, а потім додає такі функції, як текстура, кривизна та освітлення, щоб створити те, що дослідники називають "2.5D" поданням. Ці 2.5D зображення визначають форму та колір обличчя з певної точки зору. Потім вони перетворюються в 3D-зображення, які не залежать від точки зору.

Продуктивність моделі

Зараз дослідники планують продовжити тестування підходу моделювання додаткових зображень, включаючи об'єкти, які не стикаються, щоб дослідити, чи може зворотна графіка пояснити, як мозок сприймає інші види сцен. Крім того, вони вважають, що прийняття такого підходу до комп'ютерного зору може призвести до ефективніших систем ШІ.

"Якщо ми можемо показати докази того, що ці моделі можуть відповідати тому, як працює мозок, ця робота може змусити дослідників комп'ютерного зору серйозніше поставитися і вкласти більше інженерних ресурсів у цей зворотний графічний підхід до сприйняття", – стверджує Тененбаум.

Мозок все ще є золотим стандартом для будь-якої машини, яка бачить світ цілком і швидко.

ЧИТАЙТЕ ТАКОЖ: 

Надрукувати
мітки:
коментарів