Веб-агенти, які дійсно розуміють веб-сайти: як шар сприйняття Notte вирішує проблему DOM
Більшість сучасних AI-агентів, які працюють у браузері, стикаються з тим самим викликом: DOM-дерево. Це могутня, але надзвичайно складна структура, створена не для машинного сприйняття, а для рендерингу інтерфейсу. DOM постійно змінюється, має безліч станів і контекстів, а елементи — непрозору семантику. Тож чи може штучний інтелект дійсно «бачити» веб-сайт, як це робить людина? Саме на це запитання відповідає підхід платформи Notte.
Проблема: DOM — це не реальність, а її відображення
DOM — це не просто структура. Це інтерфейс між HTML, CSS, JavaScript і користувачем. Наприклад, одна й та сама кнопка може поводитися по-різному в залежності від класів, aria-атрибутів, станів або динамічних скриптів. Статичний парсинг тут безсилий.
Багато AI-агентів намагаються інтерпретувати DOM у вигляді дерева елементів або CSS-селекторів. Проте така стратегія має два головні недоліки:
- Відсутність семантики — 
div,spanіbuttonне завжди означають те, що здається. - Відсутність контексту — DOM не зберігає намір чи функцію елемента. Він просто показує структуру.
 
Рішення від Notte: шар сприйняття
Notte пропонує новий підхід: замість того, щоб працювати з «сирим» DOM, система додає шар сприйняття (perception layer), який формує абстрактне представлення інтерфейсу. Іншими словами, Notte створює внутрішню карту інтерфейсу, яку можна осмислити, як людину.
Цей шар:
- визначає семантичні ролі елементів (наприклад, “кнопка входу”, “пошукове поле”);
 - інтегрує візуальні атрибути, розміщення та поведінку;
 - враховує контекст взаємодії (наприклад, “цей елемент з’являється після авторизації”);
 - оновлюється в реальному часі при зміні DOM.
 
Що це змінює?
Такий підхід дає агентам значно більше, ніж просто змога клікнути правильну кнопку. Тепер вони можуть:
- розуміти мету елементів (а не тільки їхній вигляд);
 - взаємодіяти умовно (наприклад, “заповнити форму, якщо вона є”);
 - враховувати динамічний стан сайту;
 - будувати стратегії, як справжні користувачі (наприклад, “знайти форму зворотного зв’язку і надіслати повідомлення”).
 
Приклад на практиці
Агент із шаром сприйняття бачить не просто DOM-дерево, а таку структуру:
{
  "type": "form",
  "purpose": "login",
  "fields": ["email", "password"],
  "submit": "button"
}
З цим представленням він не буде шукати input[type="text"] чи #login-button. Він просто “знає”, що потрібно зробити, і вміє діяти відповідно.
Як це працює технічно?
Шар сприйняття Notte базується на поєднанні:
- моделі комп’ютерного зору, що бачить структуру;
 - LLM-моделі, яка формує семантичні узагальнення;
 - системи оновлень, яка стежить за змінами DOM у реальному часі.
 
Цей гібрид дозволяє не просто “парсити” сайт, а розуміти його.
Висновок
Інтернет був створений для людей — і саме це робить його складним для машин. Але Notte демонструє, що можливо дати штучному інтелекту відчуття простору, яке наближає його до людського способу взаємодії. Шар сприйняття — це не просто додатковий модуль. Це нова парадигма, яка відкриває двері до розумніших, чутливіших і точніших агентів у вебі.