Веб-агенти, які дійсно розуміють веб-сайти: як шар сприйняття Notte вирішує проблему DOM

Більшість сучасних AI-агентів, які працюють у браузері, стикаються з тим самим викликом: DOM-дерево. Це могутня, але надзвичайно складна структура, створена не для машинного сприйняття, а для рендерингу інтерфейсу. DOM постійно змінюється, має безліч станів і контекстів, а елементи — непрозору семантику. Тож чи може штучний інтелект дійсно «бачити» веб-сайт, як це робить людина? Саме на це запитання відповідає підхід платформи Notte.

Проблема: DOM — це не реальність, а її відображення

DOM — це не просто структура. Це інтерфейс між HTML, CSS, JavaScript і користувачем. Наприклад, одна й та сама кнопка може поводитися по-різному в залежності від класів, aria-атрибутів, станів або динамічних скриптів. Статичний парсинг тут безсилий.

Багато AI-агентів намагаються інтерпретувати DOM у вигляді дерева елементів або CSS-селекторів. Проте така стратегія має два головні недоліки:

  1. Відсутність семантикиdiv, span і button не завжди означають те, що здається.
  2. Відсутність контексту — DOM не зберігає намір чи функцію елемента. Він просто показує структуру.

Рішення від Notte: шар сприйняття

Notte пропонує новий підхід: замість того, щоб працювати з «сирим» DOM, система додає шар сприйняття (perception layer), який формує абстрактне представлення інтерфейсу. Іншими словами, Notte створює внутрішню карту інтерфейсу, яку можна осмислити, як людину.

Цей шар:

  • визначає семантичні ролі елементів (наприклад, “кнопка входу”, “пошукове поле”);
  • інтегрує візуальні атрибути, розміщення та поведінку;
  • враховує контекст взаємодії (наприклад, “цей елемент з’являється після авторизації”);
  • оновлюється в реальному часі при зміні DOM.

Що це змінює?

Такий підхід дає агентам значно більше, ніж просто змога клікнути правильну кнопку. Тепер вони можуть:

  • розуміти мету елементів (а не тільки їхній вигляд);
  • взаємодіяти умовно (наприклад, “заповнити форму, якщо вона є”);
  • враховувати динамічний стан сайту;
  • будувати стратегії, як справжні користувачі (наприклад, “знайти форму зворотного зв’язку і надіслати повідомлення”).

Приклад на практиці

Агент із шаром сприйняття бачить не просто DOM-дерево, а таку структуру:

{
  "type": "form",
  "purpose": "login",
  "fields": ["email", "password"],
  "submit": "button"
}

З цим представленням він не буде шукати input[type="text"] чи #login-button. Він просто “знає”, що потрібно зробити, і вміє діяти відповідно.

Як це працює технічно?

Шар сприйняття Notte базується на поєднанні:

  • моделі комп’ютерного зору, що бачить структуру;
  • LLM-моделі, яка формує семантичні узагальнення;
  • системи оновлень, яка стежить за змінами DOM у реальному часі.

Цей гібрид дозволяє не просто “парсити” сайт, а розуміти його.

Висновок

Інтернет був створений для людей — і саме це робить його складним для машин. Але Notte демонструє, що можливо дати штучному інтелекту відчуття простору, яке наближає його до людського способу взаємодії. Шар сприйняття — це не просто додатковий модуль. Це нова парадигма, яка відкриває двері до розумніших, чутливіших і точніших агентів у вебі.