Веб-агенти, які дійсно розуміють веб-сайти: як шар сприйняття Notte вирішує проблему DOM
Більшість сучасних AI-агентів, які працюють у браузері, стикаються з тим самим викликом: DOM-дерево. Це могутня, але надзвичайно складна структура, створена не для машинного сприйняття, а для рендерингу інтерфейсу. DOM постійно змінюється, має безліч станів і контекстів, а елементи — непрозору семантику. Тож чи може штучний інтелект дійсно «бачити» веб-сайт, як це робить людина? Саме на це запитання відповідає підхід платформи Notte.
Проблема: DOM — це не реальність, а її відображення
DOM — це не просто структура. Це інтерфейс між HTML, CSS, JavaScript і користувачем. Наприклад, одна й та сама кнопка може поводитися по-різному в залежності від класів, aria-атрибутів, станів або динамічних скриптів. Статичний парсинг тут безсилий.
Багато AI-агентів намагаються інтерпретувати DOM у вигляді дерева елементів або CSS-селекторів. Проте така стратегія має два головні недоліки:
- Відсутність семантики —
div
,span
іbutton
не завжди означають те, що здається. - Відсутність контексту — DOM не зберігає намір чи функцію елемента. Він просто показує структуру.
Рішення від Notte: шар сприйняття
Notte пропонує новий підхід: замість того, щоб працювати з «сирим» DOM, система додає шар сприйняття (perception layer), який формує абстрактне представлення інтерфейсу. Іншими словами, Notte створює внутрішню карту інтерфейсу, яку можна осмислити, як людину.
Цей шар:
- визначає семантичні ролі елементів (наприклад, “кнопка входу”, “пошукове поле”);
- інтегрує візуальні атрибути, розміщення та поведінку;
- враховує контекст взаємодії (наприклад, “цей елемент з’являється після авторизації”);
- оновлюється в реальному часі при зміні DOM.
Що це змінює?
Такий підхід дає агентам значно більше, ніж просто змога клікнути правильну кнопку. Тепер вони можуть:
- розуміти мету елементів (а не тільки їхній вигляд);
- взаємодіяти умовно (наприклад, “заповнити форму, якщо вона є”);
- враховувати динамічний стан сайту;
- будувати стратегії, як справжні користувачі (наприклад, “знайти форму зворотного зв’язку і надіслати повідомлення”).
Приклад на практиці
Агент із шаром сприйняття бачить не просто DOM-дерево, а таку структуру:
{
"type": "form",
"purpose": "login",
"fields": ["email", "password"],
"submit": "button"
}
З цим представленням він не буде шукати input[type="text"]
чи #login-button
. Він просто “знає”, що потрібно зробити, і вміє діяти відповідно.
Як це працює технічно?
Шар сприйняття Notte базується на поєднанні:
- моделі комп’ютерного зору, що бачить структуру;
- LLM-моделі, яка формує семантичні узагальнення;
- системи оновлень, яка стежить за змінами DOM у реальному часі.
Цей гібрид дозволяє не просто “парсити” сайт, а розуміти його.
Висновок
Інтернет був створений для людей — і саме це робить його складним для машин. Але Notte демонструє, що можливо дати штучному інтелекту відчуття простору, яке наближає його до людського способу взаємодії. Шар сприйняття — це не просто додатковий модуль. Це нова парадигма, яка відкриває двері до розумніших, чутливіших і точніших агентів у вебі.