Три кита, на которых стоит любой агент
Когда мы говорим про любого агента — будь то ChatGPT, GitHub Copilot или какая-то кастомная система — ему нужно дать три ключевых компонента.
Глаза: как агент видит мир
Агенту нужно видеть мир так же, как его видите вы. Но есть нюанс — он видит всё в текстовом формате. Поэтому первая задача: дать инструмент, с помощью которого агент сможет получить доступ к сырым данным в виде структурированного текста.
Примеры:
- Видеоролик → транскрипция даёт доступ к тексту
- Miro-борд → нужна возможность увидеть структуру диаграммы, а не просто набор квадратиков
- Excel на SharePoint → агент должен уметь открыть таблицу по ссылке и прочитать данные
Руки: как агент влияет на мир
Если вы хотите, чтобы агент не просто выдавал текст на экран, из которого придётся копипастить результат — дайте ему руки. Это инструменты, которые позволяют агенту влиять на внешний мир.
Примеры:
- Создание видео с аватаром → нужен инструмент для обращения к сервису генерации видео
- Построение диаграммы в Miro → нужен плагин для доступа к борду
- Редактирование Excel → нужны права на изменение файла в конкретном месте
Память: зачем агент всё это делает
Агент должен понимать свою задачу. Для этого вы создаёте инструкции — то, что называется промптом. Это первое сообщение, которое задаёт контекст всему дальнейшему диалогу.
В агентных системах типа GitHub Copilot вы просто создаёте markdown-файл с инструкцией, где описываете:
- Что вы хотите делать и зачем
- Как пользоваться "глазами" и "руками"
- Какой результат должен получиться
Агент автоматически воспринимает этот файл как промпт, обращается к нужным источникам данных, обрабатывает информацию и выкладывает результат туда, куда вы указали. Так происходит автоматизация.