AI-аналитика логов: как мы предсказываем сбои до того, как они случатся

Три месяца назад в три часа ночи мне пришло уведомление. Не о том, что что-то упало — а о том, что один из Docker-контейнеров, судя по динамике метрик последних 72 часов, с высокой вероятностью умрёт в ближайшие 6-12 часов от нехватки памяти. Я встал, залогинился на сервер, посмотрел на графики и понял: AI прав. Контейнер действительно набирал память по ~15MB в час последние три дня — плавно, незаметно, не триггеря ни один пороговый алерт. Я увеличил лимит памяти и добавил swap. Утром в 8:47 — именно тогда, по расчётам модели, должен был случиться OOM — контейнер работал как ни в чём не бывало.

Это не магия и не фантастика. Это то, что я строю в CosDevDirector уже полгода — систему, которая умеет читать логи не как текст, а как симптомы. И я хочу рассказать, как это работает изнутри, почему это принципиально отличается от обычного мониторинга с порогами, и где здесь реальная ценность, а где маркетинговая шелуха про "предиктивную аналитику".

Начну с честного признания: я долго скептически относился к AI в DevOps. Не потому что не верю в нейросети — верю, пользуюсь каждый день. Просто слишком много видел "AI-мониторинга", который на деле оказывался набором if-else с красивым интерфейсом. Настоящий скачок произошёл, когда я начал гонять сырые логи через языковые модели и увидел, что они делают с неструктурированным текстом. Вот тогда стало интересно.

Почему классический мониторинг слепой к половине проблем

Я работаю с инфраструктурой промышленных и B2B-компаний уже больше десяти лет. И каждый раз, когда разбираю постмортем какого-нибудь неприятного инцидента, вижу одно и то же: все метрики были в норме, все пороги не были пробиты, Prometheus молчал — а система всё равно легла. Почему так происходит?

Классический мониторинг работает по принципу порогов. Ты говоришь: если CPU больше 80% в течение 5 минут — алерт. Если диск заполнен на 90% — алерт. Если сайт не отвечает за 5 секунд — алерт. Это разумно. Это работает для очевидных ситуаций. Но реальные сбои редко бывают очевидными — они накапливаются постепенно, через множество слабых сигналов, каждый из которых по отдельности ни о чём не говорит. Ты смотришь на дашборд и видишь зелёные галочки — и при этом система уже идёт к обрыву, просто медленно, по такой траектории, которую пороговый алерт не поймает никогда.

Вот конкретный пример из жизни. У меня есть сервер с 1С и Bitrix24. Каждый из них генерирует логи постоянно: запросы OData, транзакции, ошибки подключений, время отклика. Обычный мониторинг смотрит на каждую метрику отдельно: время отклика в норме — галочка. Количество ошибок ниже порога — галочка. Использование RAM в норме — галочка. Но если посмотреть на всё вместе и в динамике — можно увидеть совсем другую картину. Время отклика растёт на 3% каждые сутки. Количество lock-ов в 1С увеличивается не резко, а постепенно, будто кто-то медленно затягивает гайку. Раз в сутки появляется одна и та же запись в tech journal — не критичная по уровню, но упорно повторяющаяся. По отдельности — шум. Вместе — диагноз.

Именно это я и называю "слепотой классического мониторинга". Он работает с точками, а не с линиями. Видит текущее состояние, но не видит вектор движения. И уж точно не видит корреляции между разными источниками данных. Наладить такую корреляцию вручную — значит написать десятки специализированных правил для каждой комбинации метрик. Это возможно, но дорого, хрупко и всегда отстаёт от реальности. Каждое новое правило — это отдельная инженерная работа. А жизнь не стоит на месте: появляются новые интеграции, меняются паттерны нагрузки, добавляются сервисы — и твой набор правил стремительно устаревает.

AI решает эту проблему принципиально иначе. Языковая модель не знает заранее, какие паттерны искать. Она читает тысячи строк логов, видит контекст, видит изменения во времени — и формулирует гипотезы. Иногда неверные. Но часто — неожиданно точные. И главное: она не требует настройки правил под каждый новый тип ошибки. Достаточно хорошего промпта и правильно организованного входного контекста.

Отдельно стоит проблема неструктурированных логов. Журналы journalctl, Docker-логи, трейсы 1С — это текст. Сырой, разношёрстный, с разными форматами дат, уровнями severity, кастомными сообщениями. Написать парсер для всего этого зоопарка — отдельный проект на несколько недель. И этот парсер будет ломаться при каждом обновлении любого из компонентов. AI читает это всё как читает человек: без парсинга, без схемы, просто понимая смысл написанного. Это принципиальное преимущество, которое трудно переоценить, если вы когда-нибудь пытались нормализовать логи от 1С в одном пайплайне с журналами Nginx.

Есть и ещё одно измерение, про которое редко говорят: усталость от алертов. Если ваша система мониторинга генерирует 50 уведомлений в день, из которых 47 оказываются ложными срабатываниями — инженеры начинают их игнорировать. Это называется alert fatigue, и это реальная проблема в любой достаточно сложной инфраструктуре. Когда алертов много и они часто ложные — именно настоящие, важные сигналы тонут в шуме. AI-аналитика, при правильной настройке, даёт обратное: не поток нотификаций, а редкие, но точные сигналы с уже готовым объяснением.

Как устроена двухпровайдерная архитектура

Расскажу про техническую часть, потому что она интересная и нетривиальная.

Когда я проектировал AI-сервис в CosDevDirector, столкнулся с простым, но важным вопросом: на какую модель полагаться? Anthropic Claude даёт отличный анализ кода и логов, хорошо рассуждает на русском, умеет работать с длинным контекстом — что особенно важно при анализе больших объёмов логов. OpenAI GPT быстрее отвечает в ряде сценариев, у него другие сильные стороны в структурировании вывода. Но оба провайдера время от времени падают — бывают перегрузки, maintenance windows, региональные ограничения. В production-системе, которая должна присылать алерты ночью, это неприемлемо.

Решение простое: dual-provider с автоматическим переключением. В `server/src/services/ai.ts` реализована абстракция, которая работает так: основной провайдер настраивается через переменную окружения. При каждом запросе система пытается обратиться к нему. Если получает ошибку — connection refused, timeout, rate limit, 5xx — автоматически переключается на резервный провайдер и делает тот же запрос заново. Для пользователя это прозрачно: он видит результат, не зная, какая модель его сгенерировала. Это примерно то же самое, что резервный интернет-канал: пока основной работает — ты его даже не замечаешь. Когда падает — переключаешься автоматически.

Важный момент — промпты одинаковые для обоих провайдеров. Я потратил время на то, чтобы формулировки задач работали одинаково хорошо и с Claude, и с GPT. Это не всегда тривиально: модели по-разному реагируют на инструкции, по-разному структурируют ответы, у них разные склонности к многословию и разная манера выражать неопределённость. Пришлось найти общий знаменатель — формулировки, которые обе модели интерпретируют одинаково и выдают сопоставимо структурированный результат. В итоге базовый промпт для анализа логов выглядит примерно так: "Ты — senior DevOps инженер, анализирующий логи production-системы. Вот последние N строк из [источника]. Найди паттерны, указывающие на деградацию производительности, нарастающие проблемы или риски сбоя в ближайшие часы. Структурируй ответ: критические находки, предупреждения, рекомендации." Обе модели с этим справляются хорошо.

Стриминг ответов я добавил позже, когда понял, что анализ 10 000 строк логов занимает 15-30 секунд и пользователь просто смотрит на крутящийся спиннер. Стриминг позволяет показывать текст по мере генерации — интерфейс оживает, пользователь видит, что работа идёт, первые выводы появляются через несколько секунд. Мелочь, но психологически важная: ощущение ожидания принципиально отличается от ощущения наблюдения за работой. Технически это Server-Sent Events со стороны сервера и потоковая запись в div на клиенте.

Отдельно про стоимость. Вопрос, который мне задают чаще всего: во сколько обходится гонять логи через API каждые несколько минут? Ответ меня самого удивил: ~$5-10 в месяц на вполне приличные объёмы анализа. Секрет в том, что я не гоняю сырые логи целиком. Система предварительно агрегирует: берёт последние 500-1000 строк по каждому источнику, убирает дубли, сжимает повторяющиеся паттерны. Если одна и та же ошибка "connection refused" появляется 47 раз подряд — в модель идёт "[connection refused × 47 за 2 минуты]" вместо 47 идентичных строк. В итоге на вход модели попадает компактный, информационно плотный текст, а не гигабайты повторений. Это и дешевле, и даёт лучший результат — модель не "тонет" в повторах и фокусируется на существенном.

Cron-расписание для AI-анализа инфраструктуры у меня стоит на `7,22,37,52 * * * *` — каждые 15 минут со смещением, чтобы не совпадать с другими тяжёлыми задачами. За месяц это примерно 2880 запросов. При средней длине контекста около 2000 токенов — получается порядка 6 миллионов токенов в месяц на вход. По текущим ценам API это как раз и выходит в те $5-10. Для сравнения: один час простоя production-системы для среднего B2B-клиента — это в десятки, а то и сотни раз больше.

Как AI находит то, что не видит мониторинг

Теперь о конкретных механиках — как именно предсказывается сбой, что происходит внутри, и почему это работает.

Первое и самое мощное — анализ трендов в свободном тексте логов. Классический мониторинг видит числа: CPU 45%, RAM 72%. AI видит фразы: "connection pool exhausted", "slow query detected", "retry attempt 3 of 5". Такие фразы часто появляются задолго до того, как числовые метрики выйдут за пороги. Например, "retry attempt" — сам по себе не критичный. Но если частота этих сообщений удваивается каждые сутки — это явный сигнал нарастающей проблемы с сетью или зависимым сервисом. Классический мониторинг это не поймает, потому что он не считает частоту произвольных текстовых фраз — он работает только с тем, что было явно настроено как метрика.

Второе — корреляция между источниками. В CosDevDirector AI одновременно видит логи серверов (journalctl через SSH), Docker-контейнеров, Bitrix24, 1С. Это позволяет находить причинно-следственные связи, которые в изолированных инструментах вообще не видны. Конкретный случай: на одном проекте AI заметил, что временны́е метки ошибок в Bitrix24 ("не удалось обновить сделку") совпадают с временны́ми метками slow query в MySQL. Вот так и строится диагноз: не "у нас что-то тормозит", а "Bitrix падает потому что MySQL под нагрузкой именно в эти моменты". Это уже конкретная задача для исправления — нужно смотреть не в Bitrix, а в базу.

Третье — понимание контекста ошибок. Вот пример, который меня особенно впечатлил. В Docker-логах периодически появлялось сообщение "OOMKilled". Классический мониторинг это видит и выдаёт алерт: контейнер был убит ядром из-за нехватки памяти. Всё. Информации для действия — ноль, только факт. AI прочитал логи за последние 72 часа и написал конкретно: контейнер X за три дня постепенно наращивает потребление памяти с 340MB до 890MB при лимите 1GB. Скорость роста около 15MB в час. Текущий прогноз: лимит будет превышен через 6-8 часов. Вероятная причина — утечка памяти в процессе обработки очереди, в логах видны сообщения о незакрытых соединениях к Redis. Рекомендации: временно увеличить лимит до 2GB, проверить код работы с Redis-клиентом на предмет утечки. Это не алерт. Это дифференциальный диагноз с планом действий.

Четвёртое — исторические паттерны. Каждый прогон анализа сохраняется в базу. AI знает, что происходило неделю назад, месяц назад. Это позволяет отличать сезонные паттерны от реальных проблем. Например, каждый понедельник утром нагрузка на 1С резко вырастает — менеджеры начинают рабочую неделю, запускают регламентные отчёты, синхронизируют данные за выходные. Без исторического контекста это выглядит как потенциальный инцидент: CPU скачок, рост времени отклика, увеличение числа активных сессий. С историческим контекстом — это норма, и алерта не будет. Это тонкое, но важное различие: хорошая система мониторинга должна знать ритм жизни конкретной системы, а не работать от усреднённых порогов.

Пятое — генерация runbooks. Это, пожалуй, самая практически ценная функция, о которой меньше всего говорят в статьях про AI-мониторинг. Когда AI обнаруживает потенциальную проблему, он не просто выдаёт предупреждение. Он генерирует пошаговую инструкцию: что именно проверить, какие команды выполнить, как интерпретировать результаты, что делать если X, что делать если Y. Это называется runbook, и традиционно их пишут вручную senior-инженеры, тратя часы на документирование. AI делает черновик за 30 секунд. Черновик, который нужно проверить и откорректировать — но уже структурированный, уже с правильными вопросами, уже с логикой ветвления.

Шестое, о чём я часто думаю — это суммаризация как интерфейс. У меня каждый день генерируется огромный объём логов. Раньше я мог либо игнорировать большую часть из них, либо тратить время на ручной просмотр. Теперь у меня есть ежедневный дайджест: 5 ключевых наблюдений по каждому компоненту инфраструктуры. Читается за 3 минуты. Если там написано "всё спокойно, нет новых паттернов, все тренды стабильны" — я иду дальше. Если написано "обрати внимание на X" — иду разбираться. Это принципиально другой режим взаимодействия с логами: не чтение потока, а работа с выжимкой.

Практика: что происходит, когда AI ошибается

Было бы нечестно рассказывать только про успехи. AI ошибается, и важно понимать, как именно — и что с этим делать.

Самая частая ошибка — ложные срабатывания на нормальные паттерны, которые выглядят как аномалии. Когда я только запустил систему, она регулярно "находила проблемы" в плановых задачах 1С — ночных регламентных операциях, которые потребляют много CPU и генерируют специфичные записи в tech journal. Для AI, который не знал контекста, это выглядело как нагрузочная атака или runaway процесс. Решение: явно указать в системном промпте, что регламентные операции происходят ночью и их нужно игнорировать при оценке аномальности. После этой калибровки ложные срабатывания по ночным задачам исчезли. Урок: AI нужен контекст — что является нормой именно для этой системы. Без этого он работает от усреднённых представлений, которые не всегда совпадают с вашей реальностью.

Вторая проблема — галлюцинации в конкретных деталях. AI может написать "ошибка в файле /var/log/some/specific.log строка 4521" — и этого файла просто нет. Или предложить команду с несуществующим флагом. Или сослаться на документацию, которой не существует. Это классическая проблема языковых моделей: они уверенно говорят о конкретике, которую сами придумали. Мой подход: всё конкретное — пути, команды, параметры — проверять вручную перед исполнением. Runbook от AI — это черновик, не истина в последней инстанции. Если AI написал "выполни команду X" — я сначала читаю man страницу, потом выполняю. Это занимает минуту и спасает от неприятных сюрпризов.

Третья история: однажды AI предложил "увеличить размер connection pool в Nginx с 100 до 500". Звучит разумно — больше соединений, больше пропускная способность. Но параметр называется иначе, настраивается в другом месте, и просто увеличить его без понимания backend-ёмкости — значит создать новую проблему вместо решения старой. Это не ошибка AI в классическом смысле — это ограничение: модель не видит полную архитектуру, не знает все зависимости, не понимает, что изменение одного параметра меняет поведение всей цепочки. Она видит только то, что ей показали в контексте.

Из этого вытекает принцип, который я для себя сформулировал после нескольких таких случаев: AI в DevOps — это Junior-аналитик с феноменальной памятью и скоростью чтения, но без права самостоятельно нажимать на кнопки. Он читает, находит, предлагает — ты решаешь и делаешь. Это не ограничение, это правильное разделение ролей. Инженерное суждение не заменяется — оно освобождается от рутины первичного анализа. Разница принципиальная.

Ещё один тонкий момент — качество входных данных. Garbage in, garbage out — принцип работает здесь в полную силу. Если логи плохо структурированы, если сообщения без временны́х меток, если в Docker-контейнере logdriver настроен криво и половина сообщений теряется — AI будет строить анализ на неполных данных и делать соответствующие выводы. Я потратил немало времени на нормализацию логирования во всех своих сервисах прежде, чем получил действительно хорошее качество анализа. Это важный вывод: перед тем как добавлять AI-аналитику, стоит навести порядок в самом логировании. AI усиливает то, что есть — хорошие логи даёт хороший анализ, плохие логи даёт шум.

Отдельная история — с 1С Windows Server. У меня там стоит специальная очередь SSH-команд (sshQueue), которая строго последовательно выполняет запросы — иначе параллельные подключения блокируют учётную запись. AI-анализ для 1С работает через эту очередь, что добавляет задержку. Зато никаких блокировок. Это пример того, как реальная инфраструктура накладывает ограничения на идеальные архитектурные решения — и нужно с этими ограничениями работать, а не игнорировать их.

Что даёт реальную ценность и сколько это стоит

Давайте честно разберём экономику, потому что вопрос "зачем это вообще нужно" возникает у каждого второго, кому я рассказываю про эту систему.

Первый аргумент — время реакции на инциденты. Традиционный процесс: что-то упало → алерт → инженер просыпается или отрывается от задачи → начинает разбираться → читает логи → формулирует гипотезу → проверяет → чинит. От момента падения до понимания причины — 30-90 минут в типичном случае, и это оптимистичная оценка. Если проблема нетривиальная — несколько часов. С AI-суммаризацией: что-то упало → алерт с уже готовым анализом и предположительной причиной → инженер видит диагноз → проверяет конкретную гипотезу → чинит. Те же 10-20 минут при удачном раскладе. Это существенно, особенно ночью, особенно в production, особенно когда клиент уже пишет в поддержку.

Второй аргумент — когнитивная нагрузка. Читать 10 000 строк логов в поисках проблемы — это физически тяжело. Это не творческая работа — это механическое просеивание. Один хороший инженер, потративший час на чтение логов, использует свои лучшие качества — опыт, интуицию, системное мышление — на задачу, с которой справилась бы машина. Это не значит "заменить инженера". Это значит "дать инженеру уже переваренное" — чтобы он думал про решение, а не про парсинг текста. Разница как между тем, чтобы искать нужную цитату в библиотеке, и тем, чтобы иметь помощника, который уже нашёл её и несёт тебе на блюдечке.

Третий аргумент — те самые предсказания. Я уже рассказал про OOM-случай с Docker-контейнером. За последние три месяца система предупреждала о нарастающих проблемах ещё несколько раз — и каждый раз до того, как что-то реально упало. Один раз это был рост числа ошибок аутентификации в Bitrix, который оказался предвестником сбоя интеграции с телефонией — за несколько часов до инцидента система уже видела тревожный паттерн. Другой раз — постепенное замедление ответов 1С на OData-запросы: среднее время выросло с 180ms до 340ms за двое суток, что без предупреждения закончилось бы дедлоком и недоступностью базы. Это трудно оцифровать в деньги, но интуитивно понятно: downtime дорог, а $5-10 в месяц на API — нет. Соотношение расходится на порядки.

Четвёртый аргумент, который я ценю лично, — это документация знаний. Когда AI генерирует runbook по инциденту, он фактически фиксирует знание о системе в структурированном виде. Через полгода, когда снова случится похожая ситуация, у меня будет не смутное воспоминание "мы что-то делали с Redis", а конкретный документ с шагами и контекстом. Это особенно важно в небольших командах, где знание о системе сосредоточено в одной или двух головах. Если тот, кто настраивал систему, уходит — вместе с ним уходит и понимание того, почему сделано именно так и что нужно делать, когда что-то идёт не так. AI-сгенерированные runbooks частично закрывают этот gap.

Пятый аргумент — это масштабируемость внимания. У меня сейчас около десятка серверов, несколько десятков Docker-контейнеров, две крупные интеграции (1С и Bitrix24), несколько сайтов под мониторингом. Вручную держать всё это под наблюдением невозможно — внимание конечно. AI позволяет масштабировать наблюдение: он одновременно смотрит за всем и сигнализирует только тогда, когда что-то требует человеческого внимания. Это не замена внимания — это его усиление.

Теперь про ограничения, потому что честность важнее красивой картинки. Если ваша инфраструктура — это три статических сайта и один PostgreSQL без особой нагрузки, AI-аналитика логов — избыточная и ненужная история. Простой мониторинг с порогами закроет все потребности за ноль дополнительных денег. Точка применения этого подхода — сложные, многокомпонентные системы с несколькими интеграциями, где источников проблем много и корреляции неочевидны. Промышленная 1С плюс Bitrix плюс своя разработка плюс несколько серверов — вот здесь это начинает давать реальный эффект.

Ещё один честный минус: AI-аналитика работает хорошо, когда система стабильна. В период активного деплоя, когда всё постоянно меняется, AI путается. Он не всегда умеет отличить "новая функциональность добавила новые лог-сообщения" от "что-то сломалось". Новые паттерны в логах выглядят для него как аномалии, даже если это запланированные изменения. Для таких периодов я просто снижаю чувствительность анализа через параметр в промпте и больше полагаюсь на обычные ручные проверки. После стабилизации возвращаю на нормальный режим.

Что дальше: куда движется эта история

Я продолжаю развивать эту часть CosDevDirector и хочу поделиться тем, куда это движется — не в смысле маркетинговых обещаний, а в смысле конкретных технических задач, над которыми думаю прямо сейчас.

Первое — обратная связь по точности. Сейчас у меня нет систематического способа оценить, насколько AI был прав. Я помню истории, которые меня впечатлили — OOM-случай, история с Bitrix — но у меня нет статистики: сколько предупреждений оказались верными, сколько — ложными тревогами. Хочу добавить простую систему обратной связи: по каждому AI-предупреждению отмечать через 24 часа — подтвердилось или нет. Это даст данные для калибровки промптов и понимания реальной точности. Без этого я работаю на ощущениях, а ощущения — плохая метрика.

Второе — автоматические действия в ограниченном контексте. Пока AI только наблюдает и рекомендует — никаких самостоятельных действий. Я думаю о том, чтобы дать ему очень ограниченный набор автономных операций. Например, перезапуск конкретного контейнера по явно определённому сценарию — с обязательным логированием, уведомлением и возможностью отката. Не широкие полномочия, а узкий, хорошо определённый набор "разрешённых действий", каждое из которых безопасно само по себе. Это требует тщательной проработки контроля и аудита, но технически выглядит реализуемым в обозримой перспективе.

Третье — специализация промптов под типы систем. Сейчас у меня один генеральный промпт для анализа. Но 1С — это специфическая система с очень особенными паттернами ошибок: tech journal, блокировки, сессии, OData-специфика. Bitrix24 — другая специфика: SIP-баланс, дубли контактов, синхронизация сделок. Docker — своя: restart_time, healthcheck, OOM. Я хочу сделать специализированные промпты под каждый тип источника, которые знают "язык" конкретной системы и умеют интерпретировать её специфические коды ошибок и паттерны. Это существенно повысит точность при том же объёме входных данных.

Четвёртое — интеграция с базой знаний по инцидентам. У меня накапливается история инцидентов с постмортемами: что случилось, почему, как починили. Если давать эту историю на вход AI при анализе новых ситуаций — он сможет говорить не абстрактно, а конкретно: "Эта ситуация похожа на инцидент от 15 января, тогда причиной оказалось X, решение было Y, время устранения 40 минут." Это уже не просто анализ текущего состояния, а настоящая корпоративная память — система, которая учится на реальных кейсах конкретной инфраструктуры.

Пятое — мультимодальность. Пока AI работает только с текстом. Но у меня есть метрики, есть графики временны́х рядов. Современные мультимодальные модели умеют читать изображения с высоким качеством. Идея: генерировать скриншот графика CPU за последние 24 часа и передавать его вместе с логами. Это даст модели визуальный контекст о форме тренда — пилообразный, экспоненциальный, ступенчатый, плато с резким скачком — который трудно однозначно передать через цифры и который человек схватывает взглядом за секунду.

Я часто слышу вопрос: не переусложняем ли мы? Не проще ли просто хорошо настроить Grafana и Alertmanager? Это честный вопрос, и честный ответ — для многих случаев да, хорошо настроенный Grafana достаточен. Но я занимаюсь системами, где именно межкомпонентные корреляции и неочевидные медленные тренды являются источником самых болезненных инцидентов. Для них Grafana — необходимое условие, но недостаточное. AI-аналитика — это следующий слой поверх, который смотрит на инфраструктуру в целом и видит картину там, где набор отдельных графиков даёт только отдельные точки данных.

И если подумать глубже — это не про замену инструментов. Это про новый способ работы с информацией. У меня на production-серверах ежедневно генерируются миллионы строк логов. Раньше я читал их выборочно, по необходимости, зная, что пропускаю многое — может быть, самое важное. Теперь у меня есть постоянный читатель этих логов, который не пропускает ничего и каждые несколько часов делает мне выжимку того, на что стоит обратить внимание. Это не замена моего суждения — это его усиление. Я по-прежнему принимаю все решения. Но принимаю их с лучшей информацией, быстрее, тратя меньше сил на поиск иголки в стоге сена.

Я думаю, что через два-три года такой подход станет стандартом для любой серьёзной production-инфраструктуры. Не потому что это модно, а потому что это реально работает и порог входа стремительно снижается. Мы сейчас в точке, где языковые модели достаточно хороши для задачи анализа логов, API-доступ стоит копейки, и начать можно буквально с нескольких промптов и существующих логов. Это уже не исследовательский проект — это доступная инженерная практика, которую можно внедрить за несколько дней работы.

Единственное, что я знаю точно: те инциденты, которые я предотвратил за последние три месяца — каждый из них обошёлся бы дороже, чем годовой бюджет на API-вызовы. Математика простая. И эта математика не изменится.