AI | Anton Chirikalov's Blog

Деплой LLM on-prem: Это наша корова и мы ее доим!

Деплой LLM on-prem: Это наша корова и мы ее доим! Кто виноват? Что делать?(с) Заметили, что в наше веселое турбулентное время рождения многополярного мира все больше запросов на он-прем деплоймент ЛЛМ - а так как подводных камней там много, а опыта мало - то попробуем разобраться с вопросом. — Как дела с проектом? — Мы на финальной стадии! — Супер, сдаете? — Нет, ищем виноватого! Итак - вот пришли к вам с типичными требованиями - хотим все в закрытом периметре. Чтобы Железный Болван болтал с клиентами на их языке, не выходил за периметр корпоративной сети, отвечал только по проверенным бумагам и, едва запахнет сомнением, — тут же переключал на живого оператора. А заодно — связывал воедино все отделы, рисовал отчёты для начальства, конверсию поднял нам до небес, рулил всеми бизнес-процессами, проходил проверки регуляторов и ещё, пожалуйста, уложился бы в фиксированный бюджет с гарантией на несколько лет. И да, демонстрацию можно посмотреть послезавтра? ...

Команды агентов Claude

Agent teams: Командор и экипаж “Антилопы Гну” В одной из прошлых статей (О Дивный Новый Мир) шла речь о том как меняется роль нашего брата, отчаянно пытающегося продержаться еще немного на плаву перед неизбежной необходимостью осваивать более полезные чем ИТ профессии - гусезаводчиков или операторов доильных аппаратов. В общем - вопрос как нам управлять агентами, которые поведенческими шаблонами вполне напоминают экипаж “Антилопы Гну”. Но Остап же справлялся, попробуем мы. ...

Учиться, учиться и учиться!

«Учиться, учиться и учиться!» (с) В.И. Ленин Зачем это все? Итак — задача: реализовать ИИ-ассистента, использующего SLM (Small Language Model) для извлечения персонализированной информации о пользователе. Почему SLM? Ну, приватность — данные не уходят никому, экономия опять же. Детали нам не нужны тут — важно понять, возможно ли это вообще с приемлемым качеством, какие тернии нас ждут, кто виноват и что делать? Поехали! SLM Глянем, что есть на Hugging Face — остановимся на свеженькой Qwen3.5-0.8B — вроде близко к тому, что нам нужно, 0.8B параметров, вполне. Теперь наша задача — выяснить, насколько модель умна для наших задач — а тут не всё просто. Наша цель в идеале что-то вроде Google Memory Bank. Кстати, Google выложил своё видение Context Engineering: Sessions and Memory и это очень интересно — особенно раздел Memory Generation: Extraction and Consolidation. Вкратце перечислим основные тезисы: ...

Эмбеддинги, внимание, FNN и все что вы хотели знать, но боялись спросить

Эмбеддинги, внимание, FNN и все что вы хотели знать, но боялись спросить Вступление Сим я пытаюсь начать цикл статей, посвященных LLM (большим языковым моделям), нейросетям и всему, что рядом с аббревиатурой AI. Цели написания этих статей, конечно же, шкурные, ибо сам относительно недавно начал погружаться в эти темы и столкнулся с тем, что вроде бы и масса информации, и статей, и документов, написанных мелким шрифтом с заумными диаграммами и формулами, читая которые, заканчивая абзац, забываешь, о чем был предыдущий. Поэтому здесь я буду пробовать описать суть предметной области на концептуальном уровне - а посему обещаю избегать по максимуму математических формул и мудреных графиков, видя которые, читатель неизбежно ловит себя на желании закрыть вкладку браузера и посетить ближайший винно-водочный магазин. Так что - нет формулам (кроме самых простых), нет заумности, нет претензий выглядеть умнее, чем я есть. Эти статьи должна понять ваша бабушка, и если это не получилось - значит, я с поставленной задачей не справился. ...