Деплой LLM on-prem: Это наша корова и мы ее доим!
Деплой LLM on-prem: Это наша корова и мы ее доим! Кто виноват? Что делать?(с) Заметили, что в наше веселое турбулентное время рождения многополярного мира все больше запросов на он-прем деплоймент ЛЛМ - а так как подводных камней там много, а опыта мало - то попробуем разобраться с вопросом. — Как дела с проектом? — Мы на финальной стадии! — Супер, сдаете? — Нет, ищем виноватого! Итак - вот пришли к вам с типичными требованиями - хотим все в закрытом периметре. Чтобы Железный Болван болтал с клиентами на их языке, не выходил за периметр корпоративной сети, отвечал только по проверенным бумагам и, едва запахнет сомнением, — тут же переключал на живого оператора. А заодно — связывал воедино все отделы, рисовал отчёты для начальства, конверсию поднял нам до небес, рулил всеми бизнес-процессами, проходил проверки регуляторов и ещё, пожалуйста, уложился бы в фиксированный бюджет с гарантией на несколько лет. И да, демонстрацию можно посмотреть послезавтра? ...
Команды агентов Claude
Agent teams: Командор и экипаж “Антилопы Гну” В одной из прошлых статей (О Дивный Новый Мир) шла речь о том как меняется роль нашего брата, отчаянно пытающегося продержаться еще немного на плаву перед неизбежной необходимостью осваивать более полезные чем ИТ профессии - гусезаводчиков или операторов доильных аппаратов. В общем - вопрос как нам управлять агентами, которые поведенческими шаблонами вполне напоминают экипаж “Антилопы Гну”. Но Остап же справлялся, попробуем мы. ...
Трансформеры для самых маленьких
Как работают трансформеры: понятное объяснение Так, вернёмся же опять к трансформерам и попробуем как-то разобраться как они работают - как обычно, минимум заумных формул и сгенерированного ИИ текста. Автор не претендует на статус истины в последней инстанции и вполне может где-то и приврать 1. Зайдем с чего то попроще А давайте освежим в памяти как работали рекуррентные сети - то есть «возвращающиеся к себе», как тут не вспомнить Гегеля и его Абсолютный Дух что проходит путь отчуждения от себя и возвращения к себе же — таки гегелевская рекуррентность в чистом виде. ...
Учиться, учиться и учиться!
«Учиться, учиться и учиться!» (с) В.И. Ленин Зачем это все? Итак — задача: реализовать ИИ-ассистента, использующего SLM (Small Language Model) для извлечения персонализированной информации о пользователе. Почему SLM? Ну, приватность — данные не уходят никому, экономия опять же. Детали нам не нужны тут — важно понять, возможно ли это вообще с приемлемым качеством, какие тернии нас ждут, кто виноват и что делать? Поехали! SLM Глянем, что есть на Hugging Face — остановимся на свеженькой Qwen3.5-0.8B — вроде близко к тому, что нам нужно, 0.8B параметров, вполне. Теперь наша задача — выяснить, насколько модель умна для наших задач — а тут не всё просто. Наша цель в идеале что-то вроде Google Memory Bank. Кстати, Google выложил своё видение Context Engineering: Sessions and Memory и это очень интересно — особенно раздел Memory Generation: Extraction and Consolidation. Вкратце перечислим основные тезисы: ...
Агенты, кругом одни агенты...
Агенты, кругом одни агенты… Наши иконы самые красивые (с) Предисловие: зачем вообще? Как вы знаете - в ИТ нет понятия “ничего не делал”. У нас это называется - “ресерчил”. Это тот момент, когда, едва проснувшись перед дейли, вы конвульсивно пытаетесь придумать за несколько секунд, как обосновать вчерашнее безделие. Но даже исследования ваши могут подразумевать наличие каких-то артефактов, которые возможно предъявить, уверяя, что вы работали над этим день и ночь. Не говоря уже о вполне прагматичных задачах - исследование каких-то новых тем, терминов, дабы произвести впечатление и поднять авторитет (и протянуть еще на контракте в наши скорбные времена). ...