← Все кейсы

AI Lab — сравнение 11 LLM

Бенчмарк-стенд Telegram Forum 3 дня сборки

Задача

Перед тем как пускать LLM в реальный клиентский чат, нужно понимать на каких задачах она топ, а где галлюцинирует. Один вопрос — одиннадцать ответов рядом: видно где модель врёт, где придумывает цифры, а где действительно подходит для прода.

Что сделано

Личная лаборатория на базе Telegram-форум-группы. Каждая тема форума = отдельная LLM (11 моделей: ChatGPT 5.5, Gemini 3.1 Pro, DeepSeek V4 Pro, Qwen 3.7 Max, Kimi K2.6, Hermes 4 70B, Grok 4.3, Mistral Large, Llama 4 Scout, GigaChat, YandexGPT Pro). Один и тот же вопрос задаётся в каждую тему — получаю 11 ответов на одной странице и сравниваю бок о бок. Финальная тема «Анализ» агрегирует выводы.

Что проверяли (9 категорий)

Результаты — матрица оценок

11 моделей × 9 задач = 99 ответов, оценка по 5-балльной шкале: ★ отлично · ● хорошо · ▲ с оговорками · ✕ ошибка · — не ответил.

5 наблюдений, которые меняют выбор модели

1
Галлюцинация с правдоподобной таблицей опаснее устаревших данных. Уверенная подача страшнее ошибки.
2
Способность ОТКАЗАТЬ — главная метрика финассистента. Для клиентского чата это разница между профессионализмом и иском.
3
Vision на бумаге ≠ Vision в продакшене. Тестировать на реальной интеграции, не на спецификациях.
4
Честный «не знаю» сильнее уверенного «вот ответ». Для эксперта в чате честный отказ — фича, а не баг.
5
Высокий рейтинг в general benchmarks ≠ безопасность в твоей нише. Универсальный лидер может провалиться на отраслевых задачах.

Главный инсайт

Это не разовый тест, а инструмент под любую отрасль. Сегодня — финансы; завтра можно прогнать юридические задачи, медицинские кейсы, маркетинговые брифы, дизайн-промпты, программирование, образовательный контент. Архитектура переиспользуемая.

Стек

Telegram Forum + Bot API Подключение к 11 API провайдеров HTML/CSS · Python · Playwright 3 дня от идеи до рабочего стенда

Открытый код

Шаблоны инфографик и рендер-скрипт — на GitHub:

github.com/tori74/ai-lab-benchmark

Связаться

Telegram: @tori_74