Перейти к основному содержанию

Локальный ChatGPT на VPS: Ollama + Open WebUI за 15 минут

Как развернуть собственный AI-ассистент на VPS с помощью Ollama и Open WebUI. Docker Compose конфиг, выбор модели под RAM (4/8/16 ГБ), настройка безопасности и сравнение провайдеров для запуска LLM.

И
Илья Ковалев

Подписка на ChatGPT Plus стоит $20/мес, Claude Pro — $20/мес, а корпоративные API обходятся ещё дороже. При этом ваши данные отправляются на серверы OpenAI или Anthropic. Для тех, кому важна конфиденциальность и автономность, есть альтернатива — собственный AI-ассистент на VPS.

В этом гайде — установка Ollama + Open WebUI через Docker Compose за 15 минут, выбор модели под ваш бюджет RAM и настройка безопасности. Все команды проверены на Ubuntu 22.04/24.04 в марте 2026 года.

Зачем свой ChatGPT на VPS

Преимущества self-hosted LLM:

  • Конфиденциальность — данные не покидают ваш сервер, критично для бизнеса и персональных данных
  • Нет подписки — только стоимость VPS (от 400-800 руб/мес за 8 ГБ RAM)
  • Офлайн-доступ — работает без интернета после загрузки модели
  • Кастомизация — fine-tuning, системные промпты, интеграция с вашими инструментами
  • Выбор модели — Llama 3, Mistral, Gemma, DeepSeek и десятки других

Open-source модели в 2026 году достигли уровня GPT-3.5 и выше, а Llama 3 8B показывает результаты, сопоставимые с GPT-4 на многих задачах.

Системные требования VPS

Ollama работает на CPU без GPU, но скорость генерации зависит от объёма RAM и количества ядер:

4 ГБ RAM — только мини-модели до 2B параметров (Gemma 2B). Подходит для экспериментов, ответы медленные.

8 ГБ RAM — рабочий минимум. Mistral 7B и Llama 3 в квантовке Q4 работают приемлемо для одного пользователя. Ответ за 5-15 секунд.

16 ГБ RAM — комфортный вариант. Llama 3 8B, Gemma 9B, несколько параллельных чатов. Ответ за 3-8 секунд.

Минимальные требования: 2 vCPU (лучше 4), 40 ГБ SSD (модели занимают 2-8 ГБ каждая), Docker и Docker Compose.

Установка Ollama + Open WebUI через Docker

Шаг 1. Установка Docker (если не установлен):

curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
newgrp docker

Шаг 2. Создание docker-compose.yml:

mkdir ~/ai-chat && cd ~/ai-chat
nano docker-compose.yml

Содержимое docker-compose.yml:

version: "3.9"

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless-stopped
    volumes:
      - ./ollama:/root/.ollama
    ports:
      - "127.0.0.1:11434:11434"
    environment:
      - OLLAMA_HOST=0.0.0.0

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    restart: unless-stopped
    depends_on:
      - ollama
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
      - ENABLE_SIGNUP=false
    ports:
      - "127.0.0.1:8080:8080"
    volumes:
      - ./data:/app/backend/data

Порты привязаны к 127.0.0.1 — доступ только через SSH-тоннель или Nginx reverse proxy.

Шаг 3. Запуск и загрузка модели:

docker compose up -d

# Загрузка модели (выберите одну):
docker compose exec ollama ollama pull llama3:8b      # 4.7 ГБ, для 16 ГБ RAM
docker compose exec ollama ollama pull mistral:7b     # 4.1 ГБ, для 8 ГБ RAM
docker compose exec ollama ollama pull gemma2:2b      # 1.6 ГБ, для 4 ГБ RAM

docker compose exec ollama ollama list

Шаг 4. Доступ через SSH-тоннель:

ssh -L 8080:127.0.0.1:8080 user@YOUR_VPS_IP
# Откройте: http://localhost:8080

Выбор модели под ваш VPS

Ориентир по моделям для CPU-only VPS (квантованные Q4/Q5):

Llama 3 8B — лучшее качество среди моделей до 10B. Требует 16 ГБ RAM. Сильный в рассуждениях, коде и русском языке.

Mistral 7B — быстрый и эффективный. Работает на 8 ГБ RAM в квантовке Q4. Хорош для чата и генерации текста.

Gemma 2 2B/9B — модели от Google. 2B-версия работает даже на 4 ГБ RAM. 9B — отличное качество на 16 ГБ.

DeepSeek 7B — сильный в программировании и математике. Требует 8 ГБ RAM.

# Установка дополнительных моделей:
docker compose exec ollama ollama pull deepseek-r1:7b
docker compose exec ollama ollama pull qwen2:7b

Настройка безопасности

Open WebUI содержит ваши чаты и данные — защитите доступ:

  1. Порты только на 127.0.0.1 (уже в нашем docker-compose.yml)
  2. Доступ через SSH-тоннель или Nginx с SSL и HTTP Basic Auth
  3. ENABLE_SIGNUP=false — отключает регистрацию новых пользователей
  4. Регулярные обновления: docker compose pull && docker compose up -d
  5. UFW: не открывайте порты 8080 и 11434 в интернет

Пример Nginx reverse proxy с SSL:

server {
    listen 443 ssl http2;
    server_name ai.yourdomain.com;
    ssl_certificate /etc/letsencrypt/live/ai.yourdomain.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/ai.yourdomain.com/privkey.pem;
    location / {
        proxy_pass http://127.0.0.1:8080;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
    }
}

Какой VPS выбрать для запуска LLM

  • 4VPS.su — от 420 руб/мес за 4 ГБ RAM, для экспериментов с Gemma 2B
  • Aeza — от 169 руб/мес, быстрые NVMe-диски для загрузки моделей
  • RUVDS — от 139 руб/мес с DDoS-защитой, 16 ГБ тарифы для Llama 3 8B
  • AdminVPS — от 299 руб/мес

Нужен VPS для AI-ассистента?

Сравните 16 провайдеров. От 139 руб/мес.

Выбрать VPS для AI

Плюсы и минусы

Преимущества

  • Полная конфиденциальность — данные не покидают ваш сервер
  • Нет ежемесячной подписки за API — только стоимость VPS
  • Docker Compose установка за 15 минут
  • Выбор из десятков open-source моделей (Llama 3, Mistral, Gemma)

Недостатки

  • На CPU без GPU ответы генерируются медленнее (5-30 сек)
  • Для больших моделей (70B+) нужен GPU-сервер
  • Требуется базовое знание Docker и Linux

Частые вопросы

Сколько стоит VPS для запуска локального ChatGPT?

Минимальный VPS с 8 ГБ RAM для Mistral 7B стоит от 400-800 руб/мес. Комфортный вариант с 16 ГБ RAM для Llama 3 8B — от 800-1500 руб/мес.

Можно ли запустить Ollama без GPU на обычном VPS?

Да, Ollama работает на CPU. Модели до 7B параметров работают приемлемо на CPU-only VPS с 8+ ГБ RAM. Ответ генерируется за 5-15 секунд.

Какую модель выбрать для русского языка?

Llama 3 8B лучше всего работает с русским языком среди моделей до 10B. Для 8 ГБ RAM подойдёт Mistral 7B с хорошей поддержкой русского.

Как обновить Ollama и Open WebUI?

Выполните: docker compose pull && docker compose up -d. Данные и загруженные модели сохраняются в Docker volumes.

Безопасно ли запускать Open WebUI на VPS?

Да, если порты привязаны к 127.0.0.1 и доступ через SSH-тоннель или Nginx с SSL. Отключите регистрацию через ENABLE_SIGNUP=false.

VPS для запуска LLM моделей

Выбрать VPS для AI

Статья содержит партнёрские ссылки. При переходе и покупке мы получаем комиссию без дополнительных затрат для вас. Подробнее

E

Илья Ковалев

Илья Ковалев — DevOps-инженер и основатель EasyLinkLife. Практикует self-hosted AI-решения на VPS с 2024 года.

Проверено: Команда EasyLinkLife | Обновлено: 16 марта 2026 г.

Полезные материалы