Tinker-GPT-110M
Tinker-GPT-110M is a custom, hardware-efficient decoder-only language model. It was designed to incorporate modern architectural enhancements, such as Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU activations, and QK-Normalization, utilizing optimized Triton kernels where available.
⚠️ WARNING: No Supervised Fine-Tuning (SFT) / RLHF This model is a base model (pretrained completion model). It has not undergone Supervised Fine-Tuning (SFT), instruction tuning, or alignment (RLHF). It is designed to complete text or continue sequences rather than act as a conversational assistant. To achieve conversational behavior, SFT/instruction tuning on structured dialogue datasets is required.
Model Architecture
The model utilizes a standard autoregressive (decoder-only) Transformer architecture with several modern refinements:
- Total Parameters: ~110 Million
- Layers: 18
- Hidden Dimension (d_{model}): 512
- Attention Heads (Query): 8 (Head dimension: 64)
- Key-Value Heads (KV): 8 (configured for Grouped Query Attention compatibility)
- Feed-Forward Network (FFN) Dimension: 2048 with SwiGLU activation
- Context Window: 768 tokens
- Vocabulary Size: ~32,768 tokens
- Tokenization: Byte-Level BPE (Llama/GPT-2 style, utilizing tokenizers.pre_tokenizers.ByteLevel)
- Positional Embeddings: Rotary Position Embeddings (RoPE)
- Normalization: Root Mean Square Normalization (RMSNorm) with additional Query-Key Normalization (QK-Norm) to stabilize training.
- Residual Scaling: Residual projection weights are scaled by 1 / sqrt2N (where N is the number of layers) to prevent activation variance explosion.
Training Configuration & Metrics
- Hardware: 1x NVIDIA Tesla A10 GPU
- Training Time: Approximately 10 hours
- Dataset: FineWeb-Edu (processed up to 3.1 billion tokens over the training run)
- Final Loss: ~3.5 (Cross-Entropy with auxiliary Z-loss regularization)
- Optimizers:
- Muon: Applied to 2D internal linear layers within the Transformer blocks for optimized representation learning.
- AdamW: Applied to 1D parameters, embeddings, and normalization scales (with weight decay on non-dimensional layers and zero decay on norms/biases).
- Learning Rate Schedule: Warmup-Stable-Decay (WSD) scheduler.
Core Modules (Technical Overview)
- Grouped Query Attention with QK-Norm: Helps stabilize training by normalizing the Query and Key tensors before calculating dot-product attention.
- SwiGLU Activation: Implemented via custom Triton kernels to optimize memory bandwidth and execution speed.
- Fast RMSNorm: Accelerates normalization steps relative to standard LayerNorm.
- Z-Loss Regularization: Integrates an auxiliary loss penalty on the logsumexp of the logits to prevent numerical instability in half-precision training.
Tinker-GPT-110M
Tinker-GPT-110M — это кастомная, аппаратно оптимизированная языковая модель архитектуры decoder-only. Она спроектирована с использованием современных архитектурных решений, таких как Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), активация SwiGLU и QK-Normalization, работающих с поддержкой оптимизированных Triton-ядер.
⚠️ ПРЕДУПРЕЖДЕНИЕ: Отсутствует SFT (Supervised Fine-Tuning) / RLHF Эта модель является базовой (pretrained completion model). Она не проходила стадию контролируемого обучения (SFT), инструктивного тюнинга или выравнивания (RLHF). Модель предназначена для продолжения текста, а не для ведения диалога в режиме ассистента. Для получения стабильного диалогового поведения требуется проведение дополнительного SFT/инструктивного обучения на структурированных наборах данных.
Архитектура модели
Модель использует авторегрессионную (decoder-only) архитектуру Transformer со следующими параметрами:
- Общее число параметров: ~110 млн
- Количество слоев: 18
- Размерность скрытого слоя (d_{model}): 512
- Количество голов внимания (Query): 8 (размерность головы: 64)
- Количество KV-голов: 8 (структурировано для совместимости с Grouped Query Attention)
- Размерность промежуточного слоя (FFN): 2048 с функцией активации SwiGLU
- Контекстное окно: 768 токенов
- Размер словаря: ~32 768 токенов
- Токенизатор: Byte-Level BPE (в стиле Llama/GPT-2, на базе tokenizers.pre_tokenizers.ByteLevel)
- Позиционное кодирование: Rotary Position Embeddings (RoPE)
- Нормализация: Root Mean Square Normalization (RMSNorm) с дополнительной нормализацией запросов и ключей (QK-Norm) для повышения стабильности обучения.
- Масштабирование остаточных связей: Веса выходных проекций умножаются на коэффициент 1 / sqrt2N (где N — число слоев) для предотвращения раздувания дисперсии активаций.
Параметры и метрики обучения
- Оборудование: 1x видеокарта NVIDIA Tesla A10 GPU
- Время обучения: Около 10 часов
- Набор данных: FineWeb-Edu (в ходе обучения обработано до 3,1 миллиарда токенов)
- Финальный лосс: ~3.5 (Cross-Entropy с регуляризацией Z-loss)
- Оптимизаторы:
- Muon: Применяется для двумерных (2D) матриц весов линейных слоев внутри блоков трансформера.
- AdamW: Применяется для одномерных параметров, эмбеддингов и масштабов нормализации (с decay-коэффициентом 0.01 для основных весов и 0.0 для нормализаций/биасов).
- График изменения скорости обучения (LR): Warmup-Stable-Decay (WSD).
Ключевые модули модели
- Grouped Query Attention с QK-Norm: Снижает риск расхождения градиентов при обучении за счет нормализации векторов Query и Key перед вычислением скалярного произведения.
- Активация SwiGLU: Реализована на базе Triton-ядер для экономии пропускной способности памяти и ускорения вычислений.
- Fast RMSNorm: Ускоренная альтернатива стандартному LayerNorm.
- Регуляризация Z-Loss: Вспомогательный штраф на значение logsumexp логитов, предотвращающий их чрезмерный рост при обучении в половинной точности
Model tree for maksimkejs/tinker-base-110m
Unable to build the model tree, the base model loops to the model itself. Learn more.