English

Tinker-GPT-110M

Tinker-GPT-110M is a custom, hardware-efficient decoder-only language model. It was designed to incorporate modern architectural enhancements, such as Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU activations, and QK-Normalization, utilizing optimized Triton kernels where available.

⚠️ WARNING: No Supervised Fine-Tuning (SFT) / RLHF This model is a base model (pretrained completion model). It has not undergone Supervised Fine-Tuning (SFT), instruction tuning, or alignment (RLHF). It is designed to complete text or continue sequences rather than act as a conversational assistant. To achieve conversational behavior, SFT/instruction tuning on structured dialogue datasets is required.

Model Architecture

The model utilizes a standard autoregressive (decoder-only) Transformer architecture with several modern refinements:

  • Total Parameters: ~110 Million
  • Layers: 18
  • Hidden Dimension (d_{model}): 512
  • Attention Heads (Query): 8 (Head dimension: 64)
  • Key-Value Heads (KV): 8 (configured for Grouped Query Attention compatibility)
  • Feed-Forward Network (FFN) Dimension: 2048 with SwiGLU activation
  • Context Window: 768 tokens
  • Vocabulary Size: ~32,768 tokens
  • Tokenization: Byte-Level BPE (Llama/GPT-2 style, utilizing tokenizers.pre_tokenizers.ByteLevel)
  • Positional Embeddings: Rotary Position Embeddings (RoPE)
  • Normalization: Root Mean Square Normalization (RMSNorm) with additional Query-Key Normalization (QK-Norm) to stabilize training.
  • Residual Scaling: Residual projection weights are scaled by 1 / sqrt2N (where N is the number of layers) to prevent activation variance explosion.

Training Configuration & Metrics

  • Hardware: 1x NVIDIA Tesla A10 GPU
  • Training Time: Approximately 10 hours
  • Dataset: FineWeb-Edu (processed up to 3.1 billion tokens over the training run)
  • Final Loss: ~3.5 (Cross-Entropy with auxiliary Z-loss regularization)
  • Optimizers:
    • Muon: Applied to 2D internal linear layers within the Transformer blocks for optimized representation learning.
    • AdamW: Applied to 1D parameters, embeddings, and normalization scales (with weight decay on non-dimensional layers and zero decay on norms/biases).
  • Learning Rate Schedule: Warmup-Stable-Decay (WSD) scheduler.

Core Modules (Technical Overview)

  1. Grouped Query Attention with QK-Norm: Helps stabilize training by normalizing the Query and Key tensors before calculating dot-product attention.
  2. SwiGLU Activation: Implemented via custom Triton kernels to optimize memory bandwidth and execution speed.
  3. Fast RMSNorm: Accelerates normalization steps relative to standard LayerNorm.
  4. Z-Loss Regularization: Integrates an auxiliary loss penalty on the logsumexp of the logits to prevent numerical instability in half-precision training.

Tinker-GPT-110M

Tinker-GPT-110M — это кастомная, аппаратно оптимизированная языковая модель архитектуры decoder-only. Она спроектирована с использованием современных архитектурных решений, таких как Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), активация SwiGLU и QK-Normalization, работающих с поддержкой оптимизированных Triton-ядер.

⚠️ ПРЕДУПРЕЖДЕНИЕ: Отсутствует SFT (Supervised Fine-Tuning) / RLHF Эта модель является базовой (pretrained completion model). Она не проходила стадию контролируемого обучения (SFT), инструктивного тюнинга или выравнивания (RLHF). Модель предназначена для продолжения текста, а не для ведения диалога в режиме ассистента. Для получения стабильного диалогового поведения требуется проведение дополнительного SFT/инструктивного обучения на структурированных наборах данных.

Архитектура модели

Модель использует авторегрессионную (decoder-only) архитектуру Transformer со следующими параметрами:

  • Общее число параметров: ~110 млн
  • Количество слоев: 18
  • Размерность скрытого слоя (d_{model}): 512
  • Количество голов внимания (Query): 8 (размерность головы: 64)
  • Количество KV-голов: 8 (структурировано для совместимости с Grouped Query Attention)
  • Размерность промежуточного слоя (FFN): 2048 с функцией активации SwiGLU
  • Контекстное окно: 768 токенов
  • Размер словаря: ~32 768 токенов
  • Токенизатор: Byte-Level BPE (в стиле Llama/GPT-2, на базе tokenizers.pre_tokenizers.ByteLevel)
  • Позиционное кодирование: Rotary Position Embeddings (RoPE)
  • Нормализация: Root Mean Square Normalization (RMSNorm) с дополнительной нормализацией запросов и ключей (QK-Norm) для повышения стабильности обучения.
  • Масштабирование остаточных связей: Веса выходных проекций умножаются на коэффициент 1 / sqrt2N (где N — число слоев) для предотвращения раздувания дисперсии активаций.

Параметры и метрики обучения

  • Оборудование: 1x видеокарта NVIDIA Tesla A10 GPU
  • Время обучения: Около 10 часов
  • Набор данных: FineWeb-Edu (в ходе обучения обработано до 3,1 миллиарда токенов)
  • Финальный лосс: ~3.5 (Cross-Entropy с регуляризацией Z-loss)
  • Оптимизаторы:
    • Muon: Применяется для двумерных (2D) матриц весов линейных слоев внутри блоков трансформера.
    • AdamW: Применяется для одномерных параметров, эмбеддингов и масштабов нормализации (с decay-коэффициентом 0.01 для основных весов и 0.0 для нормализаций/биасов).
  • График изменения скорости обучения (LR): Warmup-Stable-Decay (WSD).

Ключевые модули модели

  1. Grouped Query Attention с QK-Norm: Снижает риск расхождения градиентов при обучении за счет нормализации векторов Query и Key перед вычислением скалярного произведения.
  2. Активация SwiGLU: Реализована на базе Triton-ядер для экономии пропускной способности памяти и ускорения вычислений.
  3. Fast RMSNorm: Ускоренная альтернатива стандартному LayerNorm.
  4. Регуляризация Z-Loss: Вспомогательный штраф на значение logsumexp логитов, предотвращающий их чрезмерный рост при обучении в половинной точности
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for maksimkejs/tinker-base-110m

Unable to build the model tree, the base model loops to the model itself. Learn more.

Dataset used to train maksimkejs/tinker-base-110m