Tinker-GPT-110M

Tinker-GPT-110M is a custom, hardware-efficient decoder-only language model. It was designed to incorporate modern architectural enhancements, such as Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), SwiGLU activations, and QK-Normalization, utilizing optimized Triton kernels where available.

⚠️ WARNING: No Supervised Fine-Tuning (SFT) / RLHF This model is a base model (pretrained completion model). It has not undergone Supervised Fine-Tuning (SFT), instruction tuning, or alignment (RLHF). It is designed to complete text or continue sequences rather than act as a conversational assistant. To achieve conversational behavior, SFT/instruction tuning on structured dialogue datasets is required.

Model Architecture

The model utilizes a standard autoregressive (decoder-only) Transformer architecture with several modern refinements:

Total Parameters: ~110 Million
Layers: 18
Hidden Dimension (d_{model}): 512
Attention Heads (Query): 8 (Head dimension: 64)
Key-Value Heads (KV): 8 (configured for Grouped Query Attention compatibility)
Feed-Forward Network (FFN) Dimension: 2048 with SwiGLU activation
Context Window: 768 tokens
Vocabulary Size: ~32,768 tokens
Tokenization: Byte-Level BPE (Llama/GPT-2 style, utilizing tokenizers.pre_tokenizers.ByteLevel)
Positional Embeddings: Rotary Position Embeddings (RoPE)
Normalization: Root Mean Square Normalization (RMSNorm) with additional Query-Key Normalization (QK-Norm) to stabilize training.
Residual Scaling: Residual projection weights are scaled by 1 / sqrt2N (where N is the number of layers) to prevent activation variance explosion.

Training Configuration & Metrics

Hardware: 1x NVIDIA Tesla A10 GPU
Training Time: Approximately 10 hours
Dataset: FineWeb-Edu (processed up to 3.1 billion tokens over the training run)
Final Loss: ~3.5 (Cross-Entropy with auxiliary Z-loss regularization)
Optimizers:
- Muon: Applied to 2D internal linear layers within the Transformer blocks for optimized representation learning.
- AdamW: Applied to 1D parameters, embeddings, and normalization scales (with weight decay on non-dimensional layers and zero decay on norms/biases).
Learning Rate Schedule: Warmup-Stable-Decay (WSD) scheduler.

Core Modules (Technical Overview)

Grouped Query Attention with QK-Norm: Helps stabilize training by normalizing the Query and Key tensors before calculating dot-product attention.
SwiGLU Activation: Implemented via custom Triton kernels to optimize memory bandwidth and execution speed.
Fast RMSNorm: Accelerates normalization steps relative to standard LayerNorm.
Z-Loss Regularization: Integrates an auxiliary loss penalty on the logsumexp of the logits to prevent numerical instability in half-precision training.

Tinker-GPT-110M

Tinker-GPT-110M — это кастомная, аппаратно оптимизированная языковая модель архитектуры decoder-only. Она спроектирована с использованием современных архитектурных решений, таких как Grouped Query Attention (GQA), Rotary Position Embeddings (RoPE), активация SwiGLU и QK-Normalization, работающих с поддержкой оптимизированных Triton-ядер.

⚠️ ПРЕДУПРЕЖДЕНИЕ: Отсутствует SFT (Supervised Fine-Tuning) / RLHF Эта модель является базовой (pretrained completion model). Она не проходила стадию контролируемого обучения (SFT), инструктивного тюнинга или выравнивания (RLHF). Модель предназначена для продолжения текста, а не для ведения диалога в режиме ассистента. Для получения стабильного диалогового поведения требуется проведение дополнительного SFT/инструктивного обучения на структурированных наборах данных.

Архитектура модели

Модель использует авторегрессионную (decoder-only) архитектуру Transformer со следующими параметрами:

Общее число параметров: ~110 млн
Количество слоев: 18
Размерность скрытого слоя (d_{model}): 512
Количество голов внимания (Query): 8 (размерность головы: 64)
Количество KV-голов: 8 (структурировано для совместимости с Grouped Query Attention)
Размерность промежуточного слоя (FFN): 2048 с функцией активации SwiGLU
Контекстное окно: 768 токенов
Размер словаря: ~32 768 токенов
Токенизатор: Byte-Level BPE (в стиле Llama/GPT-2, на базе tokenizers.pre_tokenizers.ByteLevel)
Позиционное кодирование: Rotary Position Embeddings (RoPE)
Нормализация: Root Mean Square Normalization (RMSNorm) с дополнительной нормализацией запросов и ключей (QK-Norm) для повышения стабильности обучения.
Масштабирование остаточных связей: Веса выходных проекций умножаются на коэффициент 1 / sqrt2N (где N — число слоев) для предотвращения раздувания дисперсии активаций.

Параметры и метрики обучения

Оборудование: 1x видеокарта NVIDIA Tesla A10 GPU
Время обучения: Около 10 часов
Набор данных: FineWeb-Edu (в ходе обучения обработано до 3,1 миллиарда токенов)
Финальный лосс: ~3.5 (Cross-Entropy с регуляризацией Z-loss)
Оптимизаторы:
- Muon: Применяется для двумерных (2D) матриц весов линейных слоев внутри блоков трансформера.
- AdamW: Применяется для одномерных параметров, эмбеддингов и масштабов нормализации (с decay-коэффициентом 0.01 для основных весов и 0.0 для нормализаций/биасов).
График изменения скорости обучения (LR): Warmup-Stable-Decay (WSD).

Ключевые модули модели

Grouped Query Attention с QK-Norm: Снижает риск расхождения градиентов при обучении за счет нормализации векторов Query и Key перед вычислением скалярного произведения.
Активация SwiGLU: Реализована на базе Triton-ядер для экономии пропускной способности памяти и ускорения вычислений.
Fast RMSNorm: Ускоренная альтернатива стандартному LayerNorm.
Регуляризация Z-Loss: Вспомогательный штраф на значение logsumexp логитов, предотвращающий их чрезмерный рост при обучении в половинной точности

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for maksimkejs/tinker-base-110m

Unable to build the model tree, the base model loops to the model itself. Learn more.

maksimkejs
/

tinker-base-110m

Model tree for maksimkejs/tinker-base-110m

Dataset used to train maksimkejs/tinker-base-110m