Instructions to use aixsatoshi/llm-jp-4-64b-a6b-merged-t1 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use aixsatoshi/llm-jp-4-64b-a6b-merged-t1 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="aixsatoshi/llm-jp-4-64b-a6b-merged-t1")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("aixsatoshi/llm-jp-4-64b-a6b-merged-t1")
model = AutoModelForCausalLM.from_pretrained("aixsatoshi/llm-jp-4-64b-a6b-merged-t1")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use aixsatoshi/llm-jp-4-64b-a6b-merged-t1 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "aixsatoshi/llm-jp-4-64b-a6b-merged-t1"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "aixsatoshi/llm-jp-4-64b-a6b-merged-t1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/aixsatoshi/llm-jp-4-64b-a6b-merged-t1

SGLang

How to use aixsatoshi/llm-jp-4-64b-a6b-merged-t1 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "aixsatoshi/llm-jp-4-64b-a6b-merged-t1" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "aixsatoshi/llm-jp-4-64b-a6b-merged-t1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "aixsatoshi/llm-jp-4-64b-a6b-merged-t1" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "aixsatoshi/llm-jp-4-64b-a6b-merged-t1",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use aixsatoshi/llm-jp-4-64b-a6b-merged-t1 with Docker Model Runner:
```
docker model run hf.co/aixsatoshi/llm-jp-4-64b-a6b-merged-t1
```

LLM-JP-4-64B-A6B-Merged-T1

llm-jp/llm-jp-4-32b-a3b-base と llm-jp/llm-jp-4-32b-a3b-thinking を統合し、エキスパート数を2倍に拡張した MoE モデルです。構造は aixsatoshi/llm-jp-4-64b-a6b-merged と同じですが、共有層の統合係数だけを SLERP t=1.0 に変更しています。

What Is Different From `aixsatoshi/llm-jp-4-64b-a6b-merged`

このモデルと aixsatoshi/llm-jp-4-64b-a6b-merged の違いは、共有層のマージ方法のみです。

項目	`llm-jp-4-64b-a6b-merged`	`llm-jp-4-64b-a6b-merged-t1`
Experts 0-127	base	base
Experts 128-255	thinking	thinking
Router	base + thinking を連結	base + thinking を連結
Shared layers	SLERP (t=0.5)	SLERP (t=1.0)
Shared layer behavior	base / thinking の中間	thinking 側をそのまま採用

SLERP t=1.0 は共有層については実質的に thinking モデルの重みをそのまま使うのと同じです。したがって、本モデルは次のような性質を持ちます。

非 expert 部分は thinking モデル寄り
expert 集合は base と thinking の両方を保持
router は 256 expert 分に拡張されているが、追加学習による再最適化はしていない

Model Summary

	ソースモデル	本モデル
総パラメータ	~32B	~62.3B
アクティブパラメータ	~3.8B	~5.7B
エキスパート数	128	256
アクティブエキスパート/トークン	8 (top-8)	16 (top-16)
アーキテクチャ	Qwen3MoE	Qwen3MoE
Hidden size	2560	2560
Expert intermediate size	960	960
レイヤー数	32	32
Attention heads	40 (GQA 4 KV heads)	40 (GQA 4 KV heads)
語彙数	196,608	196,608
最大コンテキスト長	65,536	65,536
精度	bfloat16	bfloat16

Merge Strategy

Cross-Model Expert Interleaving + Shared T=1.0

1. エキスパート層: 直接結合

Experts 0-127: llm-jp/llm-jp-4-32b-a3b-base からそのまま移植
Experts 128-255: llm-jp/llm-jp-4-32b-a3b-thinking からそのまま移植

2. ルーター: 重み行列の連結

各レイヤーのルーター重み [128, 2560] × 2 を [256, 2560] に連結
元のルーティングパターンをそのまま持ち込む

3. 共有層: `thinking` 側を採用

Attention層、Embedding、LayerNorm、lm_head などの非エキスパート重みは SLERP (t=1.0)
実質的には thinking モデルの共有層をそのまま使う構成
aixsatoshi/llm-jp-4-64b-a6b-merged の中間補間版よりも、共有表現が thinking 側に強く寄る

Architecture Details

Qwen3MoeForCausalLM
├── embed_tokens: [196608, 2560]          # thinking-side shared weights
├── layers × 32
│   ├── self_attn (GQA)                   # thinking-side shared weights
│   ├── mlp (MoE)
│   │   ├── gate (router): [256, 2560]    # Concatenated
│   │   └── experts × 256                 # 0-127: base, 128-255: thinking
│   ├── input_layernorm                   # thinking-side shared weights
│   └── post_attention_layernorm          # thinking-side shared weights
├── norm                                  # thinking-side shared weights
└── lm_head: [196608, 2560]              # thinking-side shared weights

Usage

vLLM

vllm serve aixsatoshi/llm-jp-4-64b-a6b-merged-t1 \
  --trust-remote-code \
  --tensor-parallel-size 4

Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "aixsatoshi/llm-jp-4-64b-a6b-merged-t1"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="bfloat16",
    device_map="auto",
    trust_remote_code=True,
)

messages = [{"role": "user", "content": "日本の首都はどこですか？"}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True)
inputs = inputs.to(model.device)

outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True))

Expected Behavioral Difference

aixsatoshi/llm-jp-4-64b-a6b-merged と比べると、次の違いが出る可能性があります。

共有表現が thinking 側へより強く寄る
router 入力の hidden states も thinking 側の分布に近づく
その結果、thinking 側 expert が選ばれやすくなる可能性がある
一方で base expert は依然として保持されており、完全に除外されるわけではない

この差は追加学習なしの merge に由来するため、タスクによって有利不利が変わる可能性があります。

Source Models

llm-jp/llm-jp-4-32b-a3b-base: 11.7Tトークンの公開コーパスで事前学習されたベースモデル
llm-jp/llm-jp-4-32b-a3b-thinking: SFT + DPO で推論能力を強化したthinkingモデル

Hardware Requirements

GPU推論 (vLLM, TP=4): ~160GB VRAM
CPU推論: ~160GB RAM

Limitations

マージモデルのため、追加学習なしでのルーター最適化は行われていません
shared 層が thinking 側に完全に寄るため、base 側 expert の活用度はタスク依存です
thinking モデルのチャンネルシステム (analysis/final) は chat template で簡略化されています
性能は元モデルの組み合わせに依存し、すべてのタスクで改善を保証するものではありません

License

ソースモデルのライセンスに従います。

Downloads last month: 7

Safetensors

Model size

62B params

Tensor type

BF16

Model tree for aixsatoshi/llm-jp-4-64b-a6b-merged-t1

llm-jp/llm-jp-4-32b-a3b-base

llm-jp/llm-jp-4-32b-a3b-thinking

Merge model

this model

LLM-JP-4-64B-A6B-Merged-T1

What Is Different From aixsatoshi/llm-jp-4-64b-a6b-merged

Model Summary

Merge Strategy

Cross-Model Expert Interleaving + Shared T=1.0

1. エキスパート層: 直接結合

2. ルーター: 重み行列の連結

3. 共有層: thinking 側を採用

Architecture Details

Usage

vLLM

Transformers

Expected Behavioral Difference

Source Models

Hardware Requirements

Limitations

License

Model tree for aixsatoshi/llm-jp-4-64b-a6b-merged-t1

What Is Different From `aixsatoshi/llm-jp-4-64b-a6b-merged`

3. 共有層: `thinking` 側を採用