دليل التنفيذ البرمجي ومقارنة الأداء بين v1 و v2
الخيار الأمثل للـ Autonomous Agents. يدعم الـ developer role بشكل أصلي ويتحمل العمل المستمر لأكثر من 9 دقائق دون توقف أو تكرار في التفكير.
الإصدار "الاقتصادي الذكي". تقليل سلاسل التفكير (CoT) غير الضرورية بنسبة 24%، مما يجعله أسرع بنسبة 31.6% في الوصول للحل الصحيح مقارنة بالنسخة الأصلية.
عند تشغيل الموديل، نستخدم استراتيجية الـ Auto-Detection لتحديد أفضل بيئة تشغيل بناءً على العتاد المتوفر (سواء كان كرت NVIDIA أو معالجك الـ AMD):
use_fast=True: يستخدم مكتبة Rust لتسريع عملية التقطيع (Tokenization).float16: لتقليل استهلاك الذاكرة للنصف على كروت الشاشة.device_map="auto": يقوم بتوزيع الموديل تلقائياً بين الـ VRAM والـ RAM.from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled"
# 1. تهيئة المترجم (Tokenizer)
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
# 2. تحديد دقة البيانات بناءً على توفر كرت الشاشة
dtype = torch.float16 if torch.cuda.is_available() else torch.float32
# 3. تحميل الموديل وتوزيعه على الذاكرة
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=dtype,
device_map="auto" # توزيع ذكي بين المعالج وكرت الشاشة
)from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled"
# 1. تهيئة المترجم (Tokenizer)
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
# 2. تحديد دقة البيانات بناءً على توفر كرت الشاشة
dtype = torch.float16 if torch.cuda.is_available() else torch.float32
# 3. تحميل الموديل وتوزيعه على الذاكرة
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=dtype,
device_map="auto" # توزيع ذكي بين المعالج وكرت الشاشة
)هذا المثال يوضح كيفية بناء نقطة نهاية (Endpoint) تدعم الـ Reasoning Thinking، حيث يقوم الموديل بكتابة خطوات تفكيره داخل تاقات <think> قبل إعطاء الإجابة النهائية.
from fastapi import FastAPI
from pydantic import BaseModel
app = FastAPI()
class ChatRequest(BaseModel):
messages: list
temperature: float = 0.6
@app.post("/v1/chat/completions")
async def generate_response(request: ChatRequest):
# تحويل الرسائل لتنسيق الموديل (Jinja Template)
input_ids = tokenizer.apply_chat_template(
request.messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
# التوليد مع دعم خاصية التفكير
outputs = model.generate(
input_ids,
max_new_tokens=1024,
do_sample=True,
temperature=request.temperature,
top_p=0.9
)
response = tokenizer.decode(outputs[0][len(input_ids[0]):], skip_special_tokens=True)
return {"id": "onyx-123", "choices": [{"message": {"role": "assistant", "content": response}}]}from fastapi import FastAPI
from pydantic import BaseModel
app = FastAPI()
class ChatRequest(BaseModel):
messages: list
temperature: float = 0.6
@app.post("/v1/chat/completions")
async def generate_response(request: ChatRequest):
# تحويل الرسائل لتنسيق الموديل (Jinja Template)
input_ids = tokenizer.apply_chat_template(
request.messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
# التوليد مع دعم خاصية التفكير
outputs = model.generate(
input_ids,
max_new_tokens=1024,
do_sample=True,
temperature=request.temperature,
top_p=0.9
)
response = tokenizer.decode(outputs[0][len(input_ids[0]):], skip_special_tokens=True)
return {"id": "onyx-123", "choices": [{"message": {"role": "assistant", "content": response}}]}| المعيار | v1 (The Beast) | v2 (The Efficient) |
|---|---|---|
| الرامات (VRAM) | ~16.5 GB (Q4_K_M) | ~14.2 GB (Optimized) |
| سرعة التوليد | 29–35 tok/s | +40 tok/s |
| دقة البرمجة | 92.4% (HumanEval) | 96.91% (HumanEval) |
| استقرار الـ CoT | استمرارية حتى 9 دقائق | مختصر وسريع |
النماذج لا تعطي إجابات عشوائية؛ بل تتبع مساراً منطقياً مشتقاً من Claude 4.6 Opus. في كل عملية طلب، يمر الموديل بـ 5 مراحل داخلية تظهر في تاق <think>:
Author: ONYX (2026)
Base Model: Qwen3.5-27B Distilled