العودة للتوثيق

سلسلة Qwen3.5-27B Distilled

دليل التنفيذ البرمجي ومقارنة الأداء بين v1 و v2

الإصدار الأول (v1)

الخيار الأمثل للـ Autonomous Agents. يدعم الـ developer role بشكل أصلي ويتحمل العمل المستمر لأكثر من 9 دقائق دون توقف أو تكرار في التفكير.

إصدار v2 (GGUF)

الإصدار "الاقتصادي الذكي". تقليل سلاسل التفكير (CoT) غير الضرورية بنسبة 24%، مما يجعله أسرع بنسبة 31.6% في الوصول للحل الصحيح مقارنة بالنسخة الأصلية.

أولاً: تهيئة الموديل (Model Setup)

1. شرح ميكانيكية التحميل

عند تشغيل الموديل، نستخدم استراتيجية الـ Auto-Detection لتحديد أفضل بيئة تشغيل بناءً على العتاد المتوفر (سواء كان كرت NVIDIA أو معالجك الـ AMD):

  • use_fast=True: يستخدم مكتبة Rust لتسريع عملية التقطيع (Tokenization).
  • float16: لتقليل استهلاك الذاكرة للنصف على كروت الشاشة.
  • device_map="auto": يقوم بتوزيع الموديل تلقائياً بين الـ VRAM والـ RAM.
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled"

# 1. تهيئة المترجم (Tokenizer)
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)

# 2. تحديد دقة البيانات بناءً على توفر كرت الشاشة
dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# 3. تحميل الموديل وتوزيعه على الذاكرة
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=dtype,
    device_map="auto" # توزيع ذكي بين المعالج وكرت الشاشة
)

ثانياً: بناء الـ API Endpoint (FastAPI)

هذا المثال يوضح كيفية بناء نقطة نهاية (Endpoint) تدعم الـ Reasoning Thinking، حيث يقوم الموديل بكتابة خطوات تفكيره داخل تاقات <think> قبل إعطاء الإجابة النهائية.

from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class ChatRequest(BaseModel):
    messages: list
    temperature: float = 0.6

@app.post("/v1/chat/completions")
async def generate_response(request: ChatRequest):
    # تحويل الرسائل لتنسيق الموديل (Jinja Template)
    input_ids = tokenizer.apply_chat_template(
        request.messages, 
        add_generation_prompt=True, 
        return_tensors="pt"
    ).to(model.device)

    # التوليد مع دعم خاصية التفكير
    outputs = model.generate(
        input_ids,
        max_new_tokens=1024,
        do_sample=True,
        temperature=request.temperature,
        top_p=0.9
    )

    response = tokenizer.decode(outputs[0][len(input_ids[0]):], skip_special_tokens=True)
    return {"id": "onyx-123", "choices": [{"message": {"role": "assistant", "content": response}}]}

المواصفات التقنية الكاملة

المعيارv1 (The Beast)v2 (The Efficient)
الرامات (VRAM)~16.5 GB (Q4_K_M)~14.2 GB (Optimized)
سرعة التوليد29–35 tok/s+40 tok/s
دقة البرمجة92.4% (HumanEval)96.91% (HumanEval)
استقرار الـ CoTاستمرارية حتى 9 دقائقمختصر وسريع

هيكلية التفكير المستفادة (Claude-Style Reasoning)

النماذج لا تعطي إجابات عشوائية؛ بل تتبع مساراً منطقياً مشتقاً من Claude 4.6 Opus. في كل عملية طلب، يمر الموديل بـ 5 مراحل داخلية تظهر في تاق <think>:

1تحديد الهدف الأساسي (Objective)
2تقسيم المهمة لمهام فرعية (Subcomponents)
3تقييم الحالات الشاذة (Edge Cases)
4صياغة خطة الحل (Plan Formation)
5التنفيذ والتأكد من الاتساق (Execution)

Author: ONYX (2026)

Base Model: Qwen3.5-27B Distilled