إصدار 2026 - Google DeepMind

Gemma 4-E4B (Effective 4B)

الجيل الرابع من نماذج Gemma المفتوحة. يتميز بقدرات استنتاجية (Reasoning) متفوقة ودعم أصيل للوسائط المتعددة (Multimodal) مع نافذة سياق تصل إلى 128K توكن.

التفكير الاستنتاجي

دعم نمط "Thinking" المدمج للتحليل خطوة بخطوة.

دعم الصوت (Native)

معالجة وتفريغ الملفات الصوتية حتى 30 ثانية.

الرؤية الحاسوبية

تحليل الصور والفيديو بدقة متغيرة (Variable Resolution).

متطلبات التشغيل الموصى بها

المعالج (CPU):

يوصى بمعالج ثماني الأنوية كحد أدنى مع دعم AVX-512.

الذاكرة (RAM):

• 4-bit Quantization: تحتاج ~6 GB رام.
• Full FP16: تحتاج ما يقارب 16-18 GB رام.

المكتبات المطلوبة (requirements.txt)

fastapi
uvicorn
git+https://github.com/huggingface/transformers.git
torch>=2.2.0
torchvision
torchcodec
accelerate>=1.1.0
bitsandbytes>=0.46.1
scipy
pillow
python-multipart
librosa

fastapi
uvicorn
git+https://github.com/huggingface/transformers.git
torch>=2.2.0
torchvision
torchcodec
accelerate>=1.1.0
bitsandbytes>=0.46.1
scipy
pillow
python-multipart
librosa

الإعداد والتحميل الأمثل

import torch
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "google/gemma-4-E4B-it"

# 1. إعدادات الضغط (Quantization) لتقليل استهلاك الرام إلى الربع تقريباً
# ملاحظة: هذا الجزء هو الحل لمشكلة الـ Memory limit exceeded
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

# 2. تحميل الـ Processor
processor = AutoProcessor.from_pretrained(model_id)

# 3. تحميل الموديل مع تفعيل الضغط وتقليل استهلاك المعالج
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    torch_dtype=torch.bfloat16, 
    device_map="cpu", # تحديد الـ CPU صراحة للبيئات المحدودة
    low_cpu_mem_usage=True,
    trust_remote_code=True
).eval()

import torch
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "google/gemma-4-E4B-it"

# 1. إعدادات الضغط (Quantization) لتقليل استهلاك الرام إلى الربع تقريباً
# ملاحظة: هذا الجزء هو الحل لمشكلة الـ Memory limit exceeded
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
)

# 2. تحميل الـ Processor
processor = AutoProcessor.from_pretrained(model_id)

# 3. تحميل الموديل مع تفعيل الضغط وتقليل استهلاك المعالج
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    torch_dtype=torch.bfloat16, 
    device_map="cpu", # تحديد الـ CPU صراحة للبيئات المحدودة
    low_cpu_mem_usage=True,
    trust_remote_code=True
).eval()

خيارات التوليد الموصى بها

# إعدادات التوليد المثالية لـ Gemma 4 لضمان التوازن بين السرعة والدقة
generation_kwargs = dict(
    **inputs,
    streamer=streamer,
    max_new_tokens=1024,
    do_sample=True,
    temperature=1.0,
    top_p=0.95,
    top_k=64
)

# إعدادات التوليد المثالية لـ Gemma 4 لضمان التوازن بين السرعة والدقة
generation_kwargs = dict(
    **inputs,
    streamer=streamer,
    max_new_tokens=1024,
    do_sample=True,
    temperature=1.0,
    top_p=0.95,
    top_k=64
)

نصائح التشغيل لـ ONYX

باستخدام تقنية 4-bit Quantization، يمكنك تشغيل النموذج على أجهزة متوسطة المواصفات دون القلق من امتلاء الذاكرة (Memory Crash)، مع الحفاظ على دقة عالية في الاستنتاج.

Author: ONYX (2026)

Base Model: gemma-4-E4B-it