.png)
الجيل الرابع من نماذج Gemma المفتوحة. يتميز بقدرات استنتاجية (Reasoning) متفوقة ودعم أصيل للوسائط المتعددة (Multimodal) مع نافذة سياق تصل إلى 128K توكن.
دعم نمط "Thinking" المدمج للتحليل خطوة بخطوة.
معالجة وتفريغ الملفات الصوتية حتى 30 ثانية.
تحليل الصور والفيديو بدقة متغيرة (Variable Resolution).
يوصى بمعالج ثماني الأنوية كحد أدنى مع دعم AVX-512.
fastapi
uvicorn
git+https://github.com/huggingface/transformers.git
torch>=2.2.0
torchvision
torchcodec
accelerate>=1.1.0
bitsandbytes>=0.46.1
scipy
pillow
python-multipart
librosafastapi
uvicorn
git+https://github.com/huggingface/transformers.git
torch>=2.2.0
torchvision
torchcodec
accelerate>=1.1.0
bitsandbytes>=0.46.1
scipy
pillow
python-multipart
librosaimport torch
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig
model_id = "google/gemma-4-E4B-it"
# 1. إعدادات الضغط (Quantization) لتقليل استهلاك الرام إلى الربع تقريباً
# ملاحظة: هذا الجزء هو الحل لمشكلة الـ Memory limit exceeded
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
)
# 2. تحميل الـ Processor
processor = AutoProcessor.from_pretrained(model_id)
# 3. تحميل الموديل مع تفعيل الضغط وتقليل استهلاك المعالج
model = AutoModelForCausalLM.from_pretrained(
model_id,
quantization_config=quantization_config,
torch_dtype=torch.bfloat16,
device_map="cpu", # تحديد الـ CPU صراحة للبيئات المحدودة
low_cpu_mem_usage=True,
trust_remote_code=True
).eval()import torch
from transformers import AutoProcessor, AutoModelForCausalLM, BitsAndBytesConfig
model_id = "google/gemma-4-E4B-it"
# 1. إعدادات الضغط (Quantization) لتقليل استهلاك الرام إلى الربع تقريباً
# ملاحظة: هذا الجزء هو الحل لمشكلة الـ Memory limit exceeded
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
)
# 2. تحميل الـ Processor
processor = AutoProcessor.from_pretrained(model_id)
# 3. تحميل الموديل مع تفعيل الضغط وتقليل استهلاك المعالج
model = AutoModelForCausalLM.from_pretrained(
model_id,
quantization_config=quantization_config,
torch_dtype=torch.bfloat16,
device_map="cpu", # تحديد الـ CPU صراحة للبيئات المحدودة
low_cpu_mem_usage=True,
trust_remote_code=True
).eval()# إعدادات التوليد المثالية لـ Gemma 4 لضمان التوازن بين السرعة والدقة
generation_kwargs = dict(
**inputs,
streamer=streamer,
max_new_tokens=1024,
do_sample=True,
temperature=1.0,
top_p=0.95,
top_k=64
)# إعدادات التوليد المثالية لـ Gemma 4 لضمان التوازن بين السرعة والدقة
generation_kwargs = dict(
**inputs,
streamer=streamer,
max_new_tokens=1024,
do_sample=True,
temperature=1.0,
top_p=0.95,
top_k=64
)باستخدام تقنية 4-bit Quantization، يمكنك تشغيل النموذج على أجهزة متوسطة المواصفات دون القلق من امتلاء الذاكرة (Memory Crash)، مع الحفاظ على دقة عالية في الاستنتاج.
Author: ONYX (2026)
Base Model: gemma-4-E4B-it