أساليب الضبط الدقيق: دليل شامل
يشرح هذا الدليل كل أسلوب ضبط دقيق مستخدم في تدريب النماذج اللغوية الكبيرة — من QLoRA (الاستخدام الافتراضي في AuroraSOC) إلى الضبط الكامل وDPO وORPO. بنهاية هذا الدليل، ستفهم تمامًا ما يحدث داخل وحدة معالجة الرسومات عند تشغيل make train، ولماذا اخترنا QLoRA، ومتى قد ترغب في أسلوب مختلف.
ما هو الضبط الدقيق؟
يأخذ الضبط الدقيق نموذجاً لغوياً مُدرَّباً مسبقاً (يفهم اللغة بالفعل) ويعلّمه سلوكاً جديداً خاصاً بمهمتك:
نموذج مُدرَّب مسبقاً (Granite 4, Qwen 3, Gemma 4)
↓ يعرف اللغة العامة والبرمجة والاستدلال
↓
الضبط الدقيق ببيانات مركز العمليات الأمنية
↓ يتعلم فرز التنبيهات، MITRE ATT&CK، الاستجابة للحوادث
↓
نموذج مركز عمليات أمنية متخصص
→ يصنف التنبيهات، يكتب قواعد YARA، يفرز الحوادث
خريطة أساليب الضبط الدقيق
الإعداد الافتراضي لـ AuroraSOC
يستخدم AuroraSOC QLoRA + SFT — المسار المظلل باللون الأخضر أعلاه. يوفر هذا أفضل جودة مقابل التكلفة لتدريب مجال الأمن.
القاعدة الأساسية: متى تستخدم كل أسلوب
| الأسلوب | ذاكرة GPU | الجودة نسبةً لـ QLoRA | السرعة | الاستخدام المثالي |
|---|---|---|---|---|
| QLoRA ⭐ | منخفضة جداً | المرجع | متوسطة | الاستخدام الافتراضي — معظم الحالات |
| LoRA | منخفضة | +1-2% | متوسطة | عندما تتوفر ذاكرة GPU إضافية |
| الضبط الكامل | مرتفعة جداً | +2-4% | بطيئة | مع GPU من فئة A100+ |
| SFT فقط | متوسطة | -5-10% | سريعة | بيانات ضخمة جداً (1M+ عينة) |
| DPO | منخفضة | يُحسّن المحاذاة | متوسطة | بعد SFT الأولي |
| ORPO | منخفضة | يُحسّن المحاذاة | سريعة | بديل SFT+DPO في خطوة واحدة |
راجع الوثيقة الإنجليزية للحصول على الشرح الرياضي الكامل وتفاصيل متطلبات VRAM وإعدادات التكوين لكل أسلوب.