انتقل إلى المحتوى الرئيسي

أساليب الضبط الدقيق: دليل شامل

يشرح هذا الدليل كل أسلوب ضبط دقيق مستخدم في تدريب النماذج اللغوية الكبيرة — من QLoRA (الاستخدام الافتراضي في AuroraSOC) إلى الضبط الكامل وDPO وORPO. بنهاية هذا الدليل، ستفهم تمامًا ما يحدث داخل وحدة معالجة الرسومات عند تشغيل make train، ولماذا اخترنا QLoRA، ومتى قد ترغب في أسلوب مختلف.

ما هو الضبط الدقيق؟

يأخذ الضبط الدقيق نموذجاً لغوياً مُدرَّباً مسبقاً (يفهم اللغة بالفعل) ويعلّمه سلوكاً جديداً خاصاً بمهمتك:

نموذج مُدرَّب مسبقاً (Granite 4, Qwen 3, Gemma 4)
↓ يعرف اللغة العامة والبرمجة والاستدلال

الضبط الدقيق ببيانات مركز العمليات الأمنية
↓ يتعلم فرز التنبيهات، MITRE ATT&CK، الاستجابة للحوادث

نموذج مركز عمليات أمنية متخصص
→ يصنف التنبيهات، يكتب قواعد YARA، يفرز الحوادث

خريطة أساليب الضبط الدقيق

الإعداد الافتراضي لـ AuroraSOC

يستخدم AuroraSOC QLoRA + SFT — المسار المظلل باللون الأخضر أعلاه. يوفر هذا أفضل جودة مقابل التكلفة لتدريب مجال الأمن.

القاعدة الأساسية: متى تستخدم كل أسلوب

الأسلوبذاكرة GPUالجودة نسبةً لـ QLoRAالسرعةالاستخدام المثالي
QLoRAمنخفضة جداًالمرجعمتوسطةالاستخدام الافتراضي — معظم الحالات
LoRAمنخفضة+1-2%متوسطةعندما تتوفر ذاكرة GPU إضافية
الضبط الكاملمرتفعة جداً+2-4%بطيئةمع GPU من فئة A100+
SFT فقطمتوسطة-5-10%سريعةبيانات ضخمة جداً (1M+ عينة)
DPOمنخفضةيُحسّن المحاذاةمتوسطةبعد SFT الأولي
ORPOمنخفضةيُحسّن المحاذاةسريعةبديل SFT+DPO في خطوة واحدة

راجع الوثيقة الإنجليزية للحصول على الشرح الرياضي الكامل وتفاصيل متطلبات VRAM وإعدادات التكوين لكل أسلوب.