لماذا تحتاج العربية نماذج خاصة بها؟
العربية يتحدثها أكثر من 450 مليون شخص، لكنها ظلت لسنوات مهمشة في عالم الذكاء الاصطناعي. النماذج العالمية مثل ChatGPT وGemini تتعامل مع العربية كلغة ثانوية — تفهم الفصحى بشكل مقبول لكنها تتعثر في اللهجات، وتفقد السياق الثقافي، وتخلط بين المعاني في لغة واحدة يمكن أن تعني فيها كلمة "بس" ثلاثة أشياء مختلفة حسب البلد. الصرف العربي معقد أيضاً: جذر واحد ينتج عشرات الأشكال، والكلمة الواحدة قد تحمل معاني متعددة في token واحد.
هذا الواقع دفع دولاً عربية عدة لبناء نماذجها السيادية — ليس فقط لأسباب تقنية، بل لضمان أن مستقبل الذكاء الاصطناعي يعكس الثقافة والقيم واللهجات العربية بدلاً من الاعتماد على نماذج مصممة أساساً للإنجليزية.
1. Falcon-H1 Arabic — الإمارات (يناير 2026)
أحدث وأقوى نموذج عربي متاح حالياً. طورته مؤسسة TII في أبوظبي وأُطلق في يناير 2026، وهو يتصدر لوحة Open Arabic LLM Leaderboard متفوقاً على نماذج أكبر منه بكثير. ما يميزه معمارياً أنه أول نموذج عربي مبني على بنية هجينة Mamba-Transformer — تجمع بين سرعة Mamba في معالجة النصوص الطويلة ودقة Transformer في الفهم العميق. متوفر بثلاثة أحجام: 3B و7B و34B معامل، مع نافذة سياق تصل إلى 256 ألف token — يعني يمكنك تحليل عقود قانونية أو أوراق بحثية كاملة في تفاعل واحد. يدعم الفصحى ولهجات متعددة ومتفوق في الاستدلال الرياضي. مفتوح المصدر ومتاح على HuggingFace وعبر منصة Falcon للمحادثة.
2. Jais 2 — الإمارات (ديسمبر 2025)
أكبر نموذج عربي من حيث حجم بيانات التدريب. طورته MBZUAI بالتعاون مع Inception (شركة G42) وCerebras Systems، وتدرب على 600 مليار token عربي — أضخم مجموعة بيانات عربية استُخدمت لتدريب نموذج واحد. Jais 2 بحجم 70 مليار معامل يغطي الفصحى و17 لهجة إقليمية تشمل الخليجية والإماراتية والمصرية والعراقية والمغربية، بالإضافة إلى العربيزي (الكتابة بالحروف اللاتينية). تدرب أيضاً على أكثر من 427 ألف قصيدة عربية مع بيانات وصفية — مما يمنحه فهماً فريداً للشعر العربي لا تملكه النماذج الغربية. إلى جانب العربية، يشمل 1.6 تريليون token إنجليزية وأكواد برمجية. مفتوح الأوزان ومتاح عبر jaischat.ai وHuggingFace.
3. Falcon Arabic — الإمارات (مايو 2025)
أول نموذج عربي في عائلة Falcon الشهيرة. أطلقته TII في مايو 2025 مبنياً على Falcon 3-7B وتدرب على 600 غيغا token من بيانات عربية عالية الجودة (غير مترجمة) تشمل الفصحى واللهجات. رغم حجمه الصغير نسبياً (7B) إلا أنه حقق أداءً يضاهي نماذج أكبر منه 10 مرات على معايير OALL. كان خطوة تمهيدية مهمة قبل إطلاق Falcon-H1 Arabic الأكثر تطوراً. مفتوح المصدر ويمثل مرحلة مهمة في مسار Falcon الذي حُمّل أكثر من 55 مليون مرة عالمياً.
4. ALLaM 34B / HUMAIN Chat — السعودية (أغسطس 2025)
النموذج السعودي السيادي الذي يمثل طموح المملكة في قيادة الذكاء الاصطناعي العربي. طورته شركة HUMAIN المملوكة لصندوق الاستثمارات العامة PIF، وبناه فريق من أكثر من 120 متخصصاً في الذكاء الاصطناعي بينهم 35 حاملاً لدرجة الدكتوراه. تدرب على أكثر من 500 مليار token عربي ثم صُقل بمراجعة أكثر من 600 خبير في مجالات مختلفة و250 مقيّماً. يتميز ALLaM بعمق ثقافي استثنائي — يفهم السياق الإسلامي والتاريخي والقيم المحلية، ويدعم اللهجات السعودية والمصرية والأردنية واللبنانية. يقول الرئيس التنفيذي لـ HUMAIN: "ChatGPT لن يمتلك أبداً مجموعات البيانات التي نملكها". النموذج متاح حالياً عبر تطبيق HUMAIN Chat في السعودية مع خطط للتوسع إقليمياً وعالمياً. يدعم البحث اللحظي على الويب والإدخال الصوتي بلهجات متعددة.
5. Fanar 2.0 — قطر (ديسمبر 2025)
منصة قطر للذكاء الاصطناعي العربي التي تتميز بكونها الأكثر شمولاً من حيث القدرات المتعددة. طورها معهد قطر لبحوث الحوسبة QCRI في جامعة حمد بن خليفة، برعاية وزارة الاتصالات وتكنولوجيا المعلومات. النسخة الأولى أُطلقت في ديسمبر 2024 بحجم 9B معامل، ثم جاءت النسخة 2.0 في ديسمبر 2025 بقفزة كبيرة إلى 27B معامل. ما يميز Fanar أنه ليس مجرد نموذج لغوي — بل منصة متكاملة تشمل توليد النصوص والصور والفيديو والصوت، مع نظام RAG متخصص للأسئلة الإسلامية يقدم إجابات موثقة بمراجع، ونظام FanarGuard للرقابة الثقافية. يدعم الترجمة ثنائية الاتجاه عربي-إنجليزي مع دعم اللهجات في الصوت. متاح مجاناً على fanar.qa، وفريق QCRI بدأ بالفعل العمل على Fanar 3.0 المتوقع في ديسمبر 2026.
6. Atlas-Chat — المغرب/الإمارات (2024-2025)
أول مجموعة نماذج لغوية كبيرة مصممة خصيصاً للعربية الدارجة (اللهجات). بينما تركز معظم النماذج على الفصحى، ذهب Atlas-Chat في اتجاه مختلف تماماً — استهدف الدارجة المغربية التي يتحدثها أكثر من 40 مليون شخص. طوره فريق من MBZUAI France Lab بالتعاون مع باحثين من المغرب وفرنسا والسويد، ضمن مبادرة Jais لمجموعة G42. النموذج بحجم 9B معامل تفوق على نماذج أكبر منه (13B) بنسبة 13% في معيار DarijaMMLU الذي طوروه خصيصاً لتقييم الدارجة. ألهم مشاريع مماثلة مثل Nile-Chat للهجة المصرية. جميع الموارد متاحة للعموم على HuggingFace — وهو نموذج مهم لأنه يثبت أن اللهجات العربية يمكن أن تحصل على نماذجها المتخصصة.
7. AceGPT و Peacock و Dallah — نماذج بحثية متخصصة
إلى جانب النماذج السيادية الكبرى، هناك مجموعة نماذج بحثية مهمة تستحق المتابعة. AceGPT مبني على LLaMA ويستخدم التعلم المعزز من ردود الفعل البشرية (RLHF) مع تركيز على التوطين الثقافي العربي. Peacock متخصص في المهام اللغوية العربية المتقدمة. Dallah يركز على تحسين المحادثات بالعربية. كل هذه النماذج مفتوحة المصدر ومتاحة للباحثين. نموذج JASMINE أيضاً يتميز في مهام الاستدلال المنطقي والتصنيف النصي بالعربية.
مقارنة سريعة: أي نموذج يناسبك؟
الاختيار يعتمد على احتياجك. إذا كنت مطوراً تبحث عن أفضل أداء عربي مفتوح المصدر: Falcon-H1 Arabic 34B هو الخيار الأول حالياً (يتصدر OALL).
إذا كنت تحتاج نموذجاً ثنائي اللغة قوياً بحجم كبير مع دعم لهجات واسع: Jais 2 (70B مع 17 لهجة). إذا كنت مستخدماً عادياً تريد تطبيق محادثة عربي جاهز: HUMAIN Chat (مجاني في السعودية) أو Fanar (مجاني للجميع).
إذا كنت تعمل على مشروع يخص لهجة محددة: Atlas-Chat (الدارجة المغربية) أو Nile-Chat (المصرية). وإذا كنت تحتاج قدرات متعددة الوسائط (نص + صوت + صورة + فيديو) بالعربية: Fanar 2.0 هو الأشمل حالياً.
3 مناهج مختلفة في بناء النماذج العربية
من المثير ملاحظة أن هناك ثلاثة مناهج مختلفة تتبعها الفرق المطورة.
الأول: البناء من الصفر — مثل Jais الذي تدرب من البداية على بيانات عربية ضخمة. هذا يعطي أعمق فهم للغة لكنه الأكثر تكلفة.
الثاني: تكييف نموذج متعدد اللغات — مثل ALLaM المبني على إطار Llama وFalcon Arabic المبني على Falcon 3. هذا أسرع ويستفيد من المعرفة المسبقة للنموذج الأساسي.
الثالث: التخصص اللهجوي — مثل Atlas-Chat الذي يأخذ نموذجاً عاماً ويضبطه بدقة على لهجة محددة. كل منهج له مزايا وعيوب، والسوق يحتاج الثلاثة.
ماذا يعني هذا للمستخدم العربي؟
نعيش لحظة تاريخية. لأول مرة، يملك المتحدثون بالعربية خيارات حقيقية في نماذج الذكاء الاصطناعي — نماذج تفهم لهجاتهم وسياقهم الثقافي وقيمهم. السباق بين الإمارات والسعودية وقطر يسرّع الابتكار ويرفع جودة الجميع. عملياً، هذا يعني أنك تستطيع الآن بناء تطبيقات عربية ذكية، أتمتة خدمة العملاء بلهجات محلية، تحليل وثائق عربية ضخمة، وإنشاء محتوى عربي عالي الجودة — كل هذا بأدوات مصممة للعربية وليس مترجمة من الإنجليزية.
تابع مدونة شبّك لآخر التحديثات عن أدوات الذكاء الاصطناعي العربية، وتصفح مكتبة البرومبتات لأدوات جاهزة تساعدك في الاستفادة القصوى من هذه النماذج.