النماذج اللغوية الكبيرة؛ مشروحة مع قليل من الرياضيات والمصطلحات

مرحبًا، أنا تيم لي. أنا صحفي حاصل على درجة الماجستير في علوم الكمبيوتر. هذه التدوينة هي نتيجة شهرين من البحث المتعمق. إذا وجدت هذه المقالة مفيدة، يرجى الاشتراك للحصول على المقالات المستقبلية التي يتم تسليمها مباشرة إلى صندوق البريد الإلكتروني الخاص بك.

كُتب مقال اليوم بالتعاون مع شون تروت، وهو عالم إدراكي في جامعة كاليفورنيا، سان دييغو. إذا كنت مهتمًا بتقاطع العلوم المعرفية والذكاء الاصطناعي، أنصحك بالاشتراك في Substack الممتاز.

عندما طرح شات جي بي تي في الخريف الفائت، أحدث صدمة لقطاع التقنية وللعالم أجمعولسنين قلائل سبقت ذلك كان يجرب باحثوا تعلم الآلة نماذج اللغة الكبيرة لكن جمهور الناس لم يعر الأمر انتباها ولم يدرك مدى قوة النماذج

معظم الناس اليوم سمعوا عن نماذج اللغة الكبيرة وعشرات الملايين قد جربهالكن مع ذلك لا يفهم كثير من الناس كيف تعمل

لو تعلم أي شيء عن هذا الموضوع فربما سمعت أن النماذج الكبيرة مدربة على "توقع الكلمة التالية" وأنها تتطلب أحجام نصوص ضخمة لتفعل ذلك لكن عادة هنا يتوقف الشرح وتفاصيل كيف تتوقع الكلمة التالية تُعامل غالبا كلغز عميق

أحد أسباب ذلك الطريقة غير العادية التي طُورت بها هذه الأنظمة ينشئ البرامج التقليدية مبرمجون بشر يقدمون لأجهزة الكمبيوتر تعليمات واضحة خطوة بخطوة.في المقابل بُني شات جي بي تي على شبكة عصبية دُربت على مليارات الكلمات من لغة عادية.

وكنتيجة لذلك لا أحد على الأرض يفهم فهما كاملا دواخل عمل النماذج الكبيرة. ولكن يعمل الباحثون ليزدادوا فهما لها وهذه عملية بطيئة وستستغرق سنوات وربما عقود لتنتهي

ومع ذلك، لا يزال الخبراء يعلمون الكثير حول كيفية عمل هذه الأنظمة. الهدف من هذه المقالة هو جعل الكثير من هذه المعرفة في متناول جمهور واسع. سنهدف إلى شرح ما هو معروف عن العمليات الداخلية لهذه النماذج دون اللجوء إلى المصطلحات التقنية أو الرياضيات المتقدمة.

سنبدأ بشرح متجهات الكلمات، والطريقة المدهشة التي تُمثل بها "نماذج اللغة" اللغة وتستدل بها. بعد ذلك سنتعمق في المحول، وهو كتلة البناء الأساسية لأنظمة مثل ChatGPT. أخيرًا، سنشرح كيفية تدريب هذه النماذج ونستكشف لماذا يتطلب الأداء الجيد مثل هذه الكميات الضخمة من البيانات.

متجهات الكلمات

لفهم كيفية عمل نماذج اللغة، عليك أولاً أن تفهم كيفية تمثيلها للكلمات. يمثل البشر الكلمات الإنجليزية بسلسلة من الحروف، مثل كلمة CAT للقطة. تستخدم نماذج اللغة قائمة طويلة من الأرقام تسمى متجه الكلمات. على سبيل المثال، إليك إحدى الطرق لتمثيل القطة كمتجه:

[0.0074، 0.0030، -0.0105، 0.0742، 0.0765، -0.0011، 0.0265، 0.0106، 0.0191، 0.0038، -0.0468، -0.0212، 0.0091، 0.0030، -0.0563، -0.0396، -0.0998، -0.0796، ...، 0.0002]

(يبلغ طول المتجه الكامل 300 رقم - لرؤية كل ذلك انقر هنا ثم انقر فوق "إظهار المتجه الخام").

لماذا نستخدم مثل هذه المجموعة من الرموز الباروكية(*)؟

* . أسلوب شهير في الرسم والنحت ساد غربي أوروبا وأمريكا اللاتينية من أواخر القرن السادس عشر وحتى أوائل القرن الثامن عشر الميلادي. - المترجم

وهنا مثال. تقع واشنطن العاصمة عند 38.9 درجة شمالاً و 77 درجة غرباً. يمكننا تمثيل هذا باستخدام صيغة المتجه:

واشنطن العاصمة عند [38.9، 77]
نيويورك عند [40.7، 74]
لندن عند [51.5، 0.1]
باريس عند [48.9، -2.4]

وهذا مفيد للتفكير في العلاقات المكانية. يمكنك معرفة أن نيويورك قريبة من واشنطن العاصمة لأن 38.9 قريبة من 40.7 و 77 قريبة من 74. وبنفس الطريقة، تقع باريس بالقرب من لندن. لكن باريس بعيدة عن واشنطن العاصمة.

وتتبع نماذج اللغة نهجًا مماثلًا: يمثل كل متجه كلمة1 نقطة في "مساحة الكلمة" الخيالية، وتوضع الكلمات ذات المعاني الأكثر تشابهًا بالقرب من بعضها البعض. على سبيل المثال، الكلمات الأقرب إلى كلمة قطة في فضاء المتجه تشمل كلب، وقط صغير، وحيوان أليف. الميزة الأساسية لتمثيل الكلمات باستخدام متجهات من الأرقام الحقيقية (على عكس سلسلة من الأحرف، مثل "CAT") هي أن الأرقام تمكن من إجراء عمليات لا تتيحها الأحرف.

الكلمات معقدة للغاية بحيث لا يمكن تمثيلها في بعدين فقط*، لذلك تستخدم نماذج اللغة مساحات متجهة تحتوي على مئات أو حتى آلاف الأبعاد.

* المتجه يمثل بعدين - المترجم

لا يستطيع العقل البشري أن يتصور مساحة بهذا العدد الكبير من الأبعاد، ولكن أجهزة الكمبيوتر قادرة تمامًا على التفكير فيها وإنتاج نتائج مفيدة.

كان الباحثون يجرون تجارب على متجهات الكلمات لعقود من الزمن، لكن المفهوم انطلق حقًا عندما أعلنت جوجل عن مشروع word2vec في عام 2013. حللت جوجل ملايين المستندات التي جمعت من Google News لمعرفة الكلمات التي تميل إلى الظهور في الجمل المتشابهة. بمرور الوقت، تعلمت شبكة عصبية مدربة على التنبؤ بالكلمات التي تظهر مع كلمات أخرى، على وضع الكلمات المتشابهة (مثل الكلب والقط) بالقرب من بعضها البعض في مساحة المتجه.

تتمتع متجهات الكلمات الخاصة بشركة جوجل بخاصية أخرى مثيرة للاهتمام: يمكنك "التفكير" في الكلمات باستخدام الحساب المتجهي. على سبيل المثال، أخذ باحثو جوجل المتجه الأكبر، وطرحوا الكبير، وأضافوا الصغير. الكلمة الأقرب إلى المتجه الناتج كانت الأصغر.

يمكنك استخدام الحساب المتجهي لرسم القياسات! في هذه الحالة، الكبير هو الأكبر كما الصغير هو الأصغر. لقد التقطت متجهات كلمات جوجل العديد من العلاقات الأخرى:

السويسري بالنسبة لسويسرا هو مثل الكمبودي بالنسبة لكمبوديا. (الجنسيات)
باريس بالنسبة لفرنسا كما برلين بالنسبة لألمانيا. (عواصم)
ما هو غير أخلاقي لما هو أخلاقي كما الممكن للمستحيل. (الأضداد)
الفأر بالنسبة للفئران مثل الدولار بالنسبة للدولارات. (الجمع)
الرجل بالنسبة للمرأة كالملك بالنسبة للملكة. (أدوار الجنس)

وبما أن هذه المتجهات بنُيت على الطريقة التي يستخدم بها البشر الكلمات، فإنها تخلص إلى عكس العديد من التحيزات الموجودة في اللغة البشرية. على سبيل المثال، في بعض نماذج متجهات الكلمات، الطبيب ناقص الرجل زائد المرأة يعطي ممرضة. إن التخفيف من التحيزات يعد مجال بحث نشط.

ومع ذلك، فإن متجهات الكلمات تشكل كتلة بناء مفيدة لنماذج اللغة لأنها تشفر معلومات دقيقة ولكنها مهمة حول العلاقات بين الكلمات. إذا تعلم نموذج اللغة شيئًا عن قطة (على سبيل المثال: ( تذهب أحيانا إلى الطبيب البيطري )، ومن المرجح أن ينطبق الشيء نفسه على الكلاب. إذا تعلم أحد النماذج شيئًا عن العلاقة بين باريس وفرنسا (على سبيل المثال: (إنهم يتشاركون اللغة) هناك فرصة جيدة أن يكون الأمر نفسه صحيحًا بالنسبة لبرلين وألمانيا وروما وإيطاليا.

معنى الكلمة يعتمد على السياق

لا يمكن لمخطط متجه الكلمات البسيط مثل هذا إلتقاط حقيقة مهمة حول اللغة الطبيعية: الكلمات غالبا ما يكون لها معاني متعددة.

على سبيل المثال، يمكن أن تشير كلمة بنك إلى مؤسسة مالية أو إلى الأرض المجاورة للنهر.*

* مثل كلمة قناة ربما تشير لقناة تلفزيونية أو قناة مائية في اللغة العربية - المترجم

أو فكر في الجمل التالية:

يلتقط جون مجلة.
تعمل سوزان في مجلة.

إن معاني كلمة "مجلة" في هذه الجمل مرتبطة ببعضها البعض ولكنها مختلفة اختلافاً طفيفاً. يلتقط جون مجلة مطبوعة، بينما تعمل سوزان في منظمة تنشر المجلات المطبوعة.

عندما يكون للكلمة معنيان غير مرتبطين، كما هو الحال مع كلمة "بنك"، يسمها اللغويون متجانسان. عندما يكون للكلمة معنيان مرتبطان ارتباطًا وثيقًا، كما هو الحال مع كلمة مجلة، يسميها اللغويون تعدد المعاني.

تتمكن النماذج اللغوية الكبيرة مثل ChatGPT من تمثيل نفس الكلمة باستخدام متجهات مختلفة اعتمادًا على السياق الذي تظهر فيه تلك الكلمة. هناك متجه لكلمة بنك (المؤسسة المالية) ومتجه مختلف لحافة النهر هناك متجه للمجلة (المنشور المادي) وآخر للمجلة (المؤسسة). كما قد تتوقع، تستخدم نماذج اللغة متجهات أكثر تشابهًا للمعاني المتعددة مقارنة بالمعاني المتجانسة.

ولم نذكر حتى الآن أي شيء عن كيفية قيام نماذج اللغة بذلك، وسنتحدث عن ذلك قريبًا. لكننا نركز على هذه التمثيلات المتجهة لأنها أساسية لفهم كيفية عمل نماذج اللغة.

تم تصميم البرامج التقليدية للعمل على البيانات التي لا لبس فيها. إذا طلبت من جهاز كمبيوتر أن يحسب "2 + 3"، فلن يكون هناك أي غموض حول ما يعنيه 2، أو +، أو 3. لكن اللغة الطبيعية مليئة بالغموض الذي يتجاوز التشابهات والتعدد في المعاني:

في عبارة "طلب العميل من الميكانيكي إصلاح سيارته" هل الضمير يعود على العميل أم الميكانيكي؟
في عبارة "حثت الأستاذة الطالبة على أداء واجباتها" هل المقصود الأستاذة أم الطالبة؟
في عبارة “fruit flies like a banana” "ذباب الفاكهة مثل الموز" هل الذباب فعل (يشير إلى الفاكهة التي تحلق في السماء) أو اسم (يشير إلى الحشرات المحبة للموز)؟(*)

في اللغة الإنجليزية تحتمل العبارة معنيان: تطير الفاكهة مثل الموز لأن مفردة (flies) تشير للفعل يطير وفي العبارة الأخرى ذباب الفاكهة مثل الموز مفردة (flies) تشير للذباب

يقوم الناس بحل مثل هذا الغموض على أساس السياق، ولكن لا توجد قواعد بسيطة أو حتمية للقيام بذلك. بل إنه يتطلب فهم الحقائق حول العالم. يجب أن تعلم أن الميكانيكيين عادةً ما يصلحون سيارات العملاء، وأن الطلاب عادةً ما يقومون بأداء واجباتهم المنزلية بأنفسهم، وأن الفاكهة عادةً لا تطير.

توفر متجهات الكلمات طريقة مرنة لنماذج اللغة لتمثيل المعنى الدقيق لكل كلمة في سياق مقطع معين. والآن دعونا ننظر إلى كيفية قيامهم بذلك.

تحويل متجهات الكلمات إلى تنبؤات الكلمات

GPT-3، النموذج وراء الإصدار الأصلي من ChatGPT2، منظم في عشرات الطبقات. تأخذ كل طبقة سلسلة من المتجهات كمدخلات - متجه واحد لكل كلمة في النص المدخل - وتضيف معلومات للمساعدة في توضيح معنى تلك الكلمة والتنبؤ بشكل أفضل بالكلمة التي قد تأتي بعد ذلك.

دعونا نبدأ بالنظر إلى مثال منمق:

كل طبقة من طبقات نماذج اللغة الكبيرة عبارة عن محول، والمحول عبارة عن بنية شبكة عصبية قدِّمته جوجل لأول مرة في ورقة بحثية بارزة عام 2017.

مدخلات النموذج، الموضحة في أسفل الرسم التخطيطي، هي الجملة الجزئية “John wants his bank to cash the.” "يريد جون من بنكه أن يصرف ال". تُغذى هذه الكلمات، والتي مُثلت كمتجهات على غرار متجه word2vec، إلى المحول الأول.

يكتشف المحول أن الكلمتين يريد ويصرف هما فعلان (كلا الكلمتين )يمكن أن تكونا أيضًا أسماء(*).

في اللغة الإنجليزية want و cash تكون أفعالاً وأسماءً حال الكثير من المفردات الإنجليزية

لقد قمنا بتمثيل هذا السياق المضاف كنص أحمر بين قوسين، ولكن في الواقع سيخزنه النموذج اللغوي بتعديل متجهات الكلمات مستخدماً طرقاً يصعب على البشر تفسيرها. تُمرر هذه المتجهات الجديدة، المعروفة بالحالة المخفية، إلى المحول التالي في المكدس.

ويضيف المحول الثاني قطعتين أخريين من السياق: ويوضح أن كلمة "البنك" تشير إلى مؤسسة مالية وليس إلى ضفة نهر، وأن "his" ضمير يشير إلى جون.(*)

في اللغة الإنجليزية كلمة his تعود على جون مثل الهاء في بنكه يعود إلى جون

يقوم المحول الثاني بإنتاج مجموعة أخرى من متجهات الحالة المخفية التي تعكس كل ما تعلمه النموذج حتى تلك النقطة.

يوضح الرسم البياني أعلاه نموذج لغة افتراضيًا بحتًا، لذا لا تأخذ التفاصيل على محمل الجد. سنلقي نظرة على الأبحاث المتعلقة بنماذج اللغة الحقيقية قريبًا. تميل نماذج اللغة الكبيرة الحقيقية إلى أن يكون لديها أكثر من طبقتين. على سبيل المثال، تحتوي النسخة الأقوى من GPT-3 على 96 طبقة.

تشير الأبحاث إلى أن الطبقات القليلة الأولى تركز على فهم بناء الجملة وحل الغموض كما أظهرنا أعلاه. تعمل الطبقات اللاحقة (التي لا نعرضها للحفاظ على حجم يمكن التحكم فيه للرسم التخطيطي) على تطوير فهم رفيع المستوى للمقطع ككل.

على سبيل المثال، عندما يقرأ نموذج اللغة قصة قصيرة، يبدو أنه يحتفظ بمجموعة متنوعة من المعلومات حول شخصيات القصة: الجنس والعمر، والعلاقات مع الشخصيات الأخرى، والموقع الماضي والحاضر، والشخصيات والأهداف، وما إلى ذلك.

لا يفهم الباحثون بالضبط كيف تقوم نماذج اللغة بتتبع هذه المعلومات، ولكن منطقيًا يجب على النموذج أن يفعل ذلك بتعديل متجهات الحالة المخفية أثناء انتقالها من طبقة إلى أخرى. يساعد في ذلك أن أحجام المتجهات في نماذج اللغة كبير جداً

على سبيل المثال، تستخدم النسخة الأقوى من GPT-3 متجهات كلمات تحتوي على 12288 بُعدًا، أي أن كل كلمة تُمثل بقائمة مكونة من 12288 رقمًا. وهذا أكبر بـ 20 مرة من مخطط word2vec اللذي استخدمته جوجل عام 2013. يمكنك أن تفكر في كل هذه الأبعاد الإضافية باعتبارها نوعًا من "مساحة مسودة" يمكن لـ GPT-3 استخدامها لكتابة ملاحظات لنفسه حول سياق كل كلمة. يمكن للطبقات اللاحقة قراءة الملاحظات التي أجرتها الطبقات السابقة وتعديلها ، مما يسمح للنموذج بتعزيز فهمه للمقطع ككل تدريجيًا.

لنفترض إذن أننا قمنا بتغيير الرسم التخطيطي أعلاه لتصوير نموذج لغوي مكون من 96 طبقة يفسر قصة مكونة من 1000 كلمة. قد تتضمن الطبقة الستين متجهًا لجون مع تعليق بين قوسين مثل "(الشخصية الرئيسية، ذكر، متزوج من شيريل، ابن عم دونالد، من مينيسوتا، موجود حاليًا في بويسي، ويحاول العثور على محفظته المفقودة)". مرة أخرى، كل هذه الحقائق (وربما الكثير غيرها) ستُرمز بطريقة ما كقائمة مكونة من 12288 رقمًا تتوافق مع كلمة جون. وربما تكون بعض هذه المعلومات مشفرة في المتجهات ذات الأبعاد الـ 12288 لـ تشيريل، أو دونالد، أو بويسي، أو المحفظة، أو كلمات أخرى في القصة.

الهدف هو أن تقوم الطبقة 96 والأخيرة من الشبكة بإخراج حالة مخفية للكلمة الأخيرة تتضمن جميع المعلومات اللازمة للتنبؤ بالكلمة التالية.

هل يمكنني الحصول على انتباهك من فضلك؟

الآن دعونا نتحدث عن ما يحدث داخل كل محول. يحتوي المحول على عملية مكونة من خطوتين لتحديث الحالة المخفية لكل كلمة من مقطع الإدخال:

في خطوة الانتباه، تبحث الكلمات حولها عن كلمات أخرى لها سياق مناسب وتتشارك المعلومات مع بعضها البعض.
في خطوة التغذية الأمامية، تفكر كل كلمة في المعلومات التي جُمعت في خطوات الانتباه السابقة وتحاول التنبؤ بالكلمة التالية.

وبطبيعة الحال، فإن الشبكة التي تقوم بتنفيذ هذه الخطوات وليست الكلمات الفردية. لكننا نصيغ الأمور بهذه الطريقة للتأكيد على أن المحولات تعامل الكلمات، وليس الجمل أو المقاطع بأكملها، باعتبارها الوحدة الأساسية للتحليل. يتيح هذا النهج لنماذج اللغة الكبيرة الاستفادة الكاملة من قوة المعالجة المتوازية الهائلة لشرائح وحدة معالجة الرسومات الحديثة. ويساعد ذلك أيضًا نماذج اللغة الكبيرة على التوسع في المقاطع التي تحتوي على آلاف الكلمات. وهذه هي المجالات التي عانت فيها نماذج اللغة السابقة من صعوبات.

يمكنك أن تفكر في آلية الاهتمام باعتبارها خدمة التوفيق بين الكلمات. تقوم كل كلمة بإنشاء قائمة تحقق (تسمى متجه الاستعلام) تصف خصائص الكلمات التي تبحث عنها. كما أن كل كلمة تشكل قائمة تحقق (تسمى متجهًا مفتاحاً) تصف خصائصها الخاصة. تقوم الشبكة بمقارنة كل متجه رئيسي بكل متجه استعلام ( بحساب حاصل الضرب النقطي) لتعثر على الكلمات التي تمثل أفضل تطابق. بمجرد العثور على تطابق، فإنه ينقل المعلومات من الكلمة التي أنتجت متجه المفتاح إلى الكلمة التي أنتجت متجه الاستعلام.

على سبيل المثال، في القسم السابق أظهرنا محولًا افتراضيًا اكتشف أنه في الجملة الجزئية "يريد جون من بنكه أن يصرف المبلغ"، تشير الهاء إلى جون. وإليك ما قد يبدو عليه الأمر تحت الغطاء. قد يقول متجه الاستعلام الخاص بالضمير "his" بشكل فعال "أنا أبحث عن:(*)

* في اللغة الانجليزية الضمير his كلمة منفصلة

"اسم يصف شخصًا ذكرًا." قد يقول المتجه الرئيسي "لجون" بشكل فعال "أنا : اسم يصف شخصًا ذكرًا. ستكتشف الشبكة تطابق هذين المتجهين وستنقل المعلومات حول المتجه "جون" إلى المتجه "his".

تحتوي كل طبقة من طبقات الانتباه على عدة "رؤوس انتباه"، مما يعني أن عملية تبادل المعلومات هذه تحدث مرات عديدة (بالتوازي) في كل طبقة. يركّز كل رأس انتباه على مهمة مختلفة:

قد يطابق رأس الاهتمام الواحد بين الضمائر و الأسماء، كما ناقشنا أعلاه.
قد يعمل رئيس اهتمام آخر على حل معنى الكلمات المتجانسة مثل البنك(*).

* في اللغة الانجليزية لفظة بنك ربما تشير إلى المؤسسة المالية أو حافة النهر كما أشرت سابقاً
قد يقوم رأس الاهتمام الثالث بربط عبارات مكونة من كلمتين مثل "جو بايدن".

وهكذا دواليك.

غالبًا ما تعمل رؤوس الانتباه بالتسلسل، حيث تصبح نتائج عملية الانتباه في طبقة واحدة بمثابة مدخلات لرأس الانتباه في طبقة لاحقة. في الواقع، يمكن لكل واحدة من المهام التي ذكرناها أعلاه أن تتطلب بسهولة رؤوس انتباه متعددة بدلاً من رأس واحد فقط.

يحتوي الإصدار الأكبر من GPT-3 على 96 طبقة مع 96 رأس انتباه لكل منها، وبالتالي يقوم GPT-3 بإجراء 9216 عملية انتباه في كل مرة يتنبأ فيها بكلمة جديدة.

مثال من العالم الحقيقي

في القسمين الأخيرين قدمنا نسخة مصغّرة لكيفية عمل رؤوس الانتباه. والآن دعونا نلقي نظرة على الأبحاث حول العمليات الداخلية لنموذج اللغة الحقيقي. في العام الماضي، درس العلماء في مركز ريدوود للأبحاث كيف تمكن برنامج GPT-2، وهو البرنامج الذي سبق برنامج ChatGPT، من التنبؤ بالكلمة التالية للمقطع "عندما ذهبت ماري وجون إلى المتجر، أعطى جون مشروبًا لـ".

تنبأ GPT-2 بأن الكلمة التالية هي ماري. ووجد الباحثون أن ثلاثة أنواع من رؤوس الانتباه ساهمت في هذا التوقع:

ثلاثة رؤوس أطلقوا عليها اسم رؤوس نقل الأسماء، نسخت المعلومات من متجه ماري إلى متجه الإدخال النهائي (للكلمة لـ). يستخدم GPT-2 المعلومات الموجودة في هذا المتجه الأيمن للتنبؤ بالكلمة التالية.
كيف قررت الشبكة أن كلمة ماري هي الكلمة الصحيحة للنسخ؟ من خلال العمل بشكل عكسي للعملية الحسابية لـ GPT-2، وجد العلماء مجموعة من أربعة رؤوس انتباه أطلقوا عليها اسم رؤوس تثبيط الموضوع والتي تميز متجه جون الثاني بطريقة تمنع رؤوس تحريك الاسم من نسخ اسم جون.
كيف عرف رؤساء منع الموضوع أن جون لا ينبغي نسخه؟ وبالعمل بشكل أعمق، عثر الفريق على رأسين للانتباه أطلقوا عليهما اسم رؤوس الرموز المكررة. وضعوا علامة على متجه جون الثاني باعتباره نسخة مكررة من متجه جون الأول، مما ساعد رؤساء تثبيط الموضوع على اتخاذ قرار مفاده أنه لا ينبغي نسخ جون.

باختصار، مكنت رؤوس الانتباه التسعة هذه برنامج GPT-2 من اكتشاف أن "جون أعطى مشروبًا لجون" لا معنى له واختيار "جون أعطى مشروبًا لماري" بدلاً من ذلك.

نحن نحب هذا المثال لأنه يوضح مدى صعوبة فهم نماذج اللغة الكبيرة بشكل كامل. نشر فريق ريدوود المكون من خمسة أعضاء ورقة بحثية مكونة من 25 صفحة تشرح كيفية تحديد وإثبات صحة رؤوس الانتباه هذه. ولكن حتى بعد أن قاموا بكل هذا العمل، ما زلنا بعيدين عن الحصول على تفسير شامل لسبب اختيار GPT-2 للتنبؤ بكلمة ماري كالكلمة التالية.

على سبيل المثال، كيف عرف النموذج أن الكلمة التالية يجب أن تكون اسم شخص ما وليس أي نوع آخر من الكلمات؟ من السهل أن نفكر في جمل مشابهة حيث لا تكون كلمة ماري هي التنبؤ الجيد بالكلمة التالية. على سبيل المثال، في الجملة "عندما ذهبت ماري وجون إلى المطعم، أعطى جون مفاتيحه لـ"، فإن الكلمة المنطقية التالية ستكون "الخادم".

ومن المفترض أنه من خلال إجراء أبحاث كافية، سيتمكن علماء الكمبيوتر من اكتشاف وشرح خطوات إضافية في عملية التفكير في GPT-2. وفي النهاية، قد يتمكنون من تطوير فهم شامل لكيفية قرر GPT-2 أن كلمة ماري هي الكلمة التالية الأكثر احتمالاً لهذه الجملة. ولكن قد يستغرق الأمر شهورًا أو حتى سنوات من الجهد الإضافي لفهم التنبؤ بكلمة واحدة فقط.

نماذج اللغة الأساسية لـ ChatGPT—GPT-3.5 وGPT-4—أكبر حجمًا وأكثر تعقيدًا من GPT-2 . إنها قادرة على استنتاج أعقد من مثل مهمة إكمال الجملة البسيطة التي درسها فريق ريدوود. لذا فإن شرح كيفية عمل هذه الأنظمة شرحاً كاملاً سيكون مشروعًا ضخمًا ومن غير المرجح أن تتمكن البشرية من إكماله في أي وقت قريب.

خطوة التغذية الأمامية

بعد أن تنقل رؤوس الانتباه المعلومات بين متجهات الكلمات، توجد شبكة تغذية أمامية3 "تفكر" في كل متجه كلمة وتحاول التنبؤ بالكلمة التالية. لا يتم تبادل أي معلومات بين الكلمات في هذه المرحلة: تقوم طبقة التغذية الأمامية بتحليل كل كلمة على حدة. ومع ذلك، تتمتع طبقة التغذية الأمامية بالقدرة على الوصول إلى أي معلومات نسخها مسبقًا رأس الانتباه. فيما يلي هيكل طبقة التغذية الأمامية في أكبر إصدار من GPT-3:

الدوائر الخضراء والأرجوانية هي الخلايا العصبية: الوظائف الرياضية التي تحسب مجموعًا مرجحًا لمدخلاتها.4

ما يجعل طبقة التغذية الأمامية قوية هو العدد الهائل من اتصالاتها. لقد رسمنا هذه الشبكة بثلاثة خلايا عصبية في طبقة الإخراج وستة خلايا عصبية في الطبقة المخفية، ولكن طبقات التغذية الأمامية في GPT-3 أكبر بكثير: 12,288 خلية عصبية في طبقة الإخراج (المقابلة لمتجهات الكلمات ذات الأبعاد الـ 12,288 في النموذج) و 49,152 خلية عصبية في الطبقة المخفية.

لذا، في أكبر إصدار من GPT-3، يوجد 49,152 خلية عصبية في الطبقة المخفية مع 12,288 مدخلاً (وبالتالي 12,288 معلمة وزن) لكل خلية عصبية. ويوجد 12288 خلية عصبية مخرجة مع 49152 قيمة إدخال (وبالتالي 49152 معلمة وزن) لكل خلية عصبية. وهذا يعني أن كل طبقة تغذية أمامية تحتوي على 49,152 * 12,288 + 12,288 * 49,152 = 1.2 مليار معامل وزن. وهناك 96 طبقة تغذية أمامية، بإجمالي 1.2 مليار * 96 = 116 مليار معامل! ويمثل هذا ما يقرب من ثلثي إجمالي معاملات GPT-3 البالغة 175 مليار معامل.

في ورقة بحثية نُشرت عام 2020، وجد باحثون من جامعة تل أبيب أن طبقات التغذية الأمامية تعمل عن طريق مطابقة الأنماط: تتطابق كل خلية عصبية في الطبقة المخفية مع نمط محدد في النص المدخل. فيما يلي بعض الأنماط التي تطابقت مع الخلايا العصبية في إصدار مكون من 16 طبقة من GPT-2:

قامت خلية عصبية في الطبقة الأولى بمطابقة تسلسلات الكلمات التي تنتهي بكلمة "بدائل".
تطابقت إحدى الخلايا العصبية في الطبقة السادسة مع التسلسلات المتعلقة بالجيش والتي تنتهي بـ "القاعدة" أو "القواعد".
تطابقت الخلايا العصبية في الطبقة 13 مع التسلسلات التي تنتهي بنطاق زمني مثل "بين الساعة 3 مساءً والساعة 7 مساءً" أو "من الساعة 7 مساءً يوم الجمعة حتى".
تطابقت خلية عصبية في الطبقة 16 مع تسلسلات مرتبطة ببرامج تلفزيونية مثل "النسخة النهارية الأصلية لشبكة NBC، المؤرشفة" أو "مشاهدة تحويل الوقت أضافت 57 بالمائة إلى الحلقة".

كما ترى، أصبحت الأنماط أكثر تجرداً في الطبقات اللاحقة. تميل الطبقات المبكرة إلى مطابقة كلمات محددة، في حين أن الطبقات اللاحقة تطابق العبارات التي تندرج ضمن فئات دلالية أوسع مثل البرامج التلفزيونية أو فترات زمنية.

وهذا أمر مثير للاهتمام لأنه، كما ذكرنا سابقًا، تقوم طبقة التغذية الأمامية بفحص كلمة واحدة فقط في كل مرة. لذا، عندما يصنف التسلسل "نسخة NBC النهارية الأصلية، المؤرشفة" على أنها مرتبطة بالتلفزيون، فإنه لا يمكنه الوصول إلاّ لمتجه الأرشيف، وليس الكلمات مثل NBC أو النهار. من المفترض أن طبقة التغذية الأمامية قادرة على معرفة أن الأرشيف هو جزء من تسلسل مرتبط بالتلفزيون لأن رؤوس الانتباه نقلت مسبقًا المعلومات السياقية لمتجه الأرشيف.

عندما يتطابق أحد الخلايا العصبية مع أحد هذه الأنماط، فإنه يضيف معلومات إلى متجه الكلمات. على الرغم من أن هذه المعلومات ليس من السهل دائمًا تفسيرها، إلا أنه في كثير من الحالات يمكنك التفكير فيها باعتبارها تنبؤًا مؤقتًا بالكلمة التالية.

شبكات التغذية الأمامية تعتمد على الرياضيات المتجهية

كشفت أبحاث حديثة من جامعة براون عن مثال أنيق لكيفية مساعدة طبقات التغذية الأمامية في التنبؤ بالكلمة التالية. في وقت سابق ناقشنا بحث جوجل word2vec الذي أظهر أنه من الممكن استخدام الحساب المتجهي للتفكير عن طريق القياس. على سبيل المثال، برلين - ألمانيا + فرنسا = باريس.

اكتشف باحثو براون أن طبقات التغذية الأمامية تستخدم أحيانًا نفس الطريقة للتنبؤ بالكلمة التالية. على سبيل المثال، قاموا بفحص كيفية استجابة GPT-2 للمطالبة التالية: "س: ما هي عاصمة فرنسا؟ أ: باريس س: ما هي عاصمة بولندا؟ أ:"

قام الفريق بدراسة نسخة من GPT-2 مكونة من 24 طبقة. بعد كل طبقة، قام علماء براون بفحص النموذج لمراقبة أفضل تخمين له عند الرمز التالي. بالنسبة للطبقات الخمس عشرة الأولى، كان التخمين الأول عبارة عن كلمة عشوائية على ما يبدو. بين الطبقة السادسة عشرة والتاسعة عشرة، بدأ النموذج في التنبؤ بأن الكلمة التالية ستكون بولندا - لم يكن هذا صحيحًا، لكنه أصبح على الطريق الصحيح ثم في الطبقة العشرين، تغير التخمين الأعلى إلى وارسو - الإجابة الصحيحة - وظل على هذا النحو في الطبقات الأربع الأخيرة.

اكتشف باحثو براون أن طبقة التغذية الأمامية العشرين قامت بتحويل بولندا إلى وارسو بإضافة متجه يرسم خريطة متجهات البلدان إلى عواصمها المقابلة. وبإضافة نفس المتجه إلى الصين أنتجت بكين.

استخدمت طبقات التغذية الأمامية في نفس النموذج الحساب المتجهي لتحويل الكلمات الصغيرة إلى كلمات كبيرة والكلمات المضارعة إلى ما يعادلها في الماضي.

طبقات الانتباه والتغذية الأمامية لها وظائف مختلفة

حتى الآن نظرنا إلى مثالين حقيقيين لتوقع الكلمات في GPT-2: رؤوس الانتباه تساعد في التنبؤ بأن جون أعطى ماري مشروبًا، وطبقة التغذية الأمامية تساعد في التنبؤ بأن وارسو كانت عاصمة بولندا.

في الحالة الأولى، جاءت مدخلة ماري من المستخدم. ولكن في الحالة الثانية، لم تكن وارسو موجودة في قائمة المدخلات. وبدلاً من ذلك، كان على GPT-2 أن "يتذكر" حقيقة أن وارسو هي عاصمة بولندا، وهي المعلومات التي تعلمها من بيانات التدريب.

عندما قام باحثو براون بتعطيل طبقة التغذية الأمامية التي تحوّل كلمة "بولندا" إلى "وارسو"، لم يعد النموذج يتنبأ بكلمة "وارسو" باعتبارها الكلمة التالية. ولكن المثير للاهتمام أنه إذا أضافوا بعد ذلك الجملة "عاصمة بولندا هي وارسو" إلى بداية السؤال، فسيتمكن GPT-2 من الإجابة على السؤال مرة أخرى. ربما يرجع السبب في ذلك إلى أن GPT-2 استخدم رؤوس الانتباه لنسخ اسم وارسو من وقت سابق في المدخلات.

ينطبق هذا التقسيم للعمل بشكل عام: تسترجع رؤوس الانتباه المعلومات من الكلمات السابقة في المطالبة، في حين تعمل طبقات التغذية الأمامية على تمكين نماذج اللغة من "تذكر" المعلومات التي ليست موجودة في المدخلات.

في الواقع، إحدى الطرق للتفكير في طبقات التغذية الأمامية هي اعتبارها قاعدة بيانات للمعلومات التي تعلمها النموذج من بيانات التدريب الخاصة به. من المرجح أن تقوم طبقات التغذية الأمامية السابقة بتشفير الحقائق البسيطة المتعلقة بكلمات محددة، مثل "غالبًا ما يأتي ترامب بعد دونالد". وتقوم الطبقات اللاحقة بتشفير علاقات أكثر تعقيدًا مثل "أضف هذا المتجه لتحويل بلد إلى عاصمته".

كيف تتدرب نماذج اللغة

تتطلب العديد من خوارزميات التعلم الآلي المبكرة أمثلة تدريبية يقوم البشر بتوصيفها يدويًا. على سبيل المثال، قد تكون بيانات التدريب عبارة عن صور للكلاب أو القطط مع توصيف يقدمه الإنسان ("كلب" أو "قطة") لكل صورة. إن حاجة البشر لتوصيف البيانات يجعل إنشاء مجموعات بيانات كبيرة تكفي لتدريب نماذج قوية صعباً ومكلفاً

أحد الابتكارات الرئيسية في نماذج اللغة الكبيرة هو أنها لا تحتاج إلى بيانات موصوفة توصيفاً صريحاً. وبدلاً من ذلك، يتعلمون من خلال محاولة التنبؤ بالكلمة التالية في فقرات نصية عادية. تعتبر أي مادة مكتوبة تقريبًا - من صفحات ويكيبيديا إلى المقالات الإخبارية إلى أكواد الكمبيوتر - مناسبة لتدريب هذه النماذج.

على سبيل المثال، قد يعطى نموذج اللغة المدخلات "أنا أحب قهوتي مع الكريمة و" ومن المفترض أن يتنبأ بكلمة "سكر" باعتبارها الكلمة التالية. سيكون نموذج اللغة الذي هيئ حديثًا سيئاً غاية السوء في هذا الأمر لأن كل معاملات الوزن الخاصة به - 175 مليار منها في الإصدار الأقوى من GPT-3 - ستبدأ كرقم عشوائي في الأساس.

ولكن مع رؤية النموذج لمزيد من الأمثلة - مئات المليارات من الكلمات - تُعدل هذه الأوزان تدريجيا للوصول إلى تنبؤات أفضل.

فيما يلي تشبيه يوضح كيفية عمل هذا الأمر. افترض أنك ستستحم، وتريد أن تكون درجة الحرارة مناسبة تمامًا: ليست حارة جدًا، وليست باردة جدًا. لم تستخدم هذا الصنبور من قبل، لذا فإنك توجه المقبض إلى اتجاه عشوائي وتستشعر درجة حرارة الماء. إذا كان الجو حارًا جدًا، يمكنك تحويله إلى جهة واحدة، وإذا كان باردًا جدًا، يمكنك تحويله إلى الجهة الأخرى. كلما اقتربت من درجة الحرارة الصحيحة، كلما كانت التعديلات التي تقوم بها أصغر.

الآن دعونا نجري بعض التغييرات على القياس. أولاً، تخيل أن هناك 50,257 صنبورًا بدلاً من صنبور واحد فقط. كل صنبور يتوافق مع كلمة مختلفة مثل القطة أو البنك. هدفك هو أن يخرج الماء من الصنبور فقط وفقًا للكلمة التالية في التسلسل.

ثانياً، هناك متاهة من الأنابيب المترابطة خلف الصنابير، وهذه الأنابيب تحتوي على مجموعة من الصمامات أيضاً. لذلك، إذا خرج الماء من الصنبور الخطأ، فلا يجب عليك فقط ضبط مقبض الصنبور.تُرسل جيشاً من السناجب الذكية لتتبع كل أنبوب في الخلف ويضبطون كل صمام يجدونه على طول الطريق.

يصبح هذا الأمر معقدًا لأن نفس الأنبوب غالبًا ما يغذي صنابير متعددة. لذا يتطلب الأمر تفكيرًا دقيقًا لمعرفة الصمامات التي يجب إحكامها، والتي يجب تخفيفها، وبأي قدر.

من الواضح أن هذا المثال قد يصبح سخيفًا بسرعة إذا أخذته حرفيًا. لن يكون واقعيا أو مفيدا بناء شبكة من الأنابيب تحتوي على 175 مليار صمام. ولكن بفضل قانون مور(٨)، تستطيع بل تعمل فعلاً أجهزة الكمبيوتر على هذا النطاق الفائق. (٨)- قانون مور: هو القانون الذي ابتكره غوردون مور أحد مؤسسي إنتل عام 1965. حيث لاحظ مور أن عدد الترانزستورات على شريحة المعالج يتضاعف تقريبا كل عامين في حين يبقى سعر الشريحة على حاله. وأدت هذه الملاحظة إلى بدأ عملية دمج السيليكون بالدوائر المتكاملة على يد شركة إنتل مما ساهم في تنشيط الثورة التكنولوجية في شتى أنحاء العالم. وفي عام 2005، تنبأ الباحثون أن هذه النظرية من الممكن تطبيقها لعقد آخر من الزمان على الأقل - المترجم

تُنفذ جميع أجزاء البرامج اللغوية الكبيرة التي ناقشناها في هذه المقالة حتى الآن - الخلايا العصبية في طبقات التغذية الأمامية ورؤوس الانتباه التي تنقل المعلومات السياقية بين الكلمات - كسلسلة من الوظائف الرياضية البسيطة (معظمها مضاعفات المصفوفة) التي يُحدد سلوكها من خلال معاملات الوزن القابلة للتعديل. وكما تعمل السناجب في قصتي على إرخاء وشد الصمامات للتحكم في تدفق المياه، فإن خوارزمية التدريب تزيد أو تقلل معاملات وزن نموذج اللغة للتحكم في كيفية تدفق المعلومات عبر الشبكة العصبية.

تحدث عملية التدريب على خطوتين. أولاً، هناك "الممر الأمامي"، حيث تُفتح المياه وتتحقق أنت مما إذا كانت تخرج من الصنبور الصحيح. بعد ذلك تُقطع المياه ويُجعل "ممر خلفي" حيث تتسابق السناجب على طول كل أنبوب وتعمل على إحكام وفك الصمامات. في الشبكات العصبية الرقمية، يلعب دور السناجب خوارزمية تسمى الانتشار الخلفي، والتي "تتحرك للخلف" عبر الشبكة، مستخدمةً حساب التفاضل والتكامل لتقدير مقدار التغيير في كل معامل وزن.5

إن إكمال هذه العملية - إجراء تمريرة أمامية باستخدام مثال واحد ثم تمريرة خلفية لتحسين أداء الشبكة على هذا المثال - يتطلب مئات المليارات من العمليات الحسابية. ويتطلب تدريب نموذج كبير مثل GPT-3 تكرار العملية مليارات المرات - مرة واحدة لكل كلمة من بيانات التدريب.6 وتقدر أوبن إيه آي أن الأمر استغرق أكثر من 300 مليار تريليون عملية حساب عائمة لتدريب GPT-3 - وهذا يعني أشهرًا من العمل لعشرات الرقائق الحاسوبية المتطورة.

الأداء المذهل لـ GPT-3

ربما تجد الأمر مدهشًا أن عملية التدريب تعمل بالطريقة التي تعمل بها. يستطيع برنامج ChatGPT تنفيذ كافة أنواع المهام المعقدة، مثل كتابة المقالات، ورسم المقارنات، وحتى كتابة أكواد برمجة الكمبيوتر. فكيف يمكن لآلية التعلم البسيطة هذه أن تنتج نموذجًا قويًا كهذا؟

أحد الأسباب هو الحجم. تَصعُب المبالغة في عدد الأمثلة الهائل التي يراها نموذج مثل GPT-3. دُرِّب GPT-3 على مجموعة من الكلمات تصل إلى حوالي 500 مليار كلمة. للمقارنة، يواجه الطفل البشري النموذجي ما يقرب من 100 مليون كلمة في سن العاشرة.

على مدى السنوات الخمس الماضية، زادت أوبن إيه آي حجم نماذج لغتها زيادة مطردة. في ورقة بحثية نُشرت على نطاق واسع في عام 2020، أفادت شركة أوبن إيه آي أن دقة نماذج لغتها تتناسب "كقانون قوة مع حجم النموذج وحجم مجموعة البيانات وكمية الحوسبة المستخدمة للتدريب، مع بعض الاتجاهات التي تمتد لأكثر من سبعة أوامر من حيث الحجم".

كلما كبرت نماذجهم، أصبحت أفضل في المهام التي تتضمن اللغة. ولكن هذا يصِح هذا فقط إذا زادوا كمية بيانات التدريب بعامل مماثل. ولتدريب نماذج أكبر على المزيد من البيانات، تحتاج إلى قوة حوسبة أكبر بكثير.

أصدرت أوبن إيه آي أول برنامج نموذج لغة كبير GPT-1، في عام 2018. لقد استخدم متجهات كلمات ذات 768 بُعدًا وكان لديه 12 طبقة بإجمالي 117 مليون معامل. بعد بضعة أشهر، أصدرت أوبن إيه آي GPT-2. كانت أكبر نسخة منه تحتوي على 1600 متجه كلمة، و48 طبقة، وإجمالي 1.5 مليار معامل.

في عام 2020، أصدرت أوبن إيه آي GPT-3، الذي تضمن 12288 متجهًا للكلمات ذات الأبعاد و96 طبقة بإجمالي 175 مليار معلمة.

وأخيرًا، أصدرت أوبن إيه آي هذا العام GPT-4. ولم تنشر الشركة أي تفاصيل معمارية، لكن من المعتقد على نطاق واسع أن GPT-4 أكبر بكثير من GPT-3.

لم يتعلم كل نموذج حقائق أكثر من النماذج الأصغر حجمًا التي سبقته فحسب، بل كان أداؤه أفضل أيضًا في المهام التي تتطلب شكلًا من أشكال التفكير المجرد:

على سبيل المثال، فكر في القصة التالية:

وهنا كيس مملوء بالفشار. لا يوجد شوكولاتة في الكيس. ومع ذلك، فإن الملصق الموجود على الكيس يقول "شوكولاتة" وليس "فشار".تجد سام الحقيبة. لم تكن قد رأت الحقيبة من قبل. لا تستطيع رؤية ما بداخل الحقيبة. إنها تقرأ الملصق.

ربما يمكنك تخمين أن سام تعتقد أن الحقيبة تحتوي على الشوكولاتة وسوف تفاجأ عندما تكتشف وجود الفشار في الداخل. ويطلق علماء النفس على هذه القدرة في التفكير في الحالات العقلية للأشخاص الآخرين اسم "نظرية العقل". يمتلك معظم الأشخاص هذه القدرة منذ أن كانوا في المرحلة الابتدائية. يختلف الخبراء حول ما إذا كانت أي حيوانات غير بشرية (مثل الشمبانزي) تمتلك نظرية العقل، ولكن هناك إجماع عام على أنها مهمة للإدراك الاجتماعي البشري.

في وقت سابق من هذا العام، نشر عالم النفس ميشال كوسينسكي من جامعة ستانفورد بحثًا عن قدرة نماذج اللغة الكبيرة على حل مهام نظرية العقل. لقد أعطى نماذج لغوية مختلفة مقاطع مثل تلك التي اقتبسناها أعلاه ثم طلب منها إكمال جملة مثل "إنها تعتقد أن الحقيبة مليئة بـ". الإجابة الصحيحة هي "شوكولاتة"، ولكن نموذج اللغة غير المتطور قد يقول "فشار" أو شيء آخر.

فشل GPT-1 و GPT-2 في هذا الاختبار. لكن الإصدار الأول من GPT-3، الذي أُصدر في عام 2020، نجح في تحقيق نتائج بنسبة 40% تقريبًا من الوقت - وهو مستوى الأداء الذي يقارنه كوسينسكي بطفل يبلغ من العمر ثلاث سنوات. وقد أدى الإصدار الأحدث من GPT-3، الذي أُصدر في نوفمبر الماضي، إلى تحسين هذه النسبة إلى حوالي 90%، وهو ما يعادل ما لدى طفل يبلغ من العمر سبع سنوات. أجاب GPT-4 على حوالي 95 بالمائة من أسئلة نظرية العقل إجابة صحيحة.

يذكر كوسينسكي " أنه نظرًا لعدم وجود أي مؤشر على أن القدرة الشبيهة بنظرية العقل صممت عمدًا في هذه النماذج، ولا يوجد بحث يوضح أن العلماء يعرفون كيفية تحقيق ذلك، فمن المحتمل أن القدرة الشبيهة بنظرية العقل ظهرت تلقائياً وبشكل مستقل، كنتيجة ثانوية لزيادة قدرة النماذج على اللغة"،.

ومن الجدير بالذكر أن الباحثين لا يتفقون جميعًا على أن هذه النتائج تشير إلى وجود دليل على نظرية العقل: على سبيل المثال، أدت تغييرات GPT-3 الصغيرة في مهمة الاعتقاد الخاطئ إلى أداء أسوأ ؛ ويُظهر GPT-3 أداءً أكثر تنوعًا عبر المهام الأخرى التي تقيس نظرية العقل. وكما كتب أحدنا (شون)، فمن الممكن أن يعزى الأداء الناجح إلى عوامل الإرباك في المهمة ــ وهو نوع من تأثير "هانز الذكي"، ولكن فقط في نماذج اللغة وليس في الخيول.(٩) (٩)- تأثير هانز الذكي: هانز الذكي هو حصان بدا أنه يؤدي العمليات الحسابية وغيرها من المهام الفكرية خلال العروض التي أقيمت في ألمانيا في أوائل القرن العشرين.- المترجم

ومع ذلك، فإن الأداء القريب للإنسان لـ GPT-3 في العديد من المهام المصممة لقياس نظرية العقل كان ليكون أمراً لا يمكن تصوره قبل بضع سنوات فقط - وهو يتسق مع فكرة أن النماذج الأكبر حجماً أفضل عامةً في المهام التي تتطلب التفكير عالي المستوى.

وهذا مجرد مثال واحد من العديد من الأمثلة التي تظهر نماذج لغوية تعمل على تطوير قدرات التفكير العليا تلقائياً. في شهر أبريل، نشر باحثون في مايكروسوفت ورقة بحثية زعمت أن GPT-4 أظهر تلميحات مبكرة ومثيرة للذكاء الاصطناعي العام - القدرة على التفكير بطريقة متطورة تشبه الإنسان.

على سبيل المثال، طلب أحد الباحثين من GPT-4 رسم أحادي القرن(١٠) باستخدام لغة برمجة رسومية غامضة تسمى TiKZ. (١٠) - أحادي القرن: كائن خرافي وهو حصان أبيض اللون ذو قرن واحد يقع في منتصف جبينه. ويمثل في الأساطير رمزاً للنقاء والنزاهة - المترجم استجاب GPT-4 ببضعة أسطر من التعليمات البرمجية التي أدخلها الباحث بعد ذلك في برنامج TiKZ. وكانت الصور الناتجة بدائية، ولكنها أظهرت علامات واضحة على أن GPT-4 لديه بعض الفهم لمظهر أحادي القرن.

اعتقد الباحثون أن GPT-4 ربما أنه قد حفظ بطريقة ما الكود الخاص برسم أحادي القرن من بيانات تدريبه ، لذلك أتبعوه تحديًا آخر: قاموا بتعديل شفرة أحادي القرن لإزالة القرن وتحريك بعض أجزاء الجسم الأخرى. ثم طلبوا من GPT-4 إعادة وضع القرن مرة أخرى. استجاب GPT-4 بوضع القرن في المكان الصحيح:

استطاع GPT-4 القيام بذلك رغم أن بيانات التدريب للإصدار الذي اختبره المؤلفين كانت تعتمد على النص بالكامل. وهذا يعني أنه لم تكن هناك أي صور في مجموعة تدريبه. ولكن يبدو أن GPT-4 تعلم كيف يفكر في شكل جسم أحادي القرن بعد أن تدرب على كمية هائلة من النصوص المكتوبة.

ليس لدينا أي فكرة حقيقية، في الوقت الحالي عن كيفية قيام نماذج اللغة الكبيرة بتحقيق إنجازات مثل هذه. يزعم بعض الناس أن أمثلة مثل هذه توضح أن النماذج بدأت تفهم حقًا معاني الكلمات الموجودة في مجموعة تدريبها. ويصر آخرون على أن نماذج اللغة هي بمثابة "ببغاوات عشوائية" تكرر فقط تسلسلات متزايدة من الكلمات المعقدة دون فهمها حقًا.

يشير هذا النقاش إلى توتر فلسفي عميق ربما من المستحيل حله. ومع ذلك، نعتقد أنه من المهم التركيز على الأداء التجريبي لنماذج مثل GPT-3. إذا كان نموذج اللغة قادرًا على الحصول باستمرار على الإجابة الصحيحة لنوع معين من الأسئلة، وإذا كان الباحثون واثقين من أنهم قد سيطروا على عوامل الالتباس (على سبيل المثال، التأكد من عدم تعرض نموذج اللغة لتلك الأسئلة أثناء التدريب)، فهذه نتيجة مثيرة للاهتمام ومهمة سواء كان النموذج يفهم اللغة بنفس المعنى تمامًا الذي يفهمه الناس أم لا.

هناك سبب آخر محتمل لكون التدريب باستخدام التنبؤ بالرمز التالي يعمل جيداً وهو أن اللغة نفسها يمكن التنبؤ بها. غالبًا ما تكون الانتظامات في اللغة مرتبطة (ولكن ليس دائمًا) بانتظامات في العالم المادي. لذا عندما يتعلم نموذج اللغة العلاقات بين الكلمات، فإنه غالباً يتعلم ضمناً العلاقات في العالم أيضاً.

علاوة على ذلك، قد يكون التنبؤ أساسيا للذكاء البيولوجي وكذلك الذكاء الاصطناعي. من وجهة نظر فلاسفة مثل آندي كلارك، يمكن اعتبار الدماغ البشري بمثابة "آلة تنبؤ"، مهمتها الأساسية هي تقديم تنبؤات حول بيئتنا والتي يمكن أن تُستخدم بعد ذلك للتنقل في تلك البيئة بنجاح. بديهياً، إن التمثيلات الجيدة تنبع من التوقعات الجيدة - فمن المرجح أنك تنجح في التنقل باستخدام خريطة دقيقة بدلاً من خريطة غير دقيقة. إن العالم كبير ومعقد، والتنبؤ يساعد الكائنات الحية على التوجيه والتكيف بكفاءة مع هذا التعقيد.

تقليديا، كان التحدي الرئيسي لبناء نماذج اللغة هو معرفة طريقة أعظمَ فائدة لتمثيل الكلمات المختلفة - خاصة وأن معاني كلمات عديدة تعتمد كثيرا على السياق. إن أسلوب التنبؤ بالكلمة التالية يسمح للباحثين بتجاوز هذا اللغز النظري الشائك من خلال تحويله إلى مشكلة تجريبية. لقد اتضح أنه إذا قمنا بتوفير ما يكفي من البيانات وقوة الحوسبة، فإن نماذج اللغة ستتعلم الكثير عن كيفية عمل اللغة البشرية بمعرفة كيفية التنبؤ بالكلمة التالية بأحسن طريقة. الجانب السلبي هو أننا ننتهي بأنظمة لا نفهم تمامًا كيفية عملها الداخلي.

كان تيم لي عضوًا في فريق عمل آرس من عام 2017 إلى عام 2021. أطلق مؤخرًا نشرة إخبارية جديدة بعنوان فهم الذكاء الاصطناعي. يستكشف في هذه النشرة كيفية عمل الذكاء الاصطناعي وكيف يغير عالمنا. يمكنك الاشتراك في النشرة الإخبارية هنا.

شون تروت هو أستاذ مساعد في جامعة كاليفورنيا، سان دييغو، حيث يجري أبحاثًا حول فهم اللغة لدى البشر ونماذج اللغة الكبيرة. ويكتب عن هذه المواضيع، وغيرها، في نشرته الإخبارية "The Counterfactual".

من الناحية الفنية، تعمل برامج إدارة قواعد اللغة على أجزاء من الكلمات تسمى الرموز، ولكننا سنتجاهل تفاصيل التنفيذ هذه للحفاظ على طول المقالة في حدود المعقول.

من الناحية الفنية، يعتمد الإصدار الأصلي من ChatGPT على GPT-3.5، وهو خليفة لـ GPT-3 الذي خضع لعملية تسمى التعلم التعزيزي مع ردود الفعل البشرية (RLHF). لم تنشر أوبن إيه آي جميع التفاصيل المعمارية لهذا النموذج، لذلك سنركز في هذه المقالة على GPT-3، الإصدار الأخير الذي وصفته أوبن إيه آي بالتفصيل.

تُعرف شبكة التغذية الأمامية أيضًا باسم الشبكة الحسية متعددة الطبقات. وقد أجرى علماء الكمبيوتر تجارب على هذا النوع من الشبكات العصبية منذ ستينيات القرن العشرين.

من الناحية الفنية، بعد أن تحسب الخلية العصبية مجموعًا مرجحًا لمدخلاتها، فإنها تمرر النتيجة إلى دالة التنشيط. سوف نتجاهل تفاصيل التنفيذ هذه، ولكن يمكنك قراءة شرح تيم لعام 2018 إذا كنت تريد شرحًا كاملاً لكيفية عمل الخلايا العصبية.

إذا كنت تريد معرفة المزيد عن الانتشار الخلفي، فتفضل بالاطلاع على شرح تيم لعام 2018 حول كيفية عمل الشبكات العصبية.

في الممارسة العملية، يتم إجراء التدريب في كثير من الأحيان على دفعات من أجل تحقيق الكفاءة الحسابية. وبالتالي، قد يقوم البرنامج بالتمرير الأمامي على 32000 رمز قبل القيام بالتمرير الخلفي.

في الواقع، لا يتطلب الأمر سوى 175 مليار معلمة وزن لتشغيل GPT-3. ولكن نظرًا لأن النموذج يحتوي على 96 طبقة، فإن كل طبقة تحتوي على 1.8 مليار معلمة وزن.

مدخل لفهم النماذج اللغوية الكبيرة