القصة الخامسة: فوزووز وسباق المتاهة

في عصر أحد الأيام، كان محمد يلعب لعبة جديدة على جهازه اللوحي. كانت اللعبة عبارة عن متاهة معقدة، وعلى اللاعب أن يوجه فأرًا صغيرًا للوصول إلى قطعة جبن في نهايتها. لكن المتاهة كانت صعبة جدًا، وفي كل مرة كان محمد يرتكب خطأ، كان الفأر يصطدم بحائط ويعود إلى نقطة البداية. قال محمد بضجر: “هذا مستحيل! لا يمكنني الفوز أبدًا”.

اقترب فوزووز ونظر إلى الشاشة وقال بفضول: “هذه تبدو كتحدٍ ممتع! هل تعلم أنني أستطيع تعلم لعب هذه اللعبة بنفسي؟ أنا أستخدم طريقة خاصة جدًا تختلف عن كل ما تعلمناه سابقًا”.

سألته لينا باهتمام: “وكيف ستتعلمها؟ لا توجد صور لتعلمك منها هذه المرة”.

أجاب فوزووز: “صحيح. هذه المرة، سأتعلم بالتجربة والخطأ، تمامًا مثلكم. هذه الطريقة تسمى التعلم المعزز (Reinforcement Learning)”. “هدفي هو الحصول على أكبر عدد من المكافآت وتجنب العقوبات”.

اتصل فوزووز باللعبة، وبدأ الفأر الافتراضي بالتحرك. في البداية، كانت حركاته عشوائية تمامًا.

  • تحرك الفأر خطوة إلى الأمام واصطدم بحائط. قال فوزووز: “أوتش! لقد أعطتني اللعبة عقوبة (Penalty) صغيرة على هذا الخطأ. لقد تعلمت الآن أن هذا الطريق سيء”.
  • ثم تحرك الفأر إلى اليسار ووصل إلى طريق مسدود. قال فوزووز: “عقوبة أخرى! سأتذكر أن أتجنب هذا الطريق في المرة القادمة”.
  • بعد ذلك، تحرك الفأر إلى اليمين، فاقترب خطوة من الجبن. أضاءت الشاشة بشكل خفيف. قال فوزوووز بحماس: “رائع! لقد أعطتني اللعبة مكافأة (Reward) صغيرة لأنني اقتربت من الهدف. إذن، هذا هو الطريق الصحيح!”.

شاهد محمد ولينا بدهشة كيف استمر فوزووز في اللعب بسرعة فائقة. كان الفأر الافتراضي يجرب كل الطرق الممكنة آلاف المرات في دقائق قليلة، وفي كل مرة كان “يتذكر” الطرق التي أدت إلى عقوبة والطرق التي جلبت له مكافأة.

شيئًا فشيئًا، بدأت حركاته العشوائية تتحول إلى مسار ذكي ومباشر. بعد قليل، أصبح الفأر ينطلق من نقطة البداية ويصل إلى الجبن في ثوانٍ معدودة دون أن يرتكب أي خطأ.

صاحت لينا: “هذا مذهل! أنت تتعلم مثلما ندرب حيوانًا أليفًا على الحيل باستخدام المكافآت!”.

أومأ فوزووز وقال: “بالضبط! هذه هي الفكرة.

وبهذه الطريقة، لا تتعلم الروبوتات او البرامج لعب الألعاب فقط، بل تتعلم أيضًا مهام معقدة في العالم الحقيقي، مثل كيفية المشي أو الإمساك بالأشياء، من خلال محاولة أفضل الحركات للحصول على ‘مكافأة’ إنجاز المهمة بنجاح”.

أدرك محمد ولينا أن الذكاء الاصطناعي لا يحتاج دائمًا إلى معلم يخبره بالإجابات الصحيحة، فأحيانًا، أفضل طريقة للتعلم هي أن تخوض التجربة بنفسك وتتعلم من أخطائك.

ولكن يا تري ماذا ينتظرنا في المغامرة القادمة!!!