علوم وتكنولوجيا

باحثون يثبتون إمكانية تدريب نماذج ذكاء اصطناعي دون انتهاك حقوق النشر، خلافًا لما تدّعيه الشركات الكبرى

باحثون ينجحون في تجميع قاعدة بيانات ضخمة بحجم 8 تيرابايت من النصوص المتاحة بحرية

في الوقت الذي تدّعي فيه كبرى شركات الذكاء الاصطناعي أن احترام حقوق النشر أمر غير عملي لتطوير النماذج اللغوية الضخمة، أظهر فريق من الباحثين أن بناء نموذج قوي باستخدام بيانات مرخصة أو ضمن الملكية العامة ممكن، وإن كان شاقًا ومعقدًا.

نموذج “Comma v0.1”: دليل عملي على تدريب الذكاء الاصطناعي ببيانات قانونية

أكثر من عشرين باحثًا من مؤسسات أكاديمية ومراكز بحثية مرموقة، من بينها MIT وجامعة تورنتو ومعهد ألين للذكاء

الاصطناعي، نجحوا في تجميع قاعدة بيانات ضخمة بحجم 8 تيرابايت من النصوص المتاحة بحرية. باستخدام هذه البيانات،

درّبوا نموذجًا لغويًا يحتوي على 7 مليارات مُعامل، وحقق نتائج مقاربة لنموذج LLaMA 2 الذي أطلقته شركة ميتا في عام 2023. هذا النموذج الجديد، الذي أطلق عليه اسم Comma v0.1، يستند إلى قاعدة بيانات تسمى Common Pile v0.1، وتتضمن مصادر نصية مثل مكتبة الكونغرس الأميركية التي وفّرت نحو 130 ألف كتاب باللغة الإنجليزية، وهي ضعف ما يتيحه مشروع غوتنبرغ الشهير.

تحديات بناء قاعدة بيانات مرخصة: جهد يدوي مكثف

الباحثون أوضحوا أن العملية استغرقت جهدًا هائلًا، ولا يمكن أتمتتها بالكامل، إذ تطلب الأمر تدقيقًا يدويًا للتحقق من تراخيص المحتوى والتأكد من صلاحيته القانونية للاستخدام. وأكدوا أن الاعتماد على أدوات تقنية فقط غير كافٍ في بيئة مليئة بالبيانات

التي تفتقر إلى وضوح قانوني أو تُستخدم دون إذن. ويأمل الفريق في توسيع هذا النهج تدريجيًا لبناء نماذج أكبر وأكثر قدرة، دون انتهاك الحقوق.

تصاعد الجدل القانوني حول حقوق النشر والذكاء الاصطناعي عالميًا

هذا التطور يأتي في ظل تصاعد الجدل القانوني حول استخدام المحتوى المحمي في تدريب الذكاء الاصطناعي. مؤخرًا، رفعت منصة Reddit دعوى قضائية ضد شركة Anthropic بدعوى استخدام بياناتها دون ترخيص. في الوقت نفسه، تشهد المملكة المتحدة مناقشات حادة حول مشروع قانون قد يسمح باستخدام المحتوى المحمي لهذا الغرض.

وفي الولايات المتحدة، تزايد الجدل بعد قرار الرئيس دونالد ترامب إقالة مديرة مكتب حقوق النشر، وهو ما سلط الضوء مجددًا على تقرير المكتب الأخير، الذي أبدى تحفظات كبيرة حول اعتبار استخدام المحتوى المحمي “استخدامًا عادلًا” في تدريب النماذج التوليدية.

دعوات لشفافية بيانات شركات الذكاء الاصطناعي الكبرى

رغم أن الباحثين لا يتوقعون أن تتبنى الشركات الكبرى هذا النهج الشاق، إلا أنهم يأملون أن تعود هذه الشركات إلى قدر من الشفافية حول مصادر بياناتها، كما كانت تفعل في بدايات العقد، ما قد يعزز الثقة العامة والعلمية في هذه التكنولوجيا سريعة التطور.

 

إيمان زريقات

إيمان زريقات صحفية سورية متخصصة في القسم الخارجي وتغطية وكالات الأنباء العالمية، ولها خبرة واسعة في متابعة الأخبار الدولية وتقديم تقارير دقيقة وشاملة.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى