تعارف

کیا آپ کو لگتا ہے کہ Grok3 پہلے سے تربیت یافتہ ماڈلز کا "اینڈ پوائنٹ" ہو گا؟

ایلون مسک اور xAI ٹیم نے باضابطہ طور پر ایک لائیو سٹریم کے دوران Grok, Grok3 کا تازہ ترین ورژن لانچ کیا۔ اس ایونٹ سے پہلے، مسک کے 24/7 پروموشنل ہائپ کے ساتھ مل کر متعلقہ معلومات کی ایک اہم مقدار نے Grok3 کے لیے عالمی توقعات کو بے مثال سطح تک بڑھا دیا۔ صرف ایک ہفتہ قبل، مسک نے ڈیپ سیک R1 پر تبصرہ کرتے ہوئے ایک لائیو سٹریم کے دوران اعتماد سے کہا، "xAI ایک بہتر AI ماڈل لانچ کرنے والا ہے۔" لائیو پیش کیے گئے ڈیٹا سے، Grok3 نے مبینہ طور پر ریاضی، سائنس اور پروگرامنگ کے معیارات میں تمام موجودہ مرکزی دھارے کے ماڈلز کو پیچھے چھوڑ دیا ہے، مسک نے یہاں تک دعویٰ کیا ہے کہ Grok3 کو SpaceX کے مریخ مشن سے متعلق کمپیوٹیشنل کاموں کے لیے استعمال کیا جائے گا، جس کی پیشن گوئی "نوبل انعام کی سطح پر تین سالوں میں کامیابیاں"۔ تاہم، یہ فی الحال صرف مسک کے دعوے ہیں۔ لانچ کے بعد، میں نے Grok3 کے تازہ ترین بیٹا ورژن کا تجربہ کیا اور بڑے ماڈلز کے لیے کلاسک ٹرک کا سوال پیش کیا: "کون سا بڑا ہے، 9.11 یا 9.9؟" افسوس کے ساتھ، بغیر کسی کوالیفائر یا نشانات کے، نام نہاد ہوشیار Grok3 ابھی تک اس سوال کا صحیح جواب نہیں دے سکا۔ Grok3 سوال کے معنی کی درست شناخت کرنے میں ناکام رہا۔

اس ٹیسٹ نے جلد ہی بہت سے دوستوں کی توجہ مبذول کرائی، اور اتفاق سے، بیرون ملک مقیم مختلف اسی طرح کے ٹیسٹوں نے Grok3 کو طبیعیات/ریاضی کے بنیادی سوالات جیسے "پیسا کے لیننگ ٹاور سے کون سی گیند پہلے گرتی ہے؟" کے ساتھ جدوجہد کرتے ہوئے دکھایا ہے۔ اس طرح، اسے مزاحیہ طور پر "ایک باصلاحیت شخص جو سادہ سوالات کا جواب دینے کو تیار نہیں" کے طور پر لیبل کیا گیا ہے۔

Grok3 اچھا ہے، لیکن یہ R1 یا o1-Pro سے بہتر نہیں ہے۔

Grok3 نے عملی طور پر بہت سے عام علمی ٹیسٹوں میں "ناکامیوں" کا تجربہ کیا۔ xAI لانچ ایونٹ کے دوران، مسک نے Grok3 کا استعمال کرتے ہوئے کریکٹر کلاسز اور گیم پاتھ آف Exile 2 کے اثرات کا تجزیہ کرنے کا مظاہرہ کیا، جسے وہ اکثر کھیلنے کا دعویٰ کرتا تھا، لیکن Grok3 کے فراہم کردہ زیادہ تر جوابات غلط تھے۔ لائیو سٹریم کے دوران مسک نے اس واضح مسئلے پر توجہ نہیں دی۔

اس غلطی نے نہ صرف بیرون ملک مقیم نیٹیزنز کو گیمنگ میں "متبادل تلاش کرنے" کے لیے مسک کا مذاق اڑانے کے لیے مزید شواہد فراہم کیے بلکہ عملی ایپلی کیشنز میں Grok3 کے قابل اعتماد ہونے کے حوالے سے بھی اہم خدشات کو جنم دیا۔ اس طرح کے "جینیئس" کے لیے، اس کی اصل صلاحیتوں سے قطع نظر، انتہائی پیچیدہ ایپلیکیشن منظرناموں میں، جیسے مریخ کی تلاش کے کاموں میں اس کی وشوسنییتا شک میں رہتی ہے۔

فی الحال، بہت سے ٹیسٹرز جنہوں نے ہفتے پہلے Grok3 تک رسائی حاصل کی، اور جنہوں نے کل چند گھنٹوں کے لیے ماڈل کی صلاحیتوں کا تجربہ کیا، سب ایک مشترکہ نتیجے کی طرف اشارہ کرتے ہیں: "Grok3 اچھا ہے، لیکن یہ R1 یا o1-Pro سے بہتر نہیں ہے۔"

"Nvidia میں خلل ڈالنے" پر ایک تنقیدی تناظر

ریلیز کے دوران باضابطہ طور پر پیش کردہ PPT میں، Grok3 کو چیٹ بوٹ ایرینا میں "بہت آگے" دکھایا گیا تھا، لیکن اس نے بڑی چالاکی سے گرافک تکنیک کا استعمال کیا: لیڈر بورڈ پر عمودی محور صرف 1400-1300 سکور کی حد میں نتائج کو درج کرتا ہے، جس سے ٹیسٹ کے نتائج میں اصل 1% فرق اس پریزنٹیشن میں غیر معمولی طور پر نمایاں نظر آتا ہے۔

اصل ماڈل اسکورنگ کے نتائج میں، Grok3 DeepSeek R1 اور GPT-4.0 سے صرف 1-2% آگے ہے، جو عملی ٹیسٹوں میں بہت سے صارفین کے تجربات سے مطابقت رکھتا ہے جس میں "کوئی قابل توجہ فرق" نہیں پایا گیا۔ Grok3 صرف 1%-2% تک اپنے جانشینوں سے زیادہ ہے۔

اگرچہ Grok3 نے اس وقت عوامی طور پر جانچے گئے تمام ماڈلز سے زیادہ اسکور کیا ہے، لیکن بہت سے لوگ اسے سنجیدگی سے نہیں لیتے: آخر کار، xAI کو پہلے Grok2 دور میں "اسکور ہیرا پھیری" کے لیے تنقید کا نشانہ بنایا جا چکا ہے۔ جیسا کہ لیڈر بورڈ نے جوابی طوالت کے انداز پر جرمانہ عائد کیا، اسکورز میں بہت زیادہ کمی واقع ہوئی، جس کی وجہ سے صنعت کے اندرونی افراد اکثر "اعلی اسکور لیکن کم صلاحیت" کے رجحان پر تنقید کرتے ہیں۔

چاہے لیڈر بورڈ "ہیرا پھیری" کے ذریعے ہو یا مثالوں میں ڈیزائن کی چالوں کے ذریعے، وہ ماڈل کی صلاحیتوں میں "پیک کی قیادت" کے تصور کے ساتھ xAI اور مسک کے جنون کو ظاہر کرتے ہیں۔ مسک نے ان مارجنز کی بھاری قیمت ادا کی: لانچ کے دوران، اس نے 200,000 H100 GPUs (لائیو سٹریم کے دوران "100,000 سے زیادہ" کا دعویٰ کرتے ہوئے) استعمال کرنے اور 200 ملین گھنٹے کا کل تربیتی وقت حاصل کرنے پر فخر کیا۔ اس نے کچھ لوگوں کو یقین کرنے پر مجبور کیا کہ یہ GPU انڈسٹری کے لیے ایک اور اہم اعزاز کی نمائندگی کرتا ہے اور اس شعبے پر ڈیپ سیک کے اثرات کو "احمقانہ" سمجھتا ہے۔ خاص طور پر، کچھ کا خیال ہے کہ سراسر کمپیوٹیشنل پاور ماڈل ٹریننگ کا مستقبل ہو گی۔

تاہم، کچھ netizens نے DeepSeek V3 کی تیاری کے لیے دو ماہ کے دوران 2000 H800 GPUs کی کھپت کا موازنہ کیا، اس حساب سے Grok3 کی اصل تربیتی بجلی کی کھپت V3 سے 263 گنا زیادہ ہے۔ DeepSeek V3، جس نے 1402 پوائنٹس بنائے، اور Grok3 کے درمیان فرق صرف 100 پوائنٹس سے کم ہے۔ اس اعداد و شمار کے جاری ہونے کے بعد، بہت سے لوگوں نے جلد ہی یہ محسوس کیا کہ Grok3 کے عنوان کے پیچھے "دنیا کا سب سے مضبوط" کے طور پر ایک واضح معمولی افادیت کا اثر پوشیدہ ہے — مضبوط کارکردگی پیدا کرنے والے بڑے ماڈلز کی منطق نے کم ہوتے منافع دکھانا شروع کر دیا ہے۔

یہاں تک کہ "زیادہ اسکورنگ لیکن کم قابلیت" کے ساتھ، Grok2 کے پاس X (Twitter) پلیٹ فارم سے استعمال میں معاونت کے لیے اعلیٰ معیار کا فرسٹ پارٹی ڈیٹا موجود تھا۔ تاہم، Grok3 کی تربیت میں، xAI کو قدرتی طور پر اس "چھت" کا سامنا کرنا پڑا جس کا OpenAI کو اس وقت سامنا ہے — پریمیم ٹریننگ ڈیٹا کی کمی ماڈل کی صلاحیتوں کی معمولی افادیت کو تیزی سے بے نقاب کرتی ہے۔

Grok3 اور Musk کے ڈویلپرز ممکنہ طور پر ان حقائق کو گہرائی سے سمجھنے اور ان کی شناخت کرنے والے پہلے فرد ہیں، یہی وجہ ہے کہ مسک نے سوشل میڈیا پر مسلسل اس بات کا تذکرہ کیا ہے کہ اب صارفین جس ورژن کا تجربہ کر رہے ہیں وہ "ابھی صرف بیٹا" ہے اور یہ کہ "مکمل ورژن آنے والے مہینوں میں جاری کیا جائے گا۔" مسک نے Grok3 کے پروڈکٹ مینیجر کا کردار ادا کیا ہے، صارفین کو تبصرے کے سیکشن میں درپیش مختلف مسائل پر رائے دینے کی تجویز ہے۔ وہ زمین پر سب سے زیادہ پیروی کرنے والا پروڈکٹ مینیجر ہوسکتا ہے۔

پھر بھی، ایک دن کے اندر، Grok3 کی کارکردگی نے بلاشبہ ان لوگوں کے لیے خطرے کی گھنٹی بجا دی ہے جو مضبوط بڑے ماڈلز کو تربیت دینے کے لیے "بڑے پیمانے پر کمپیوٹیشنل پٹھوں" پر انحصار کرنے کی امید رکھتے ہیں: عوامی طور پر دستیاب مائیکروسافٹ کی معلومات کی بنیاد پر، OpenAI کے GPT-4 کا پیرامیٹر سائز 1.8 ٹریلین پیرامیٹر ہے، جو GPT-3 سے دس گنا زیادہ ہے۔ افواہیں بتاتی ہیں کہ GPT-4.5 کا پیرامیٹر سائز اور بھی بڑا ہو سکتا ہے۔

جیسا کہ ماڈل پیرامیٹر کا سائز بڑھ رہا ہے، تربیت کے اخراجات بھی آسمان کو چھو رہے ہیں۔ Grok3 کی موجودگی کے ساتھ، GPT-4.5 جیسے دعویدار اور دیگر جو پیرامیٹر سائز کے ذریعے ماڈل کی بہتر کارکردگی کو حاصل کرنے کے لیے "منی جلانا" جاری رکھنا چاہتے ہیں، انہیں اس حد پر غور کرنا چاہیے جو اب واضح طور پر نظر آتی ہے اور اس پر قابو پانے کے طریقے پر غور کرنا چاہیے۔ اس وقت، اوپن اے آئی کے سابق چیف سائنٹسٹ الیا سوٹسکیور نے پچھلے دسمبر میں کہا تھا، "جس پری ٹریننگ سے ہم واقف ہیں، وہ ختم ہو جائے گی،" جس نے بڑے ماڈلز کی تربیت کے لیے حقیقی راہ تلاش کرنے کی کوششوں کو آگے بڑھاتے ہوئے بات چیت میں دوبارہ جنم لیا ہے۔

الیا کے نقطہ نظر نے انڈسٹری میں خطرے کی گھنٹی بجا دی ہے۔ اس نے قابل رسائی نئے ڈیٹا کے آسنن تھکن کا درست اندازہ لگایا، جس کی وجہ سے ایسی صورتحال پیدا ہو گئی جہاں ڈیٹا کے حصول کے ذریعے کارکردگی میں اضافہ نہیں کیا جا سکتا، اسے فوسل فیول کے ختم ہونے سے تشبیہ دی گئی۔ انہوں نے اشارہ کیا کہ "تیل کی طرح، انٹرنیٹ پر انسانی تخلیق کردہ مواد ایک محدود وسیلہ ہے۔" Sutskever کی پیشین گوئیوں میں، ماڈلز کی اگلی نسل، پوسٹ پری ٹریننگ، "حقیقی خود مختاری" اور استدلال کی صلاحیتوں کے مالک ہوں گے "انسانی دماغ کی طرح"۔

آج کے پہلے سے تربیت یافتہ ماڈلز کے برعکس جو بنیادی طور پر مواد کی مماثلت پر انحصار کرتے ہیں (پہلے سیکھے ہوئے ماڈل کے مواد پر مبنی)، مستقبل کے AI نظام انسانی دماغ کی "سوچ" کے مطابق مسائل کو حل کرنے کے لیے طریقہ کار سیکھنے اور قائم کرنے کے قابل ہوں گے۔ ایک انسان صرف بنیادی پیشہ ورانہ لٹریچر کے ساتھ کسی مضمون میں بنیادی مہارت حاصل کر سکتا ہے، جبکہ ایک AI بڑے ماڈل کو صرف سب سے بنیادی داخلی سطح کی افادیت حاصل کرنے کے لیے لاکھوں ڈیٹا پوائنٹس کی ضرورت ہوتی ہے۔ یہاں تک کہ جب الفاظ کو تھوڑا سا تبدیل کیا جاتا ہے، تب بھی ان بنیادی سوالات کو صحیح طور پر نہیں سمجھا جا سکتا ہے، جس سے یہ ظاہر ہوتا ہے کہ ماڈل کی ذہانت میں حقیقی طور پر بہتری نہیں آئی ہے: مضمون کے شروع میں بیان کیے گئے بنیادی لیکن ناقابل حل سوالات اس رجحان کی واضح مثال ہیں۔

نتیجہ

تاہم، وحشیانہ طاقت سے آگے، اگر Grok3 واقعی صنعت کو یہ بتانے میں کامیاب ہو جاتا ہے کہ "پہلے سے تربیت یافتہ ماڈل اپنے انجام کو پہنچ رہے ہیں"، تو اس کے میدان کے لیے اہم اثرات مرتب ہوں گے۔

شاید Grok3 کے ارد گرد کا جنون آہستہ آہستہ کم ہونے کے بعد، ہم Fei-Fei Li کی مثال "ایک مخصوص ڈیٹاسیٹ پر صرف $50 میں اعلی کارکردگی والے ماڈلز کو ٹیون کرنے" جیسے مزید کیسز دیکھیں گے، بالآخر AGI کا صحیح راستہ دریافت کرنا۔

ELV کیبل حل تلاش کریں۔

کنٹرول کیبلز

BMS، BUS، صنعتی، آلات کیبل کے لیے۔

یہاں کلک کریں۔

سٹرکچرڈ کیبلنگ سسٹم

نیٹ ورک اور ڈیٹا، فائبر آپٹک کیبل، پیچ کی ہڈی، ماڈیولز، فیس پلیٹ

یہاں کلک کریں۔

2024 نمائشوں اور تقریبات کا جائزہ

پوسٹ ٹائم: فروری 19-2025

"دنیا میں سب سے ذہین" Grok3 کی جانچ کرنا

تعارف

Grok3 اچھا ہے، لیکن یہ R1 یا o1-Pro سے بہتر نہیں ہے۔

"Nvidia میں خلل ڈالنے" پر ایک تنقیدی تناظر

نتیجہ

کنٹرول کیبلز

سٹرکچرڈ کیبلنگ سسٹم

16-18 اپریل 2024 دبئی میں مشرق وسطیٰ توانائی

16 تا 18 اپریل 2024 سیکوریکا ماسکو میں

9 مئی، 2024 کو شنگھائی میں نئی ​​مصنوعات اور ٹیکنالوجیز کا آغاز

22-25 اکتوبر، 2024 سیکورٹی چین بیجنگ میں

نومبر 19-20، 2024 عالمی KSA سے منسلک

9 مئی، 2024 کو شنگھائی میں نئی مصنوعات اور ٹیکنالوجیز کا آغاز