"دنیا میں ہوشیار ترین" GROK3 کی جانچ کرنا

AIPU WATON گروپ (1)

تعارف

کیا آپ کو لگتا ہے کہ GROK3 پہلے سے تربیت یافتہ ماڈلز کا "اختتامی نقطہ" ہوگا؟

ایلون مسک اور ژی ٹیم نے براہ راست سلسلہ کے دوران گروک ، گروک 3 کا تازہ ترین ورژن لانچ کیا۔ اس واقعہ سے پہلے ، مسک کے 24/7 پروموشنل ہائپ کے ساتھ متعلقہ معلومات کی ایک خاصی رقم نے GROK3 کی عالمی توقعات کو غیر معمولی سطح تک بڑھا دیا۔ صرف ایک ہفتہ قبل ، مسک نے اعتماد کے ساتھ ایک رواں دواں کے دوران دیئے گئے تھے جبکہ ڈیپسیک آر ون پر تبصرہ کرتے ہوئے ، "زئی بہتر اے آئی ماڈل لانچ کرنے والی ہے۔" براہ راست پیش کردہ اعداد و شمار سے ، گروک 3 نے مبینہ طور پر ریاضی ، سائنس اور پروگرامنگ کے بینچ مارک میں مرکزی دھارے کے تمام موجودہ ماڈلز کو عبور کیا ہے ، جس میں مسک نے یہ دعوی کیا ہے کہ GROK3 اسپیس ایکس کے مریخ مشنوں سے متعلق کمپیوٹیشنل کاموں کے لئے استعمال ہوگا ، جس میں "تین سالوں میں نوبل انعام کی سطح پر پیشرفت" کی پیش گوئی کی گئی ہے۔ تاہم ، یہ فی الحال صرف کستوری کے دعوے ہیں۔ لانچ کے بعد ، میں نے GROK3 کے تازہ ترین بیٹا ورژن کا تجربہ کیا اور بڑے ماڈلز کے لئے کلاسک ٹرک سوال کھڑا کیا: "کون سا بڑا ، 9.11 یا 9.9 ہے؟" افسوس کے ساتھ ، کسی کوالیفائر یا نشانات کے بغیر ، نام نہاد ہوشیار ترین GROK3 پھر بھی اس سوال کا صحیح جواب نہیں دے سکا۔ GROK3 سوال کے معنی کو درست طریقے سے شناخت کرنے میں ناکام رہا۔

 

اس ٹیسٹ نے بہت سارے دوستوں کی طرف سے کافی توجہ مبذول کروائی ، اور اتفاق سے ، بیرون ملک مقیم مختلف اسی طرح کے مختلف ٹیسٹوں میں یہ دکھایا گیا ہے کہ "پیسا کے جھکاؤ والے ٹاور سے کون سا بال پہلے نمبر پر ہے؟" اس طرح ، اسے مزاحیہ انداز میں "آسان سوالوں کے جوابات دینے کے لئے تیار نہیں ہے۔"

640

GROK3 اچھا ہے ، لیکن یہ R1 یا O1-PRO سے بہتر نہیں ہے۔

GROK3 نے عملی طور پر بہت سے عام علم کے ٹیسٹوں پر "ناکامیوں" کا تجربہ کیا۔ زی لانچ ایونٹ کے دوران ، کستوری نے جلاوطنی 2 کے گیم پاتھ سے کردار کی کلاسوں اور اثرات کا تجزیہ کرنے کے لئے GROK3 کا استعمال کرتے ہوئے مظاہرہ کیا ، جس کا انہوں نے اکثر کھیلنے کا دعوی کیا تھا ، لیکن GROK3 کے ذریعہ فراہم کردہ زیادہ تر جوابات غلط تھے۔ رواں دواں کے دوران کستوری نے اس واضح مسئلے کو محسوس نہیں کیا۔

 

اس غلطی نے نہ صرف بیرون ملک مقیم نیٹیزین کو گیمنگ میں "متبادل تلاش کرنے" کے لئے کستوری کا مذاق اڑانے کے لئے مزید ثبوت فراہم کیے بلکہ عملی ایپلی کیشنز میں گروک 3 کی وشوسنییتا کے بارے میں بھی اہم خدشات پیدا کیے۔ اس طرح کی "باصلاحیت" کے لئے ، اس کی اصل صلاحیتوں سے قطع نظر ، انتہائی پیچیدہ اطلاق کے منظرناموں میں اس کی وشوسنییتا ، جیسے مریخ کی تلاش کے کاموں میں ، شک میں ہے۔

 

فی الحال ، بہت سے ٹیسٹر جنہوں نے ہفتہ قبل GROK3 تک رسائی حاصل کی تھی ، اور وہ لوگ جنہوں نے کل ہی کچھ گھنٹوں کے لئے ماڈل کی صلاحیتوں کا تجربہ کیا تھا ، وہ ایک مشترکہ نتیجہ کی طرف اشارہ کرتے ہیں: "GROK3 اچھا ہے ، لیکن یہ R1 یا O1-PRO سے بہتر نہیں ہے۔"

640 (1)

"NVIDIA میں خلل ڈالنے" کے بارے میں ایک تنقیدی نقطہ نظر

ریلیز کے دوران باضابطہ طور پر پیش کردہ پی پی ٹی میں ، گروک 3 کو چیٹ بوٹ میدان میں "بہت آگے" دکھایا گیا تھا ، لیکن اس میں چالاکی سے استعمال کیا گیا گرافک تکنیک: لیڈر بورڈ پر عمودی محور نے صرف 1400-1300 اسکور کی حد میں نتائج درج کیے ہیں ، جس سے ٹیسٹ کے نتائج میں اصل 1 ٪ فرق اس پیش کش میں غیر معمولی طور پر اہم دکھائی دیتا ہے۔

640

ماڈل اسکورنگ کے اصل نتائج میں ، GROK3 ڈیپسیک R1 اور GPT-4.0 سے صرف 1-2 ٪ آگے ہے ، جو عملی ٹیسٹوں میں بہت سے صارفین کے تجربات سے مساوی ہے جس میں "کوئی قابل ذکر فرق نہیں ہے۔" GROK3 صرف اپنے جانشینوں سے 1 ٪ -2 ٪ سے تجاوز کرتا ہے۔

640

اگرچہ GROK3 نے فی الحال عوامی طور پر آزمائشی ماڈلز کے مقابلے میں زیادہ اسکور کیا ہے ، لیکن بہت سے لوگ اسے سنجیدگی سے نہیں لیتے ہیں: آخر کار ، زئی کو اس سے قبل گروک 2 دور میں "اسکور ہیرا پھیری" کے لئے تنقید کا نشانہ بنایا گیا ہے۔ جب لیڈر بورڈ نے جواب کی لمبائی کے انداز کو سزا دی ، اسکور میں بہت کمی واقع ہوئی ، جس میں صنعت کے معروف اندرونی افراد اکثر "اعلی اسکورنگ لیکن کم صلاحیت" کے رجحان پر تنقید کرتے ہیں۔

 

چاہے لیڈر بورڈ "ہیرا پھیری" کے ذریعے یا عکاسی میں ڈیزائن کی چالوں کے ذریعہ ، وہ ماڈل کی صلاحیتوں میں "پیک کی قیادت کرنے" کے تصور سے ژی اور مسک کے جنون کو ظاہر کرتے ہیں۔ مسک نے ان مارجنوں کی کھڑی قیمت ادا کی: لانچ کے دوران ، اس نے 200،000 H100 GPUs (براہ راست سلسلہ کے دوران "100،000 سے زیادہ" کا دعوی کرتے ہوئے) اور 200 ملین گھنٹے کی تربیت کا کل وقت حاصل کرنے پر فخر کیا۔ اس کی وجہ سے کچھ لوگوں کو یقین ہے کہ یہ جی پی یو کی صنعت کے لئے ایک اور اہم اعزاز کی نمائندگی کرتا ہے اور اس شعبے پر دیپیسیک کے اثرات کو "بے وقوف" سمجھتا ہے۔ خاص طور پر ، کچھ کا خیال ہے کہ سراسر کمپیوٹیشنل پاور ماڈل کی تربیت کا مستقبل ہوگا۔

 

تاہم ، کچھ نیٹیزینز نے ڈیپسیک V3 تیار کرنے کے لئے دو ماہ کے دوران 2000 H800 GPUs کی کھپت کا موازنہ کیا ، اس بات کا حساب لگایا کہ GROK3 کی اصل تربیت کی طاقت کا استعمال V3 سے 263 گنا ہے۔ ڈیپسیک V3 کے درمیان فرق ، جس نے 1402 پوائنٹس حاصل کیے ، اور GROK3 صرف 100 پوائنٹس سے کم ہے۔ اس اعداد و شمار کی رہائی کے بعد ، بہت سے لوگوں کو جلدی سے احساس ہوا کہ "دنیا کا سب سے مضبوط" کے طور پر گروک 3 کے عنوان کے پیچھے ایک واضح معمولی افادیت کا اثر ہے۔

640 (2)

یہاں تک کہ "اعلی اسکورنگ لیکن کم قابلیت" کے باوجود ، GROK2 کے پاس استعمال کی حمایت کرنے کے لئے X (ٹویٹر) پلیٹ فارم سے اعلی معیار کی پہلی پارٹی کے اعداد و شمار موجود تھے۔ تاہم ، GROK3 کی تربیت میں ، زی کو قدرتی طور پر "چھت" کا سامنا کرنا پڑا جس کا اوپنائی کو فی الحال سامنا ہے۔ پریمیم ٹریننگ ڈیٹا کی کمی تیزی سے ماڈل کی صلاحیتوں کی معمولی افادیت کو بے نقاب کرتی ہے۔

 

گروک 3 اور کستوری کے ڈویلپر ممکنہ طور پر ان حقائق کو گہرائی سے سمجھنے اور ان کی نشاندہی کرنے والے پہلے شخص ہیں ، یہی وجہ ہے کہ مسک نے سوشل میڈیا پر مستقل طور پر ذکر کیا ہے کہ جو ورژن استعمال کرنے والے اب استعمال کررہے ہیں وہ "ابھی بھی صرف بیٹا" ہے اور یہ کہ آنے والے مہینوں میں مکمل ورژن جاری کیا جائے گا۔ " مسک نے GROK3 کے پروڈکٹ مینیجر کا کردار ادا کیا ہے ، جس میں مشورہ دیا گیا ہے کہ صارفین کو تبصرے کے سیکشن میں درپیش مختلف امور پر رائے ملتی ہے۔

 

پھر بھی ، ایک دن کے اندر ، گروک 3 کی کارکردگی نے بلاشبہ بڑے ماڈلز کو مضبوط تر تربیت دینے کے لئے "بڑے پیمانے پر کمپیوٹیشنل پٹھوں" پر انحصار کرنے کی امید کرنے والوں کے لئے الارم اٹھائے: عوامی طور پر دستیاب مائیکروسافٹ انفارمیشن کی بنیاد پر ، اوپنئی کے جی پی ٹی -4 کا پیرامیٹر سائز 1.8 ٹریلین پیرامیٹرز ہے ، جو جی پی ٹی 3 سے دس گنا زیادہ ہے۔ افواہوں سے پتہ چلتا ہے کہ جی پی ٹی 4.5 کا پیرامیٹر سائز اور بھی بڑا ہوسکتا ہے۔

 

جیسے جیسے ماڈل پیرامیٹر کے سائز بڑھتے ہیں ، تربیت کے اخراجات بھی آسمان سے بڑھ رہے ہیں۔ گروک 3 کی موجودگی کے ساتھ ، جی پی ٹی -4.5 اور دوسرے جیسے دعویدار جو پیرامیٹر کے سائز کے ذریعہ بہتر ماڈل کی کارکردگی کو حاصل کرنے کے لئے "پیسے جلانے" جاری رکھنا چاہتے ہیں ان کو چھت پر غور کرنا چاہئے جو اب واضح طور پر نظر میں ہے اور اس پر قابو پانے کے طریقہ پر غور کرنا چاہئے۔ اس لمحے ، اوپنئی کے سابق چیف سائنس دان الیا سوسکیور نے اس سے قبل گذشتہ دسمبر میں کہا تھا ، "پری ٹریننگ جس سے ہم واقف ہیں اس کا خاتمہ ہوگا ،" جو مباحثوں میں دوبارہ منظرعام پر آیا ہے ، جس سے بڑے ماڈل کی تربیت کے لئے حقیقی راستہ تلاش کرنے کی کوششوں کا آغاز کیا گیا ہے۔

640 (3)

الیا کے نقطہ نظر نے صنعت میں خطرے کی گھنٹی بجا دی ہے۔ انہوں نے قابل رسائی نئے اعداد و شمار کی نزاکت کی درستگی کا درست اندازہ لگایا ، جس کی وجہ سے ایسی صورتحال پیدا ہوتی ہے جہاں اعداد و شمار کے حصول کے ذریعے کارکردگی کو بڑھایا نہیں جاسکتا ، اسے جیواشم ایندھن کی تھکن سے تشبیہ دیتے ہیں۔ انہوں نے اشارہ کیا کہ "انٹرنیٹ پر تیل ، انسانی تیار کردہ مواد کی طرح ایک محدود وسیلہ ہے۔" سوسکیور کی پیش گوئوں میں ، ماڈلز کی اگلی نسل ، پوسٹ کی تربیت کے بعد ، "حقیقی خودمختاری" اور استدلال کی صلاحیتوں کے مالک ہوں گی "انسانی دماغ کی طرح۔"

 

آج کے پہلے سے تربیت یافتہ ماڈلز کے برخلاف جو بنیادی طور پر مشمولات کے ملاپ پر انحصار کرتے ہیں (پہلے سیکھے گئے ماڈل مواد پر مبنی) ، مستقبل کے اے آئی سسٹم انسانی دماغ کی "سوچ" کے مترادف انداز میں مسائل کو حل کرنے کے لئے طریقہ کار سیکھنے اور قائم کرنے کے اہل ہوں گے۔ ایک انسان صرف بنیادی پیشہ ورانہ ادب کے ساتھ کسی مضمون میں بنیادی مہارت حاصل کرسکتا ہے ، جبکہ اے آئی کے بڑے ماڈل کو داخلے کی بنیادی سطح کی افادیت کو حاصل کرنے کے لئے لاکھوں ڈیٹا پوائنٹس کی ضرورت ہوتی ہے۔ یہاں تک کہ جب الفاظ کو تھوڑا سا تبدیل کیا جاتا ہے ، تو ان بنیادی سوالات کو صحیح طور پر نہیں سمجھا جاسکتا ہے ، یہ واضح کرتے ہوئے کہ ماڈل واقعی ذہانت میں حقیقی طور پر بہتر نہیں ہوا ہے: مضمون کے آغاز میں مذکور بنیادی لیکن ناقابل حل سوالات اس رجحان کی واضح مثال کی نمائندگی کرتے ہیں۔

微信图片 _20240614024031.JPG1

نتیجہ

تاہم ، بریٹ فورس سے پرے ، اگر گروک 3 واقعی اس صنعت کو یہ ظاہر کرنے میں کامیاب ہوجاتا ہے کہ "پہلے سے تربیت یافتہ ماڈل اپنے اختتام کے قریب پہنچ رہے ہیں" ، تو اس کے میدان میں اس کے اہم مضمرات ہوں گے۔

شاید GROK3 کے آس پاس کے انماد کے بعد آہستہ آہستہ کم ہونے کے بعد ، ہم "فی فائی لی کی" صرف $ 50 کے لئے ایک مخصوص ڈیٹاسیٹ پر اعلی کارکردگی والے ماڈلز کو ٹیوننگ کرنے "کی مثال کے طور پر مزید مقدمات کا مشاہدہ کریں گے ، بالآخر AGI کے حقیقی راستے کو دریافت کریں گے۔

ELV کیبل حل تلاش کریں

کنٹرول کیبلز

بی ایم ایس ، بس ، صنعتی ، آلہ سازی کیبل کے لئے۔

ساختی کیبلنگ سسٹم

نیٹ ورک اور ڈیٹا ، فائبر آپٹک کیبل ، پیچ ہڈی ، ماڈیولز ، فیسپلیٹ

2024 نمائشیں اور واقعات کا جائزہ

اپریل .16 ویں 18 ، 2024 دبئی میں مشرق وسطی کی توانائی

ماسکو میں اپریل ۔16 ویں 18 ، 2024 سیکوریکا

مئی 9 ، 2024 شنگھائی میں نئی ​​مصنوعات اور ٹیکنالوجیز لانچ ایونٹ

بیجنگ میں اکتوبر ۔22 25 ، 2024 سیکیورٹی چین

نومبر ۔19-20 ، 2024 منسلک ورلڈ کے ایس اے


پوسٹ ٹائم: فروری 19-2025