اول یکم زمینه رو توضیح بدیم: فعلا فرایند آموزش مدلهای AI به شدت پرهزینهست. انترپرایزهایی مثل OpenAI Anthropic و ... بیشتر از ۱۰۰ میلیون دلار فقط برای محاسبات خرج میکنن
پس نیاز به مراکز داده بسیار بزرگ با هزاران GPU چهل هزار دلاری دارن
انگار یه نیروگاه برق بسازی برای راهاندازی یک کارخونه
حالا DeepSeek اومده گفته «هه! اگه همه این کارها رو با ۵ میلیون دلار انجام دادم چی؟»
وحرف مفت هم نزده و واقعا این کار رو کرده!
مدل اونها توی تسکهای زیادی تونسته GPT-4 و Clause رو شکست بده
و این باعث شگفتی دنیای هوش مصنوعی شده!
چطور این کار رو کردن؟
همه چیز رو از اول بازاندیشی کردن. هوش مصنوعیهای سنتی مثل اینن که هر عدد رو با ۳۲ اعشار مینویسن.
دیپسیک گفته« خب چرا با ۸ تا ننویسیم؟ تقریبا همون قدر دقیقه!»
بوم! ۷۵٪ کاهش در حافظه مورد نیاز!
بعد رفتن سراغ سیستم Multi token
هوش مصنوعیهای نرمال مثل یه بچه کلاس اولی میخونن: « بابا .... نان .... داد»
ولی دیپسیک کل جمله رو یکجا میخونه با سرعت ۲ برابر و دقت ۹۰٪
وقتی قراره میلیاردها کلمه رو تحلیل کنی این خیلی مهمه!
ولی قسمت هوشمندانهشون اینه:
یه چیزی ساختن مثل «سیستم تخصص»
به جای اینکه یه AI غولآسا همه چیز رو بدونه (مثلا یه آدم که هم دکتر باشه هم مهندس، هم جامعهشناس و ... )، فقط از متخصصینی استفاده میکنن که در مواقع نیاز فراخوانی میشن
مدلهای نرمال سنتی؟
تمام ۱.۸ تریلیون پارامتر در لحظه فعالن
دیپسیک؟
۶۷۱ بیلیون در مجموع داره که ۳۷ بیلیونش در لحظه فعالن
مثل این میمونه که تیم بزرگی داشته باشی ولی فقط اونی رو صدا بزنی که الان برای یک کاری بهش نیاز داری
نتیجه حیرتانگیزه:
هزینه آموزش مدل: ۱۰۰ میلیون >> ۵ میلیون
تعداد GPU: صد هزار > دو هزار
هزینه API: نود و پنج درصد ارزونتر
میتونه روی کارت گرافیکهای گیمینگ هم ران بشه بدون نیاز به سختافزار مرکز داده
اصلا قسمت جذاب داستان همینه: همهاش اپن سورسه! همه میتونن کارشون رو بررسی کنن. کدش عمومیه. راهنمای تکنیکال همه چیز رو توضیح میده. جادو جنبل نکردن، صرفا هوشمندانه مهندسی کردن.
چرا این داستان مهمه؟
چون این فرض و مدل رو که «فقط کمپانیهای بزرگ میتونن توی عرصه AI بازی کنن» رو باطل میکنه
برای انویدیا این ترسناکه! کل مدل بیزنسشون بر مبنای این بود که با مارجین ۹۰ درصد GPU های فوق گرون بفروشن. حالا معلومه مشکل چیه اگه همه بتونن با GPUهای گیمینگ مدل هوش مصنوعی بسازن!
ضربه نهایی هم این بود:
دیپسیک این کار رو با تیمی کمتر از ۲۰۰ نفر انجام داد.
در حالیکه هزینههایی که متا برای حقوق کارکنانش میپردازه از کل بودجه آموزش دیپسیک بیشتره و مدلشون هم به این اندازه خوب نیست
یه داستان کلاسیک از شکستن وضع موجود:
در حالیکه بنگاههای مستقر دارن فرآیندهای موجودشون رو بهینهسازی میکنن، بتشکنها میان و کل پروسه رو از اول بازاندیشی میکنن
دیپسیک هم پرسید «چی میشه به جای اینکه هی سختافزار اضافه کنیم، این کار رو هوشمندانهتر انجام بدیم؟»
عواقبش چشمگیره:
- دسترسی به توسعه هوش مصنوعی بیشتر میشه
- رقابت به شدت افزایش پیدا میکنه
- «سنگر»های بزرگ شرکتهای تکنولوژیک مثل دستاندازهای کوچیک جلوه می کنه
- نیازهای سختافزاری و هزینهها به شدت کم میشه
البته غولهایی مثل OpenAI و Anthropic بیکار نمیشینن. احتمالا همین الان هم شروع کردن به استفاده و به کارگیری این ابداعات. ولی غول بهرهوری از چراغ جادو اومده بیرون. دیگه نمیتونی برگردی به دورانی که هی سختافزار اضافه کنی
به نظر میرسه این لحظه از اونهاست که بعدا به عنوان نقطه عطف بهش نگاه میکنیم. درست مثل موقعهایی که PCها کامپیوترهای بزرگ رو از رده خارج کردن، یا محاسبات ابری همه چیز رو تغییر داد.
هوش مصنوعی قراره باز هزینه بسیار کمتر، و به مقدار بیشتری در دسترس قرار بگیره.
سوال این نیست که آیا این باعث تغییر زمین بازیگران بزرگ این عرصه میشه یا نه، سوال اینه که با چه سرعتی این کار رو میکنه.
• • •
Missing some Tweet in this thread? You can try to
force a refresh
مارکت کریپتو توی ۳-۶ ماه گذشته به شدت تحت تاثیر و تسلط AI بوده
در واقع از ابتدای این بولمارکت حوزه AI در کنار RWA (داراییهای جهان واقعی)، زیرساختارهای غیرمتمرکز و میمکوینها یکی از اصلیترین دستههایی بوده که پیشبینی رشد بالایی داشته و سرمایهگذاریهای زیادی توش اتفاق افتاده💸🫰
اصلا همین الان بیشتر از ۴۰ درصد MindeShare کریپتو همچنان در اختیار حوزه هوش مصنوعیه
تیمهای و پلتفرمهای زیادی محصولات هوش مصنوعی در کریپتو ارائه کردن و به نظر میرسه آینده اقتصاد غیرمتمرکز قراره به سمت DEFAI بره
یعنی اقتصاد غیرمتمرکزی که توسط سیستمها و ایجنتهای هوشمصنوعی اداره و اجرا میشه
برای نمونه @AIWayfinder به زودی محصولی لانچ میکنه که میتونید بهش بگید برام فلان توکن رو بخر و بفرست به فلان آدرس و تمام!
اتفاقا مدلش رو هم از قبل روی DeepSeek ساخته :)
اما همیشه یکی از موانع این تیمها هزینه بسیار بالای زیرساختارها و مدلها بوده❌😵