Phi-3: مدل زبان کوچک مایکروسافت که قابلیت اجرا روی گوشی شما را دارد
Phi-3 مجموعهای از مدلهای هوش مصنوعی متنباز است که توسط مایکروسافت توسعه یافتهاند. این مدلها بهسرعت به محبوبیت بالایی دست یافتهاند، چراکه در میان مدلهای زبان کوچک (SLM) موجود، هم از نظر عملکرد و هم از نظر هزینه، بهترین گزینه محسوب میشوند. مدلهایی مانند Phi-3-mini نهتنها از مدلهای همرده خود بهتر عمل میکنند، بلکه در بسیاری از آزمونهای زبان، استدلال، کدنویسی و ریاضی، حتی از مدلهای بزرگتر نیز عملکرد بهتری دارند. در ادامه نگاهی دقیقتر به این مدلها خواهیم داشت.
مدلهای زبان کوچک (SLM) چیست؟
مدلهای زبان کوچک (SLM) نسخههای سادهتر و کمحجمتر مدلهای زبان بزرگ (LLM) هستند، مانند GPT از OpenAI، LLaMA 3 از Meta، یا Mistral 7B. این مدلها با هدف کارایی بالاتر و مصرف کمتر منابع محاسباتی برای آموزش و اجرای وظایف ساده طراحی شدهاند و همچنین حافظه کمتری اشغال میکنند.
عبارت "کوچک" در SLM به تعداد پارامترهای مدل اشاره دارد. این مدلها معمولاً با استفاده از مجموعه دادههای باکیفیت و در مقیاس بالا آموزش داده میشوند و با یادگیری پیشبینی واژه بعدی در یک جمله، میتوانند متون معنادار و مرتبط با زمینه تولید کنند.
مدلهای سبکوزن SLM معمولاً در موقعیتهایی کاربرد دارند که منابع محاسباتی محدود هستند یا نیاز به پاسخدهی آنی وجود دارد. آنها گرچه در مقایسه با مدلهای بزرگتر کمی از توانایی و دقت کمتری برخوردارند، اما همچنان قابلیتهای مفیدی در درک و تولید زبان ارائه میدهند.
SLMها در زمینههای مختلفی مانند گوشیهای همراه، دستگاههای اینترنت اشیا (IoT)، رایانش لبهای (Edge Computing) و تعاملات با تأخیر کم استفاده میشوند. این مدلها امکان استفاده گستردهتر از پردازش زبان طبیعی را در محیطهای محدود فراهم میکنند.
Phi-3 مایکروسافت نمونهای برجسته از یک SLM است که مرزهای توانایی این مدلها را گسترش داده و درعینحال با صرفهجویی در هزینه، عملکردی پیشرفته ارائه میدهد.
Phi-3: معرفی مدل زبان کوچک مایکروسافت (SLM)
شرکت فناوری مایکروسافت از Phi-3 رونمایی کرده است، یک مدل زبان کوچک (SLM) که با هدف ارائه عملکردی قدرتمند طراحی شده، در حالیکه آنقدر سبک و بهینه است که بتواند روی دستگاههای دارای منابع محدود مانند گوشیهای هوشمند اجرا شود. Phi-3 با برخورداری از ۳.۸ میلیارد پارامتر، نقطه عطفی مهم در فناوری مدلهای زبانی فشرده محسوب میشود.
مایکروسافت با تمرکز بر روشهای بهینهسازی در انتخاب و آمادهسازی دادههای آموزشی و همچنین معماری مدل، توانسته است با Phi-3 عملکردی قابل رقابت با مدلهای بسیار بزرگتری مانند Mixtral 8x7B و GPT-3.5 ارائه دهد.
ارزیابی عملکرد
عملکرد Phi-3 از طریق ارزیابیهای دقیق بر اساس معیارهای علمی و آزمونهای داخلی سنجیده شده است. با وجود اندازه کوچکتر خود، Phi-3 نتایج چشمگیری را به نمایش میگذارد؛ این مدل توانسته در معیار MMLU به امتیاز ۶۹٪ و در معیار MT-bench به امتیاز ۸.۳۸ دست یابد.
مقایسه عملکرد Phi-3 با GPT-3.5
در مقایسه عملکرد Phi-3 با GPT-3.5 که یک مدل زبان بزرگ (LLM) محسوب میشود، توجه به نوع وظایف بسیار اهمیت دارد. در بسیاری از آزمونهای زبان، استدلال، کدنویسی و ریاضیات، مدلهای Phi-3 عملکردی بهتر از مدلهای همرده و حتی مدلهای بزرگتر از خود، از جمله GPT-3.5، نشان دادهاند.
معماری Phi-3
Phi-3 بر پایه معماری دیکودر ترنسفورمر طراحی شده و بهصورت پیشفرض دارای طول زمینه (context length) ۴ هزار توکن است؛ این ویژگی امکان پردازش کارآمد دادهها را در عین حفظ آگاهی از زمینه فراهم میکند. همچنین نسخهای با طول زمینه بلندتر تحت عنوان Phi-3-mini-128K ارائه شده که توانایی پردازش تا ۱۲۸ هزار توکن را دارد و برای وظایفی که نیاز به درک گستردهتر از زمینه دارند، مناسب است. این مدل با ۳۲ لایه و ۳۲ هد، تعادل مناسبی میان پیچیدگی معماری و بهرهوری محاسباتی ایجاد کرده و آن را برای استفاده روی دستگاههای موبایل مناسب میسازد.
فرآیند آموزش مدل Microsoft Phi-3
فرآیند آموزش مدل Phi-3 در مایکروسافت با رویکردی جامع انجام شده است:
✔️آموزش با دادههای باکیفیت
Phi-3 با استفاده از دادههای باکیفیت که از منابع مختلف گردآوری شدهاند، آموزش دیده است. این دادهها شامل اطلاعات وب بهشدت پالایششده و دادههای مصنوعی هستند. این فرآیند دقیق در انتخاب داده، اطمینان میدهد که مدل ورودیهای متنوع و غنی دریافت کرده و تواناییهای زبانی و استدلالی آن بهطور قابل توجهی افزایش یابد.
✔️پسآموزش گسترده (Extensive Post-training)
مراحل پسآموزش نقش حیاتی در بهبود عملکرد Phi-3 و افزایش سازگاری آن با وظایف و سناریوهای متنوع دارند. از طریق تکنیکهای گسترده پسآموزش مانند تنظیم دقیق تحت نظارت (supervised fine-tuning) و بهینهسازی مستقیم ترجیحات (Direct Preference Optimization)، Phi-3 بهصورت تکرارشونده بهبود مییابد تا توانایی خود را در وظایفی مانند ریاضیات، کدنویسی، استدلال و مکالمه افزایش دهد.
✔️یادگیری تقویتی با بازخورد انسانی (RLHF)
مایکروسافت از یادگیری تقویتی با بازخورد انسانی (Reinforcement Learning from Human Feedback - RLHF) در روند آموزش Phi-3 استفاده میکند. این مکانیزم به مدل اجازه میدهد تا از تعاملات انسانی بیاموزد و پاسخهای خود را بر اساس بازخورد واقعی بهینهسازی کند. RLHF باعث میشود توانایی تولید زبان در Phi-3 بهمرور دقیقتر و متناسبتر با زمینه گفتگو شود.
✔️تست خودکار (Automated Testing)
در فرآیند آموزش Phi-3، تستهای خودکار دقیق به کار گرفته میشوند تا عملکرد مدل ارزیابی شده و نواحی قابل بهبود شناسایی شوند. این چارچوبهای تست خودکار امکان ارزیابی کارآمد عملکرد مدل را در وظایف زبانی مختلف فراهم کرده و به اصلاح و بهینهسازی مداوم آن کمک میکنند.
✔️تیم قرمز دستی (Manual Red-teaming)
علاوه بر تستهای خودکار، Phi-3 تحت ارزیابیهای دستی بهوسیله تیم قرمز نیز قرار میگیرد. در این فرآیند، ارزیابان انسانی رفتار و عملکرد مدل را بهطور سیستماتیک تحلیل میکنند. این ارزیابی دستی دیدگاههای ارزشمندی درباره نقاط قوت و ضعف مدل فراهم میکند که در اصلاح آموزش و ارتقاء کیفیت نهایی مدل نقش بسزایی دارند.
مزایای Phi-3: مدل زبان کوچک (SLM) در مقابل مدل زبان بزرگ (LLM)
مدلهای زبان کوچک (SLM) مزایای قابلتوجهی نسبت به مدلهای زبان بزرگ (LLM) دارند که آنها را برای طیف گستردهای از کاربردها و سناریوهای اجرایی مناسب میسازد:
کارایی در مصرف منابع: مدلهایی مانند Phi-3 نسبت به LLMها مصرف منابع بسیار کمتری دارند. اندازه جمعوجور و معماری بهینهشده آن باعث میشود هم در مرحله آموزش و هم در مرحله اجرا (inference) کارآمد بوده و برای اجرا روی دستگاههایی با منابع محدود مانند گوشیهای هوشمند و دستگاههای IoT مناسب باشند.
اندازه و انعطافپذیری: مدل Phi-3-mini با اندازه ۳.۸ میلیارد پارامتر در دو نسخه با طول زمینه ۴ هزار و ۱۲۸ هزار توکن عرضه میشود. این مدل اولین نمونه در کلاس خود است که از پنجره متنی ۱۲۸K پشتیبانی میکند، آنهم بدون کاهش قابل توجه در کیفیت.
آموزش مبتنی بر دستورالعمل (Instruction-tuned): مدلهای Phi-3 بهگونهای آموزش دیدهاند که بتوانند انواع مختلفی از دستورالعملها را مطابق با نحوه تعامل طبیعی انسانها دنبال کنند.
مقیاسپذیری: SLMهایی مانند Phi-3 مقیاسپذیری بالاتری نسبت به LLMها دارند. مصرف پایین منابع محاسباتی آنها باعث میشود به راحتی در سیستمهای توزیعشده و محیطهای ابری گسترش یابند و در اپلیکیشنهای بزرگ با نیاز به ظرفیت بالا بهکار گرفته شوند.
بهینهشده برای پلتفرمهای مختلف: مدلهای Phi-3 برای اجرای بهینه در ONNX Runtime و پشتیبانی از Windows DirectML توسعه یافتهاند و همچنین قابلیت اجرا بر روی GPU، CPU و حتی سختافزار موبایل را دارند.
مقایسه کیفیت و اندازه مدل (Quality Vs. Model Size Comparison)
در توازن بین اندازه مدل و کیفیت عملکرد، Phi-3 کارایی و اثربخشی چشمگیری نسبت به مدلهای بزرگتر از خود ارائه میدهد.
برابری عملکرد (Performance Parity)
با وجود اندازه کوچکتر، Phi-3 به سطح عملکردی برابر با مدلهای بزرگتری مانند Mixtral 8x7B و GPT-3.5 دست یافته است. از طریق روشهای نوآورانه آموزش و انتخاب دقیق مجموعه دادهها، Phi-3 نتایج رقابتی در آزمونهای معیار و ارزیابیهای داخلی ارائه میدهد و نشان میدهد که از نظر درک زبان و تولید محتوا، میتواند با مدلهای بزرگتر رقابت کند.
کیفیت بهینهشده (Optimized Quality)
Phi-3 با تمرکز بر بهینهسازی کیفیت دادهها در چارچوب محدود پارامترهای خود، از تکنیکهای پیشرفته آموزشی و راهبردهای انتخاب داده بهره میبرد تا بیشینه عملکرد را به دست آورد. با تاکید بر کیفیت دادهها و فرآیندهای آموزش، Phi-3 نتایج چشمگیری را رقم زده که با مدلهای بزرگ LLM قابلمقایسه است و حتی در برخی موارد از آنها پیشی میگیرد.
بهرهوری بهینه (Efficient Utilization)
Phi-3 بهرهوری بالایی از پارامترهای خود نشان میدهد و ثابت میکند که بدون نیاز به افزایش نمایی اندازه مدل، میتوان عملکرد عالی بهدست آورد. با ایجاد تعادلی هوشمندانه میان پیچیدگی مدل و کارایی منابع، Phi-3 استانداردی جدید در مدلسازی زبانی در مقیاس کوچک تعیین میکند و جایگزینی قوی برای مدلهای بزرگ و پرهزینه از نظر محاسباتی ارائه میدهد.
محدودیتهای Phi-3
🟢دانش واقعی محدود
به دلیل فضای پارامتر محدود، Phi-3-mini ممکن است در انجام وظایفی که نیاز به دانش واقعی گسترده دارند، ضعیفتر عمل کند. این موضوع در عملکرد پایینتر مدل در آزمونهایی مانند TriviaQA نمایان است. ناتوانی مدل در ذخیرهسازی حجم وسیعی از اطلاعات واقعی، برای وظایف مبتنی بر درک عمیق دانش، چالشبرانگیز است.
🟢محدودیت زبانی
Phi-3-mini عمدتاً در دامنه زبان انگلیسی فعالیت میکند، که استفاده از آن را در زمینههای چندزبانه محدود میسازد. هرچند تلاشهایی برای توسعه قابلیتهای چندزبانه، از جمله در Phi-3-small و استفاده از دادههای چندزبانه، در جریان است، اما پشتیبانی زبانی گسترده همچنان یک چالش باز است.
🟢وابستگی به منابع خارجی
برای جبران محدودیتهای ظرفیتی، Phi-3-mini ممکن است در برخی وظایف به منابع خارجی مانند موتورهای جستجو متکی باشد تا پایگاه دانشی خود را تقویت کند. گرچه این روش میتواند برخی محدودیتها را کاهش دهد، اما باعث وابستگی شده و همیشه عملکرد بهینه را تضمین نمیکند.
🟢چالشهای هوش مصنوعی مسئولانه (RAI)
همانند بسیاری از مدلهای زبانی بزرگ، Phi-3 نیز با چالشهایی در زمینه هوش مصنوعی مسئولانه مواجه است؛ از جمله: نادرستیهای واقعی، تعصبات، تولید محتوای نامناسب و نگرانیهای ایمنی. با وجود تلاشهای دقیق در انتخاب داده، بهینهسازی پس از آموزش و بررسیهای امنیتی (Red-teaming)، این چالشها همچنان باقی هستند و نیازمند توجه و راهکارهای مداوم هستند.
نکات کلیدی Phi-3
مدلهای Phi-3 از نوع مدلهای زبانی کوچک (SLM) هستند که با ۳.۸ میلیارد پارامتر، کارایی و عملکرد بالا را در کنار حجم کم ارائه میدهند و با مدلهای بزرگتر رقابت میکنند.
Phi-3 از دادههای باکیفیت منتخب و تکنیکهای پیشرفته پس از آموزش، از جمله یادگیری تقویتی از بازخورد انسانی (RLHF)، برای بهبود عملکرد خود استفاده میکند. معماری رمزگشای ترنسفورمر آن نیز پردازش کارآمد و حفظ زمینه را تضمین میکند.
این مدل با بهرهوری بالا از منابع، مقیاسپذیری و انعطافپذیری، برای اجرا در دستگاههای با منابع محدود بسیار مناسب است. علیرغم اندازه کوچکتر، از طریق بهینهسازی کیفیت داده و استفاده کارآمد از پارامترها به سطح عملکردی معادل مدلهای بزرگتر دست یافته است.
در عین حال، Phi-3 با محدودیتهایی مانند دانش واقعی محدود و پشتیبانی زبانی محدود مواجه است. اکنون مدل اولیه Phi-3-mini در دسترس است و نسخههای بیشتری در راهاند تا گزینههای متنوعتری بر اساس نیاز کاربران ارائه دهند.
Phi-3 یک خانواده از مدلهای زبانی کوچک (SLM) توسعهیافته توسط مایکروسافت است که با هدف دستیابی به تعادل بین عملکرد بالا و بهرهوری منابع طراحی شدهاند. این مدلها با استفاده از تکنیکهای پیشرفته آموزش، از جمله یادگیری تقویتی از بازخورد انسانی (RLHF)، و دادههای باکیفیت انتخابشده، توانستهاند عملکردی قابل رقابت با مدلهای بزرگتری مانند GPT-3.5 و Mixtral 8x7B داشته باشند، در حالیکه اندازه و پیچیدگی بسیار کمتری دارند.
Phi-3 بهویژه برای کاربرد در محیطهای کممنبع مانند دستگاههای موبایل، برنامههای داخلی سازمانی، و سناریوهایی که مصرف منابع اهمیت دارد، مناسب است. نخستین مدل از این خانواده، Phi-3-mini، دارای ۳.۸ میلیارد پارامتر است و در نسخههایی با طول زمینه ۴هزار و ۱۲۸هزار توکن عرضه شده است. این مدلها در پلتفرمهایی مانند Azure AI، Hugging Face و Ollama در دسترس قرار دارند و بهزودی مدلهای بزرگتری مانند Phi-3-small (7B) و Phi-3-medium (14B) نیز معرفی خواهند شد. Phi-3 نشاندهنده رویکردی نوین در توسعه مدلهای زبان طبیعی با تمرکز بر بهرهوری، دقت و انعطافپذیری است.
دیگر مطالب

مدلهای زبان بزرگ (LLM) نوع اصلی هوش مصنوعیهای پردازش متن هستند و اکنون تقریباً همهجا حضور دارند. چتجیپیتی (ChatGPT) شناختهشدهترین

با وجود فراوانی اپلیکیشنهای کنترل والدین، پیدا کردن گزینهای مناسب برای خانواده میتواند دشوار باشد. با تکیه بر پیشینهام در
مایکروسافت لایسنس(شرکت رایان نت) به عنوان اولین تأمین کننده رسمی لایسنسهای اصلی محصولات مایکروسافت و تنها همکار تجاری رسمی مایکروسافت در ایران (Microsoft Partner)، با سابقه فعالیت بیش از یک دهه در واردات عمده محصولات اورجینال مایکروسافت و همکاری با بیش از 200 هولدینگ و سازمان دولتی، خصوصی و بینالمللی شاخص و مطرح در ایران و همچنین ارائه خدمات به بیش از پنج هزار مشتری حقیقی و حقوقی، با وجود تحریم های آمریکا، به واسطه شخصیت حقوقی مستقل خود در انگلستان Talee Limited، به عنوان Partner & Solution Provider رسمی مایکروسافت مشغول به فعالیت است. با توجه به حجم موجودی شرکت، تمامی محصولات به صورت فوری تحویل داده میشوند و دارای پشتیبانی، گارانتی و همچنین پشتیبانی فنی مایکروسافت هستند. علاوه بر این، لازم به ذکر است که هیچ یک از محصولات ارائه شده از نوع OEM ،Academic یا Charity نیستند و تمامی محصولات با لایسنس Retail و یا Volume License معتبر و قابل استعلام از مایکروسافت ارائه میشوند. مایکروسافت لایسنس به عنوان یک تأمین کننده رسمی، با فعالیت طولانی در ارائه محصولات اصلی مایکروسافت و تجربه ارائه خدمات به بسیاری از سازمانهای خصوصی و دولتی برجسته کشور، افتخار دارد که تمام محصولات نرمافزاری مایکروسافت را بدون واسطه و با شرایط تحویل آنی و با تضمین بهترین قیمت (بر اساس نوع لایسنس و شرایط استفاده) به صورت مستقیم عرضه نماید.
برخی از مزایای نسخههای اورجینال
افزایش کارایی و سرعت رایانه
پشتیبانی مایکروسافت
امکان دریافت به روز رسانی به صورت واقعی
امنیت بیشتر در مقابل بدافزارها و حملات
پایداری بیشتر در مقایسه با نسخه های جعلی
رعایت قوانین و مقررات
امکان استفاده همیشگی از جواز ویندوز
دریافت نرم افزارهای کاربردی از مایکروسافت که نیاز به ویندوز اصل دارند
بدون نیاز به تعویض های مکرر سیستم عامل نسبت به نمونه کپی
توانایی تشخیص و عیب یابی به وسیله بخش عیب یابی سیستم عامل




















