تقریباً تمام سرویسهایی که با متن سروکار دارند از موتورهای جستجو تا چتباتها و سیستمهای ترجمه، بر پایه مدلهای زبانی عصبی کار میکنند. اما سؤال اصلی اینجاست که انواع مدل های زبانی عصبی چیست و هر کدام چگونه کار میکنند؟ در این مقاله قدمبهقدم و با زبانی ساده شما را وارد دنیای مدلهای زبانی میکنیم. هدف این است که بدون نیاز به پیشزمینه خاص، در چند دقیقه دید روشنی درباره این حوزه پیدا کنید و بدانید که چرا مدلهای زبانی اینقدر در جهان امروز اهمیت دارند.
علاوهبراین دو استراتژی نحوه استفاده از مدلهای زبانی یعنی Probabilistic Language Modeling (بهویژه مفهوم smoothing) و Neural Language Modeling را معرفی میکنیم تا دید استراتژیکتری نسبت به کاربردهای آنها پیدا کنید. در نهایت یک دوره آموزشی کامل هم معرفی خواهیم کرد تا اگر علاقهمند بودید مسیر یادگیریتان را عمیقتر ادامه دهید.
خطا: کاربر درخواست HTTP را بلوکه نمود.
در جدول زیر، انواع مدل های زبانی عصبی به همراه کارایی آنها آورده شده است.
| کارایی | نام مدل |
| درک توالیها | RNN-based |
| یادگیری وابستگی بلند | LSTM / GRU |
| تمرکز روی بخشهای مهم متن | Attention-based |
| معماری پایه مدلهای مدرن | Transformer |
| تولید مرحلهبهمرحله متن | Autoregressive |
| فشردهسازی و بازسازی متن | Autoencoder |
| ورودی به خروجی متنی | Seq2Seq |
| پرکردن بخشهای حذفشده | Masked Language Model |
| تحلیل و فهم متن | Encoder-only |
| تولید متن | Decoder-only |
| درک و تولید همزمان | Encoder–Decoder |
| مدلهای مقیاس بزرگ | Large Language Models |
بررسی دقیقتر این مدلها در ادامه آورده شده است.
میتوان مدلهای RNN یا Recurrent Neural Networks را نخستین نسل جدی و تاثیرگذار از مدلهای زبانی عصبی دانست. این مدلها زمانی اهمیت پیدا کردند که ما نیاز داشتیم زبان را نه بهصورت یک سری کلمههای جدا از هم، بلکه بهعنوان یک توالی معنادار درک کنیم.
مهمترین نکات درک توالی در مدلهای زبانی عصبی NN-based عبارتند از:
برخلاف روشهای قدیمی که هر کلمه را مستقل از قبل و بعدش بررسی میکردند، RNNها به ماشین این توانایی را دادند که بداند هر جمله از یک جریان ذهنی تشکیل شده است و هر کلمه، نقش خود را در بستر جمله پیدا میکند.
در مدلهای RNN، شبکه عصبی با یک ساختار حلقهای طراحی میشود. این حلقه درست مانند حافظه کوتاهمدتی که انسان هنگام شنیدن یا خواندن یک جمله دارد، اطلاعات هر مرحله را به مرحله بعدی منتقل میکند.
برای مثال اگر جمله «او به مدرسه رفت چون…» را بخوانید، ذهنتان با استفاده از بخش اول جمله، حدسهایی درباره ادامه آن میسازد. RNNها نیز همین کار را در سطح محاسباتی انجام میدهند.
کاربرد اصلی این مدلها در وظایفی مثل پیشبینی کلمه بعدی، تحلیل احساسات، تشخیص گفتار و ترجمه ماشینی بود. با اینکه امروز مدلهای پیشرفتهتر مثل Transformerها جای آنها را گرفتهاند، اما RNNها نقطه شروع تحول در مدل های زبانی عصبی محسوب میشوند، چون برای اولینبار توانستند مفهوم وابستگی زمانی را وارد پردازش زبان طبیعی کنند.
هرچند RNNها میتوانند چند کلمه قبلتر را به خاطر بسپارند، اما در نگهداشتن اطلاعات طولانی، محدودیت دارند. همین محدودیت باعث شد بعدها مدلهای LSTM و GRU توسعه پیدا کنند که نسخههای پیشرفتهتر RNN با حافظه بهتر هستند.
اگر بخواهیم تاریخچه مدلهای زبانی عصبی را دقیق بشناسیم، RNNها اولین نقطهای هستند که درک زبان توسط ماشین را وارد مرحلهای جدید کردند.
میتوان مدلهای LSTM (Long Short-Term Memory) و GRU (Gated Recurrent Unit) را به عنوان نسل دوم و ارتقاءیافته مدلهای RNN در حوزه مدلهای زبانی عصبی در نظر گرفت. همانطور که در مورد RNNها اشاره شد، یکی از محدودیتهای اصلی آنها، فراموش کردن اطلاعات در توالیهای طولانی بود.
برای مثال، اگر یک جمله بسیار طولانی بود، RNN در یادآوری کلماتی که در ابتدای جمله آمده بودند، دچار مشکل میشد. این موضوع برای درک دقیق متن، بهخصوص در زبان انسان که وابستگیهای معنایی میتواند بسیار طولانی باشد، یک نقص بزرگ محسوب میشد.
LSTMها و GRUها با معرفی مکانیزمهای جدیدی به نام «گیت» (Gate)، این مشکل را حل کردند.
این گیتها مانند دریچههایی بهصورت هوشمندانه تعیین میکنند کدام اطلاعات باید در حافظه بلندمدت مدل ذخیره، کدامها فراموش و کدامها برای استفاده در مراحل بعدی به خروجی فرستاده شوند. در ادامه سازوکار LTSM و GRU را بیشتر توضیح دادهایم:
این مدل از سه نوع گیت اصلی زیر استفاده میکند:
این معماری پیچیدهتر، به LSTMها اجازه میدهد تا وابستگیهای بسیار طولانیمدت در دادهها را به خاطر بسپارند.
یک نسخه سادهتر و سبکتر از LSTM است که با ترکیب گیت فراموشی و ورودی در یک «گیت بهروزرسانی» (Update Gate) و همچنین ترکیب وضعیت سلول و خروجی در یک «گیت ریست» (Reset Gate)، تعداد پارامترهای کمتری دارد.
با وجود سادگی بیشتر، GRU در بسیاری از وظایف عملکردی مشابه یا حتی نزدیک به LSTM از خود نشان میدهد و به دلیل سرعت بالاتر محاسباتی، گاهی ترجیح داده میشود.
مدلهای زبانی عصبی LSTM و GRU در حوزههای مختلفی مانند خلاصهسازی متن، ترجمه ماشینی، تولید متن و پاسخ به سوالات، به خصوص در مواردی که نیاز به درک متن طولانی بود، انقلاب ایجاد کردند؛ در واقع بخش مهمی از پیشرفتهای اولیه در مدل های زبانی عصبی را مدیون آنها هستیم.
با وجود موفقیت مدلهای LSTM و GRU در مدیریت حافظه بلندمدت، همچنان چالشهایی در پردازش توالیهای بسیار طولانی و درک بهتر ارتباط بین کلمات دور از هم وجود داشت. مدلهای Attention-based پاسخی به این چالشها بودند و معماری مدل های زبانی عصبی را دگرگون کردند.
ایده اصلی مکانیزم Attention این بود که به جای تلاش برای فشردهسازی کل اطلاعات ورودی (مانند تمام کلمات یک جمله یا پاراگراف) در یک بردار ثابت، به مدل اجازه دهیم در هر مرحله از پردازش، به بخشهای مختلف متن ورودی «توجه» (Attention) کند.
به این ترتیب میتواند وزن بیشتری به کلماتی بدهد که در آن لحظه با انجام وظیفه فعلی ارتباط بیشتری دارند. این ایده در پیادهسازی وظایفی مانند ترجمه یک کلمه خاص، خلاصهسازی یک بخش، یا پیشبینی کلمه بعدی کاربردی است.
تصور کنید در حال ترجمه جمله «The animal didn’t cross the street because it was too tired» به فارسی هستید.
وقتی میخواهید ضمیر «it» را ترجمه کنید، مکانیزم Attention به مدل کمک میکند تا بفهمد «it» به «animal» و نه «street» اشاره دارد.
این کار با محاسبه یک «امتیاز توجه» (Attention Score) بین کلمه مورد نظر (it) و تمام کلمات دیگر متن ورودی انجام میشود. کلماتی که امتیاز بالاتری دریافت میکنند، تأثیر بیشتری بر پردازش کلمه فعلی خواهند داشت.
از مهمترین مزایای کلیدی مکانیسم attention میتوان به موارد زیر اشاره کرد:
معروفترین و تأثیرگذارترین معماری که به طور کامل بر مبنای مدلهای زبانی عصبی Attention بنا شده است، Transformer است؛ این معماری در سال ۲۰۱۷ معرفی شد و دنیای NLP را متحول کرد. امروزه، اکثر مدلهای پیشرفته زبانی عصبی مانند GPT و BERT، از معماری Transformer و مکانیزم Attention استفاده میکنند.
معماری Transformer نقطه عطفی در پردازش زبان طبیعی (NLP) بهحساب میآید که انقلابی در نحوه پردازش توالی دادهها، به ویژه متن، ایجاد کرده است.
Transformerها برخلاف مدلهای زبانی عصبی پیشین مانند RNNها و LSTMها که اطلاعات را به صورت ترتیبی و مرحله به مرحله پردازش میکردند، از مکانیزم قدرتمند Attention (توجه) بهره میبرند تا بتوانند وابستگیهای بین کلمات را در هر فاصلهای درک کنند.
Transformerها از دو بخش اصلی زیر تشکیل شدهاند:
هر دوی این بخشها از لایههای متعدد مبتنی بر Attention و شبکههای پیشخور (Feed-Forward) تشکیل شدهاند.
ترنسفورمر به جای فشردهسازی کل توالی ورودی به یک نمایش ثابت، در هر مرحله پردازش، به بخشهای مرتبطتر و مهمتر متن «توجه» بیشتری نشان دهد. این کار از طریق مکانیزم Self-Attention انجام میشود که به هر کلمه اجازه میدهد تا مستقیماً با تمام کلمات دیگر در همان توالی ارتباط برقرار کند و وزن اهمیت آنها را بسنجد.
قابلیت پردازش موازی مزیت این مدل زبانی عصبی است. از آنجایی که نیازی به پردازش گام به گام نیست، میتوان تمام کلمات ورودی را به صورت همزمان پردازش کرد. این امر سرعت آموزش مدل را به شدت افزایش میدهد و امکان کار با دادههای بسیار حجیم را فراهم میکند.
Transformerها به دلیل کارایی بالا در درک روابط پیچیده و طولانیمدت در متن و همچنین قابلیت پردازش سریع، پایه و اساس اکثر مدلهای زبانی عصبی مدرن و پیشرفته شدهاند. مانند BERT و GPT که در طیف وسیعی از وظایف NLP مانند ترجمه ماشینی، خلاصهسازی متن، پاسخ به پرسش و تولید متن، عملکرد فوقالعادهای از خود نشان دادهاند.
مدلهای زبانی عصبی خودرگرسیو، همانطور که از نامشان پیداست، توکن (کلمه یا بخشی از کلمه) بعدی را بر اساس توکنهای قبلی که تولید شدهاند، پیشبینی میکنند. این فرآیند شبیه به نوشتن یک داستان است. درواقع با کمک این مدل زبانی کلمه به کلمه جلو میروید و هر کلمه به کلماتی که قبل از آن نوشتهاید وابسته است.
مدل خودرگرسیو، دستهای مهم از مدلهای زبانی عصبی هستند که بر اساس پیشبینی توکن بعدی در یک دنباله عمل میکنند.
این فرآیند شبیه به نوشتن متن به صورت مرحله به مرحله است، جایی که هر کلمه یا بخش از کلمه (توکن) بر اساس آنچه قبلاً نوشته شد، انتخاب میشود. در واقع، مدل زبانی عصبی خودرگرسیو سعی میکند توزیع احتمال شرطی را محاسبه کند.
این تولید ترتیبی باعث میشود متن خروجی منسجم و طبیعی به نظر برسد. مدلهای معروف خودرگرسیو مانند GPT، که از معماری Transformer (بخش Decoder) استفاده میکنند، در تولید متن، ترجمه، خلاصهسازی و پاسخ به پرسشها بسیار موفق بودهاند.
| شرح | مدل خودرگرسیو |
| پیشبینی توکن بعدی بر اساس توکنهای قبلی. | اصل عملکرد |
| یادگیری توزیع احتمال شرطی $P(x_t | هدف اصلی |
| ترتیبی و مرحله به مرحله. | ماهیت تولید |
| GPT مبتنی بر Transformer) ، RNN/LSTM قدیمیتر). | مدلهای شاخص |
| تولید متن، ترجمه، خلاصهسازی، پاسخ به پرسش. | کاربردها |
مدلهای زبانی عصبی خودرمزگذارها نوعی شبکه عصبی مصنوعی هستند که برای یادگیری نمایش فشرده و کارآمد دادهها (کدگذاری) استفاده میشوند. هدف اصلی آنها این است که بتوانند ورودی خود را تا حد امکان با دقت بازسازی کنند. این کار از طریق دو بخش اصلی انجام میشود:
این مدل زبانی با دو مکانیسم زیر کار میکند:
از مهمترین کاربردهای مدل زبانی عصبی خود رمزگذار میتوان به موارد زیر اشاره کرد:
مدلهای زبانی عصبی خودرمزگذار، ابزاری قدرتمند برای درک ساختار دادهها و یادگیری بازنماییهای مفید از آنها بدون نیاز به دادههای برچسبدار هستند.
خطا: کاربر درخواست HTTP را بلوکه نمود.
مدلهای Seq2Seq (Sequence-to-Sequence) برای وظایفی طراحی شدهاند که ورودی و خروجی هر دو به صورت دنبالههایی از دادهها هستند. ازجمله این وظایف میتوان به ترجمه ماشینی، خلاصهسازی متن، یا پاسخ به پرسش اشاره کرد. این مدلها از دو جزء اصلی زیر تشکیل شدهاند:
یکی از چالشهای اصلی مدلهای Seq2Seq اولیه، محدودیت بردار زمینه در نگهداری تمام اطلاعات دنباله ورودی طولانی بود. این مشکل با معرفی مکانیزم توجه (Attention Mechanism) در مدلهای پیشرفتهتر Seq2Seq تا حد زیادی برطرف شد. چون به رمزگشا اجازه میدهد در هر مرحله از تولید خروجی، به بخشهای مختلف دنباله ورودی با وزنهای متفاوت «توجه» کند.
مدلهای زبانی عصبی نقابدار (Masked Language Models) مانند BERT، رویکردی نوآورانه در یادگیری زبان دارند. برخلاف مدلهای سنتی که سعی در پیشبینی کلمه بعدی در یک جمله دارند، این مدلها بخشی از کلمات ورودی را به صورت تصادفی «نقابگذاری» (mask) میکنند.
سپس، وظیفه مدل این است که با در نظر گرفتن تمام کلمات اطراف کلمه نقابگذاری شده (چه کلمات قبل و چه کلمات بعد از آن)، کلمه صحیح را پیشبینی کند. در جدول زیر مکانیسم مدل زبانی نقابدار را مشاهده میکنید:
| توضیحات | مدلهای زبانی عصبی نقابدار |
| ورودی: بخشی از کلمات با [MASK] جایگزین میشوند. | نحوه کار: |
| هدف: پیشبینی کلمات اصلی نقابگذاری شده. | |
| یادگیری: درک روابط متنی عمیق و دوطرفه. | |
| پرسش و پاسخ (Question Answering) | کاربردها: |
| تحلیل احساسات (Sentiment Analysis) | |
| درک مطلب (Reading Comprehension) |
مدلهای زبانی عصبی نقابدار، برای وظایفی که نیاز به درک کامل متن ورودی دارند، بسیار قدرتمند هستند، اما برای تولید متن پیوسته (مانند نوشتن داستان) به تنهایی مناسب نیستند، زیرا طراحی آنها بر پیشبینی کلمه بعدی تمرکز ندارد.
این مدلها، مانند BERT، تنها از بخش رمزگذار (Encoder) معماری ترنسفورمر استفاده میکنند.
همانطور که در مورد MLM توضیح داده شد، تمرکز اصلی این گروه از مدلهای زبانی عصبی بر درک عمیق متن ورودی است. آنها دنباله ورودی را پردازش و نمایشی غنی و مفهومی از آن تولید میکنند که برای وظایف پاییندستی (downstream tasks) مناسب است. ویژگیهای کلیدی مدلهای زبانی فقط رمزگذار در جدول زیر شرح داده شده است:
مدلهای زبانی عصبی فقط رمزگذار (Encoder-only)
| توضیح مختصر | ویژگی کلیدی |
| فقط بخش Encoder ترنسفورمر | معماری |
| درک متن (Text Understanding) | هدف اصلی |
| پردازش دوطرفه (Bidirectional) | ویژگی کلیدی |
| BERT, RoBERTa, ALBERT | مثالها |
| دستهبندی، NER، استخراج اطلاعات | کاربردها |
| عدم تولید متن جدید | نقطه ضعف |
این مدلها برای تحلیل و درک متن عالی هستند، اما برای تولید متن جدید طراحی نشدهاند.
مدلهای فقط رمزگشا، مانند سری GPT، فقط از بخش رمزگشا (Decoder) معماری ترنسفورمر استفاده میکنند. تمرکز اصلی آنها بر تولید متن (Text Generation) است.
مدلهای زبانی عصبی رمزگشا، کلمه به کلمه متن را پیشبینی میکنند و در هر مرحله، تنها به کلمات قبلی (Autoregressive) نگاه میکنند.
در جدول زیر مکانیسم عملکرد مدلهای فقط رمزگشا شرح داده شده است:
| توضیح | مدل های فقط رمزگشا |
| فقط بخش Decoder ترنسفورمر | معماری |
| تولید متن (Text Generation) | هدف اصلی |
| پردازش یکطرفه(Autoregressive) | ویژگی کلیدی |
| GPT-2, GPT-3, GPT-4 | مثالها |
| نوشتن خلاقانه، تکمیل متن، چتبات | کاربردها |
| تولید متن منسجم و مرتبط | نقطه قوت |
مدلهای زبانی عصبی فقط رمزگشا، توانایی بالایی در تولید متن منسجم و مرتبط دارند و به همین دلیل پایه و اساس بسیاری از مدلهای زبانی بزرگ امروزی هستند.
مدلهای رمزگذار-رمزگشا، همان معماری پایهی ترنسفورمر را دارند که شامل هر دو بخش رمزگذار (Encoder) و رمزگشا (Decoder) میشود.
این ساختار برای وظایفی مانند ترجمه ایدهآل است که به تبدیل یک دنباله ورودی به یک دنباله خروجی متفاوت دارند. مدلهای زبانی عصبی رمزگذار-رمز گشا در واقع، رمزگذار ورودی را پردازش کرده و رمزگشا خروجی را تولید میکند.
در جدول زیر میتوانید بهطور خلاصه ویژگیهای این مدل زبانی را مشاهده کنید:
| توضیح | مدلهای رمزگذار-رمزگشا |
| Encoder + Decoder | معماری |
| تبدیل دنباله به دنباله (Sequence-to-Sequence Tasks) | هدف اصلی |
| ترجمه ماشینی و خلاصهسازی متن، پاسخ به سوالات (با کمی تغییر در ورودی/خروجی) | ویژگی کلیدی |
| T5, BART | مثالها |
این مدلهای زبانی انعطافپذیری بالایی دارند و میتوانند برای طیف وسیعی از وظایف پردازش زبان طبیعی که شامل تبدیل ورودی به خروجی هستند، مورد استفاده قرار گیرند.
LLMها دستهای از مدلهای زبانی عصبی بزرگ هستند که با مقادیر عظیم داده و با تعداد پارامترهای بسیار زیاد (اغلب میلیاردها) آموزش دیدهاند. این مدلها معمولاً بر پایه معماری ترنسفورمر (اغلب Decoder-only یا Encoder-Decoder) ساخته میشوند.
LLMها به دلیل مقیاس بزرگشان تواناییهای شگفتانگیزی در درک و تولید زبان طبیعی از خود نشان میدهند. به این ترتیب میتوانند طیف گستردهای از وظایف را بدون نیاز به تنظیم دقیق (fine-tuning) برای هر وظیفه خاص انجام دهند (Zero-shot یا Few-shot learning).
در جدول زیر ویژگیهای مدلهای زبانی بزرگ شرح داده شده است:
| ویژگیها / قابلیتها | LLMs |
| آموزش با داده عظیم، میلیاردها پارامتر | مقیاس |
| ترنسفورمر (Decoder-only یا Encoder-Decoder) | معماری پایه |
درک و تولید زبان پیچیده یادگیری صفر-شات/چند-شات (بدون نیاز به Fine-tuning) | تواناییها |
تولید متن خلاقانه پاسخ به سوالات پیچیده ترجمه کدنویسی استدلال | قابلیتهای برجسته |
| GPT-3.5/4, PaLM, LLaMA, Claude | مثالها |
| انقلابی در هوش مصنوعی، قابلیتهای در حال پیشرفت | تأثیر |
مدلهای زبانی عصبی LLM، انقلابی در حوزه هوش مصنوعی ایجاد کردهاند و قابلیتهای آنها همچنان در حال پیشرفت است.
اما چگونه میتوانیم از حداکثر پتانسیل این ابزارهای قدرتمند استفاده کنیم؟ پاسخ در انتخاب صحیح استراتژی استفاده از مدلهای زبانی عصبی نهفته است.
تصور کنید به دنبال خلق یک اثر هنری بینظیرید. ابزار شما یک قلمموی جادویی و رنگهای بینهایت است. اما بدون دانش تکنیکهای نقاشی، ترکیب رنگها و اصول ترکیببندی، خلق شاهکار ممکن نخواهد بود. مدلهای زبانی عصبی نیز چنین ابزارهایی هستند و بدون استراتژی درست، صرفا دانستن آنها کافی نیست.
(Probabilistic Language Modeling) و مدلسازی زبان عصبی (Neural Language Modeling) دو استراتژی استفاده از مدل های زبانی عصبی هستند. بیایید کمی بیشتر با آنها آشنا شویم:
اساس کار مدلسازی زبان احتمالی (Probabilistic Language Modeling)، بر ساخت مدل زبانی بر اساس یک پیکره (corpus) متنی استوار است.
پس از ساخت مدل، میتوان احتمال وقوع هر جمله جدید را در سیستم محاسبه کرد. این مدلها با استفاده از تکنیکهای n-gram کار میکنند که در آن احتمال یک کلمه به کلمات قبلی در یک دنباله (n-1 کلمه) بستگی دارد.
یکی از چالشهای اصلی در مدلهای n-gram مواجهه با دنبالههای کلماتی است که در پیکره آموزشی دیده نشدهاند.
این امر منجر به احتمال صفر برای آن دنباله میشود که در محاسبات بعدی مشکلساز خواهد بود. برای حل این مشکل از تکنیکهای Smoothing به دو روش زیر استفاده میشود.
این سادهترین روش، با افزودن عدد ۱ به شمارش تمام دنبالههای n-gram (چه دیده شده و چه نشده) عمل میکند. این کار تضمین میکند که هیچ احتمالی صفر نخواهد بود.
فرض کنید یک پیکره متنی داریم و میخواهیم احتمال جمله <s> I saw the man in the street </s> را با استفاده از مدل bigram محاسبه کنیم. برای محاسبه احتمال هر کلمه، باید تعداد تکرار دنباله دو کلمهای (bigram) را بر تعداد تکرار کلمه اول (Unigram) تقسیم کنیم.
جدول bigram قبل از Laplace Smoothing
| Bigram | Count |
| <s> I | ۵ |
| I saw | ۳ |
| saw the | ۰ |
| the man | ۲ |
| man in | ۱ |
| in the | ۴ |
| the street | ۰ |
| street </s> | ۱ |
جدول bigram بعد از Laplace Smoothing (Add-One)
| Bigram | Count (Original) | Count (Add-One) |
| <s> I | ۵ | ۶ |
| I saw | ۳ | ۴ |
| saw the | ۰ | ۱ |
| the man | ۲ | ۳ |
| man in | ۱ | ۲ |
| in the | ۴ | ۵ |
| the street | ۰ | ۱ |
| street </s> | ۱ | ۲ |
در روش back off، اگر احتمال یک دنباله n-gram صفر باشد (یعنی در پیکره دیده نشده باشد)، مدل به سراغ دنبالههای با مرتبه پایینتر میرود و از احتمال آنها استفاده میکند. این کار با یک احتمال بکگراند (background probability) انجام میشود. اگر شمارش bigramصفر باشد، از احتمال unigram مربوطه استفاده میشود.
یکی دیگر از روشهای این متد، Interpolation است. این روش از ترکیبی وزنی از احتمالات دنبالههای n-gram و n-1-gram استفاده میشود. در این روش، همیشه یک «احتمال بکگراند» (با وزنی مشخص، مثلاً اپسیلون ε) به احتمال اصلی اضافه میشود، چه شمارش اصلی صفر باشد و چه نباشد.
مجموع وزنها باید برابر با ۱ باشد (مثلاً ۰.۸ احتمال اصلی + ۰.۲ احتمال بکگراند). برای محاسبه احتمال بکگراند، از مدلهای با مرتبه پایینتر استفاده میشود.
مدلسازی زبان عصبی (Neural Language Modeling)از شبکههای عصبی، بهویژه شبکههای بازگشتی برای یادگیری نمایش توزیعی کلمات و روابط بین آنها استفاده میکند.
مدلهای زبانی عصبی قادرند الگوهای پیچیدهتر و وابستگیهای دوربرد را در زبان بهتر درک کنند و عملکرد بهتری نسبت به مدلهای احتمالی سنتی دارند، چون این مدلها به جای شمارش مستقیم، ویژگیهای معنایی و نحوی کلمات را در فضاهای برداری (embeddings)یاد میگیرند.
خطا: کاربر درخواست HTTP را بلوکه نمود.
یادگیری استراتژیهای مدلهای زبانی عصبی، به استفاده عملی از این مدلها کمک میکند؛ بنابراین میتواند مسیر کسب درآمد با هوش مصنوعی را به طور قابل توجهی هموارتر کند.
به همین منظور، آکادمی همراه اول مسیر آموزشی هدفمندی با عنوان «پردازش زبان طبیعی(NLP)» همراه با ارائه مدرک معتبر، آماده کرده است.
این دوره آموزشی که توسط خانم سعیده ممتازی، دارنده دکتری هوش مصنوعی از دانشگاه زارلاند آلمان و عضو هیئت علمی دانشگاه صنعتی امیرکبیر و مدیر آزمایشگاه پردازش زبان طبیعی (NLP) این دانشگاه، تدریس میشود، به شما دیدگاهی عملی خواهد داد و قادر خواهید بود:
هدف این دوره، ارائه نقشه راهی عملی برای ورود به دنیای هیجانانگیز پردازش زبان طبیعی (NLP) و یادگیری استراتژیهای بکارگیری مدلهای زبانی عصبی است. با کمک این مسیر آموزشی، دانشی عملی برای ارتقای مهارتهایتان کسب خواهید کرد. میتوانید آینده خود را در حوزه هوش مصنوعی و پردازش زبان طبیعی رقم بزنید و از همین حالا گامهای بلندتری در مسیر حرفهای خود بردارید.
بینایی کامپیوتری (Computer Vision) نوعی فناوری است که ماشینها برای تشخیص خودکار، آنالیز و توصیف...
ابزارهایی مثل Runway، Kling و VEO3 امروز به هر کسی این امکان را میدهند که...
هوش مصنوعی عمومی به نوعی از هوش مصنوعی گفته میشود که برخلاف سیستمهای محدود امروزی،...
ازجمله ابزارهای برنامه نویسی با هوش مصنوعی میتوان به Cursor و GitHub Copilot و Trae...
ترجمه دقیق و سریع متون نقش مهمی در تولید محتوای حرفهای دارد و میتواند کیفیت...
در این مقاله از آکادمی همراه یاد میگیرید چطور با هوش مصنوعی و بدون نیاز...
پرامپت عکس لینکدین کلید طلایی شما برای ساختن یک تصویر پروفایل کاریزماتیک، بدون نیاز به دوربین...
تصور کنید در خیابان قدم میزنید و ناگهان خودروی بدون رانندهای کنار شما توقف میکند،...