این روزها همه جا حرف از هوش مصنوعی و علم داده تئوری تا عمل است؛ چت جی پی تی، چاسپر، دال ای و غیره نمونههایی از هوش مصنوعی هستند که به انسان در ایده پردازی، نویسندگی، تصویرسازی و بسیاری از کارهای دیگر کمک کنند. اگرچه عموم مردم با هوش مصنوعی آشنایی دارند، اما کمتر کسی به کاربرد علم داده (Data science) به عنوان دانش پایه در خلق این تکنولوژی واقف است.
تا به حال از خود پرسیدهاید هوش مصنوعی اطلاعات خود را از کجا جمعآوری میکند؟ چگونه این اطلاعات طبقهبندی میشوند و چگونه کامپیوتر از آنها چیزی میآموزد؟
هوش مصنوعی اطلاعات خود را مرهون علم داده است. علمی که به انسان کمک میکند اطلاعات را از یک پایگاه داده جمعآوری کند و آنها را به شکل مرتبی در اختیار کامپیوترها قرار دهد.
در این مقاله قصد داریم علم داده از تئوری تا عمل را بررسی کنیم. ابتدا با مفاهیم و مبانی علم داده آشنا میشویم و سپس کاربردهای عملی آن را بررسی میکنیم. اگر میخواهید به دنیای جذاب هوش مصنوعی وارد شوید یا از الگوریتمهای علم داده در پیشبرد کارهای روزمره خود استفاده کنید، در ادامه همراه ما باشید.
«علم» روش سیستماتیکی است که انسان با مطالعه آن طیفی از پدیدههای طبیعت را توصیف میکند. با اینوصف، علم داده نیز یک طیف علمی است که به اکتشاف دانش و تحلیل دادههای یک حوزه میپردازد.
به عبارت دیگر، انسان از علم داده استفاده میکند تا حجمی از داده را گردآوری و مرتب کند تا بتواند تحلیل درستی از آنها داشته باشد. هدف نهایی علم داده دستیابی به یک بینش صحیح از دادهها است که به وسیله آن بتوان برای مسائل و چالشهای پیش رو راهکاری عملی یافت.
اگر تصور میکنید علم داده یک دانش آکادمیک برای حوزههای تخصصی است و در زندگی هیچ کاربردی ندارد، سخت در اشتباه هستید. برای درک بهتر این موضوع میتوانیم یک مثال بزنیم؛ مثلا علم داده در زندگی یک نویسنده بزرگ نظیر آرتور شوپنهاور را بررسی کنیم.
نویسندگان در نوشتههایشان، بینش خود از زندگی را به نمایش میگذارند. برای اینکار، آنها طیف وسیعی از کتابهای موجود را مطالعه میکنند، دانش این کتابها را با تجربه زیسته خود درمیآمیزند و بینشی جدید در زندگی را پیدا میکنند.
نویسندگان بر اساس بینش خود کتابی مینویسند. این کتاب میتواند علمی، داستانی، روانشناسی و غیره باشد؛ نوع آن مهم نیست؛ هرچه باشد، بینش و فلسفه نویسنده به زندگی در آن مشهود است. مثلا اهل کتاب میدانند که بینش نویسنده مثال ما یعنی شوپنهاور، بینشی بدبینانه به زندگی است.
بیایید زیاد از بحث اصلی دور نشویم. هدف ما معرفی علم داده در زندگی انسان بود. با این مثال متوجه شدید هر کاری که در زندگی انجام میدهیم به نوعی به دادههای زندگیمان وابسته است. مغز ما دادههای اطراف شامل، دادههای تصویری، صوتی، لامسه، بویایی و چشایی را دریافت و با الگوریتمهای پیچیده خود آنها طبقهبندی میکند؛ در نهایت نیز با تجزیه این دادهها، بینش ما به زندگی و مسائل مختلف آن شکل میگیرد. برایناساس، اگر علم داده را دانشی فراگرفته از ذهن انسان معرفی کنیم، بیراه نگفتهایم.
امروزه علم داده از تئوری تا عمل در بسیاری از تکنولوژیها و فرآیندهای روز دنیا مورد استفاده قرار میگیرد؛ که البته برای پرداختن به آنها باید سراغ تعریف تخصصی این دانش برویم.
حالکه به رابطه عمیق علم داده با ساختار ذهن خود پی بردید، نوبت آن است که این دانش را در مفهوم تخصصی بررسی کنیم. تعریف علم داده در معنای تخصصی را به دقت مطالعه و درک کنید؛ ازاینپس، تمامی بخشهای مقاله به این تعریف مرتبط است.
آشنایی با مفاهیم علم داده از تئوری تا عمل، به افراد و سازمانها کمک میکند اطلاعات مورد نیاز خود را طبقهبندی کنند و به تجزیه و تحلیل آنها بپردازند. بدون استفاده از تکنیکهای علم داده، مرتب کردن حجم بالایی از اطلاعات غیرممکن است و دانش حاصل از تجزیه و تحلیل آنها نیز معتبر نیست.
امروزه از علم داده در زمینههای مختلفی استفاده میشود. شناسایی علایق مشتریان در کسبوکار، تحلیل رفتار مخاطبان در شبکههای اجتماعی، پیشبینی رفتار قیمت در بازارهای مالی و تخمین احتمال موفقیت یک کاندید در انتخابات پیش رو، بخشی کوچکی از کاربردهای علم داده در دنیای امروز هستند؛ همچنین، هوش مصنوعی و الگوریتمهای یادگیری ماشین نیز به این دانش وابستهاند.
“علم داده یا دیتا ساینس دانشی بین رشتهای است که میتواند با تجزیه و تحلیل اطلاعات، بینشی را از آنها استخراج کند.”
پیش از آشنایی با کاربردهای علم داده، ابتدا باید مبانی تئوری آن را بشناسید. در این بخش قصد داریم گام اول از مقاله علم داده از تئوری تا عمل را با معرفی مبانی تئوری این دانش برداریم.
هنگامی که سخن از علم داده به میان میآید، عباراتی مانند دادهکاوی، یادگیری عمیق، یادگیری ماشین و هوش مصنوعی نیز در ذهن تداعی میشود. با توجه به دانش اندک، عموم مردم به غلط تصور میکنند که همه این عبارات یک معنا دارند.
در این بخش قصد داریم به واژهشناسی علم داده بپردازیم و ازاینطریق شما را با علوم زیرمجموعه و موازی با این دانش آشنا کنیم.
دادهکاوی یا دیتا آنالیز یکی از علوم زیرمجموعه علم داده است که به بررسی و تجزیه و تحلیل دادهها میپردازد. با استفاده از تکنیکها و الگوریتمهای دادهکاوی میتوان مفاهیم مورد نیاز را از اطلاعات استخراج کرد. یکی از ویژگیهای دادهکاوی دخالت انسان در بخشهای مختلف آن است.
یکی از اشتباهات رایج درمورد دادهکاوی، تمایز قائل نشدن میان آن و یادگیری ماشین است. بسیاری از افراد یا حتی متخصصان حوزههای مرتبط با علم داده، دادهکاوی و یادگیری ماشین را عباراتی هممعنا میدانند؛ درحالیکه، یک تفاوت بزرگ میان آنها وجود دارد. عموما تجزیه دادهها در الگوریتمهای دادهکاوی با دخالت انسان همراه است؛ در حالی که الگوریتمهای یادگیری ماشین متکی به کامپیوترها هستند. بدین ترتیب دخالت یا عدم دخالت انسان در الگوریتمها را میتوان وجه تمایز میان دادهکاوی و یادگیری ماشین دانست.
الگوریتم (Algorithms) عبارتی لاتین برگرفته از نام خوارزمی است. این عبارت به دستورالعملهایی گفته میشود که با یک ترتیب خاص انجام میشوند و مسئلهای را حل میکنند.
یادگیری ماشین یا ماشین لرنینگ، شباهت بسیاری با دادهکاوی دارد؛ با این تفاوت که به جای دخالت انسان، تمامی الگوریتمها به وسیله کامپیوتر انجام میشود؛ البته این بدان معنا نیست که در چنین سیستمی انسان هیچ جایگاهی ندارد. ویژگی دادههای گردآوری شده ابتدا توسط انسان بررسی میشوند و سپس در اختیار الگوریتم قرار میگیرند.
پساز ورود دادهها، الگوریتمهای ماشین لرنینگ الگوهای موجود را تشخیص میدهند و دانش یا بینشی در حوزه اطلاعات ورودی کسب میکنند. در مراحل بعدی، این دانش به الگوریتم کمک میکند تا دادههای جدید را طبقهبندی یا رگرسیون کند.
یادگیری عمیق یا دیپ لرنینگ را نباید با یادگیری ماشین اشتباه گرفت. اگرچه این دانش زیرمجموعهای از یادگیری ماشین است؛ اما کاملا با آن یکسان نیست. از یادگیری عمیق عموما برای تشخیص الگوها در دادههایی با ساختار پیچیده استفاده میشود.
تفاوت اصلی یادگیری عمیق با یادگیری ماشین در پیچیدگی الگوریتمها و عدم دخالت انسان در فرآیندهای آن است. همانطور که گفتیم در یادگیری ماشین، انسان است که ابتدا ویژگیهایی از دادهها را تعیین میکند و سپس از الگوریتم میخواهد این ویژگیها را در سطح کلانی از دادهها مورد ارزیابی قرار دهد.
در یادگیری عمیق چنین اتفاقی نمیافتد؛ یعنی قرار نیست انسان ویژگیها را تعیین کند. الگوریتمهای این دانش بسیار پیچیده هستند و طراحی آنها از ساختار لایه لایه مغز انسان شبیهسازی شده است. بدین ترتیب، در یادگیری عمیق الگوریتم بدون دخالت انسان، الگوهای مشابه در دادهها را شناسایی و آنها را خوشهبندی میکند.
تصویر زیر تفاوت ماشین لرنینگ و دیپ لرنینگ را به خوبی نمایش میدهد.
پیشتر به واژه کلان داده اشاره کردیم. کلان داده عبارتی بسیار کاربردی است که برای آشنایی با علم داده از تئوری تا عمل باید به خوبی آن را بشناسید.
اولا، باید بدانید کلان داده به نوعی از داده گفته میشود که نسبت به سایرین ویژگیهای متفاوتی دارند. ویژگیهای کلان دادهها در منابع مختلف به شکلهای متنوعی بیان شده، اما سه ویژگی مشترک که تمامی متخصصان حوزه علم داده بر آن تفاهم دارند، عبارتند از:
هر مجموعهای از داده که ویژگیهای مذکور را داشته باشد، کلان داده یا بیگ دیتا نامیده میشود. برای درک بهتر کلان داده میتوانیم شبکه اجتماعی اینستاگرام را مثال بزنیم.
میدانید در اینستاگرام پستهایی به شما نمایش داده میشود که با علایق شما همخوانی دارد. مثلا اگر به موسیقی علاقه داشته باشید در صفحه اکسپلور شما پستهایی مربوط به خوانندگان نمایش داده میشود و اگر ورزشکار باشید نیز احتمالا اخبار مسابقات ورزشی یا لایف استایل ورزش کاران مشهور.
واضح است که شرکت سازنده این نرم افزار (کمپانی متا) از یک هوش مصنوعی قدرتمند استفاده میکند. حال میپرسید این هوش مصنوعی را با کدام اطلاعات تغذیه میکند؟ با کلان دادههایی که از کاربران دریافت مینماید.
آخرین و جذابترین حوزهای که قصد داریم به آن بپردازیم، هوش مصنوعی است. اگر بخواهیم در علم داده از تئوری تا عمل جایگاهی برای هوش مصنوعی قائل شویم، بیشک جایگاه آن در بخش «عمل» خواهد بود.
هوش مصنوعی محصول شگفتانگیز علم داده است. توجه کنید که علم داده و هوش مصنوعی هیچ کدام زیرمجموعهای از یکدیگر نیستند؛ بلکه با یکدیگر همپوشانی دارند. یادگیری ماشین و در زیرمجموعه آن یادگیری عمیق، همگی زیرمجموعههای هوش مصنوعی هستند. بخش اعظم ارتباط هوش مصنوعی با علم داده نیز مربوط به ارتباط این دانش با ماشین لرنینگ است.
هوش مصنوعی را نمیتوان کاملا با یادگیری ماشین یکسان دانست. این تکنولوژی حوزههای جداگانهای نظیر فلسفه هوش مصنوعی، تامین انرژی ابزار و غیره را نیز در بر دارد که ارتباط خاصی با یادگیری ماشین ندارند.
یکی از ویژگیهای جذاب هوش مصنوعی امکان اصلاح دادههای پیشین با دریافت دادههای جدید است. به عبارت دیگر، هوش مصنوعی با دریافت دادههای جدید میتواند مانند یک انسان بینش اولیه خود را اصلاح یا ارتقا دهد؛ گویی یک مکانیزم «خود توسعهگر» دارد.
تا به اینجا با مبانی هوش مصنوعی آشنا شدیم؛ حال وقت آن است که در سیر آموزش علم داده از تئوری تا عمل به معرفی انواع داده بپردازیم.
دادهها (Data) در علم داده به ۴ نوع اصلی تقسیم میشوند. هرکدام از این دادهها نهایتا خوراک الگوریتمهای متفاوتی در دادهکاوی و یادگیری ماشین هستند؛ بدیهی است که گردآوری هر داده نیز با روشها و اهداف خاصی انجام میشود.
معروفترین نوع داده که اکثر الگوریتمهای یادگیری ماشین و دادهکاوی از آن استفاده میکنند، داده مستطیلی است. دادههای مستطیلی به صورت جداولی هستند که نمونههای مورد بررسی و ویژگیهای هر یک در خانههایی از جدول نمایش داده میشوند.
دادههای مستطیلی حجم پایینی دارند و بررسی آنها برای الگوریتمهای ماشین لرنینگ آسانتر است. یکی از مهارتهای متخصصان علم داده از تئوری تا عمل، تبدیل دادههای مختلف به داده مستطیلی است. در غیر این صورت، باید به دنبال الگوریتمهایی باشیم که خودشان اینکار را انجام میدهند.
مثالی آشنا از دادههای مستطیلی، جدول ردهبندی تیمهای فوتبال است. در این جدول نام نمونهها (تیمها) در ستون اول، و در دیگر ستونها نیز ویژگیهایی نظیر امتیاز، تفاضل گل، تعداد گل و غیره ذکر شده است.
دادههای تصویری پس از داده مستطیلی رایجترین نوع داده هستند. مغز انسان با توجه به ساختار پیچیده خود میتواند به آسانی دادههای تصویری را الگوبرداری کند و از آنها الهام بگیرید.
اگرچه دادههای تصویری نیز مانند همتایان مستطیلی خود، برای بسیاری از الگوریتمهای یادگیری ماشین شناخته شده هستند؛ اما با توجه به حجم بالا، گنگبودن ساختار و الگوریتمهای پیچیدهای که برای تجزیه و تحلیل آنها وجود دارد، سرعت یادگیری ماشین را پایین میآورند.
مهندسان علم داده تلاش میکنند دادههای تصویری را به مستطیلی تبدیل کنند و سپس در اختیار الگوریتمها قرار دهند.
دادههای ویدئویی زیرمجموعهای از دادههای تصویری هستند؛ با این تفاوت که حجم بسیار بالاتری از تصاویر را در خود جای دادهاند. استفاده مستقیم از چنین دادههایی فرآیند دادهکاوی را بسیار دشوار میکند؛ لذا بهتر است ابتدا آنها را به دادههای تصویری و سپس دادههای مستطیلی تبدیل کرد.
فرکانس و امواج صوت، دادههای صوتی را ایجاد میکنند. با توجه به حجم و تنوع بالای دادههای صوتی (شامل تنوع در زبان و گویشهای مختلف، سبکهای خاص موسیقی و غیره) الگوریتمهای اندکی از چنین دادههایی پشتیبانی میکنند؛ البته این مشکل با تبدیل دادههای صوتی به مستطیلی قابل حل است.
مقالهای که در حال مطالعه آن هستید یک داده متنی است. دادههای متنی عموما با همان چالش دادههای صوتی روبهرو هستند؛ لذا تبدیل آنها به داده مستطیلی میتواند فرآیند دادهکاوی را سهولت بخشد.
جالب است بدانید نرم افزارهای هوش مصنوعی پرطرفداری نظیر چت جی پی تی و جاسپر با دادههای متنی سروکار دارند.
آخرین مبحث تئوری که قصد داریم در سیر معرفی علم داده از تئوری تا عمل به آن بپردازیم، رویکردهای دادهکاوی و یادگیری ماشین است.
پس از اینکه با تکنیکهای علم داده توانستیم دیتای مورد نیازمان را از پایگاه داده استخراج کنیم؛ باید با توجه به نوع داده و هدف، رویکرد دادهکاوی خود را مشخص نماییم. در ادامه دو رویکرد اصلی این حوزه را به شما معرفی میکنیم.
در رویکرد یادگیری نظارت شده، دادهها پیش از اینکه در اختیار الگوریتمهای یادگیری ماشین قرار گیرند، توسط عامل انسانی نظارت میشوند. در این حالت، ویژگی دادهها توسط انسان بررسی شده و برچسبگذاری میشوند.
مثلا میتوانیم برای طراحی یک سیستم تشخیص چهره با رویکرد نظارت شده، خودمان ویژگیهای تصویر انسان را به الگوریتم معرفی کنیم؛ ویژگیهایی نظیر شکل چشم، محل قرارگیری دهان، مو و غیره؛ اینگونه برای الگوریتم مشخص میکنیم چه ویژگیهایی از تصویر را مدنظر قرار دهد و بینش خود را با توجه به چه معیارهایی شکل دهد.
در یادگیری نظارت شده میتوانیم خودمان برای دادهها برچسب تعیین کنیم. در مثال قبل اگر خودمان مشخص کنیم کدام داده تصویر انسان است و کدام نیست، از رویکرد یادگیری نظارت شده استفاده کردهایم.
جالب است بدانید یکی از کاربردهای پنجره «من یک روبات نیستم» در صفحات وب همین مسئله است. هنگامی که مشخص میکنید در کدام تصاویر یک شیء خاص وجود دارد و در کدام نه؛ به نوعی تصاویر را برچسبگذاری میکنید؛ این دادهها میتواند بعداً در اختیار الگوریتمهای یادگیری ماشین قرار گیرد (یا برعکس، الگوریتمها را مورد ارزیابی قرار دهد).
در رویکرد یادگیری غیرنظارت شده، دادهها بدون دخالت انسان در اختیار الگوریتمهای یادگیری ماشین قرار میگیرد. این رویکرد در مواقعی استفاده میشود که هدف ما برچسب گذاری دادهها نیست؛ بلکه میخواهیم دادههای مشابه را خوشهبندی یا نمونههای ناهنجار را شناسایی و تفکیک کنیم.
احتمالا متوجه سازگاری این رویکرد با یادگیری عمیق یا همان دیپ لرنینگ شدهاید. همانطور که گفتیم در یادگیری عمیق وظیفه بررسی دادهها به کلی به کامپیوتر محول میشود و اپراتور انسانی در تعیین ویژگیهای مورد نیاز برای یادگیری دخالتی نداشت.
رویکرد غیرنظارت شده برای برچسبگذاری دادهها استفاده نمیشود؛ بلکه هدف آن شناسایی و خوشهبندی دادههای مشابه است. برای مثال شبکه مجازی اینستاگرام نمیتواند کلان دادههای مخاطبان را برچسبگذاری کند؛ پس به جای آن، دادههای مشابه را با رویکردی غیرنظارت شده شناسایی میکند و محتواهایی مشابه بازدیدهای پیشین مخاطب را به او نمایش میدهد؛ برای همین است که مخاطبان ساعتها وقت خود را در این شبکه مجازی میگذرانند، بدون اینکه احساس خستگی یا کسالت کنند.
تا اینجا با مبانی تئوری علم داده آشنا شدید. در ادامه و در سیر مقاله علم داده از تئوری تا عمل، به کاربردهای جذاب این دانش در دنیای واقعی خواهیم پرداخت؛ البته پیش از آن، باید بدانیم که این دانش تئوری چگونه وارد دنیای حقیقی میشود.
ماحصل علم داده، دادهکاوی و نهایتا هوش مصنوعی، برنامههایی هستند که بر روی سیستمهای سخت افزاری اجرا میشوند؛ پس برای آشنایی با نحوه انتقال علم داده از تئوری تا عمل، باید با زبانهای کامپیوتر آشنا شویم.
زبانهای برنامهنویسی پل ارتباطی انسان با کامپیوتر هستند. انسان با استفاده از زبان برنامهنویسی میتواند الگوریتمها و محاسبات خود را به کامپیوتر تفهیم کند و از قدرت بالای سخت افزار برای انجام کارهایی که قادر به انجام آنها نیست استفاده نماید.
امروزه زبانهای برنامهنویسی مختلفی تولید و توسعه یافتهاند؛ امکان استفاده از اغلب زبانهای برنامهنویسی در حوزه علم داده و یادگیری ماشین وجود دارد؛ اما برخی از این زبانها قدرت بالاتری دارند و به طور تخصصی در این حوزه ورود کردهاند.
در ادامه اصلیترین زبانهای برنامهنویسی توسعه یافته در حوزه علم داده و یادگیری ماشین را معرفی میکنیم. این زبانها پل ارتباطی علم داده از تئوری تا عمل هستند و از پایههای اساسی پیشرفت و توسعه هوش مصنوعی به شمار میروند.
نیاز نیست متخصص یادگیری ماشین و هوش مصنوعی باشید تا بدانید پایتون برترین زبان برنامهنویسی در این حوزه است؛ هرجایی سخن از هوش مصنوعی باشد، پایتون نیز هست. اکثر کارشناسان علم داده و یادگیری ماشین با این زبان آشنایی دارند.
پایتون از زبانهای سطح بالا است؛ یعنی شباهت بسیاری به زبان انسان دارد. یادگیری این زبان نسبت به زبانهای سطح پایینتری نظیر جاوا و سی بسیار آسانتر است.
علیرغم اینکه زبان پایتون در سال ۱۹۹۱ منتشر شده و تاریخچه بلندبالایی ندارد، اما محبوبترین زبان حال حاضر جهان در میان برنامهنویسان و مخصوصا فعالان حوزه یادگیری ماشین است.
نوشتن الگوریتمهای پیچیده دادهکاوی و یادگیری ماشین بسیار دشوار و زمانبر است. کمااینکه وقتی میتوان از الگوریتمهای آماده استفاده کرد؛ بازنویسی الگوریتم کار معقولانهای به نظر نمیرسد.
خوشبختانه، کتابخانههای موجود در زبانهای برنامهنویسی به شما اجازه میدهند بدون نیاز به اختراع دوباره چرخ، از معروفترین الگوریتمهای یادگیری ماشین استفاده و در زمان صرفهجویی کنید.
بیشک پایتون توسعه یافتهترین زبان در الگوریتمهای یادگیری ماشین و هوش مصنوعی است؛ از همین رو، بسیاری از متخصصان علم داده و هوش مصنوعی آن را به عنوان زبان برنامهنویسی خود انتخاب میکنند.
کتابخانههای پایتون طیف وسیعی از الگوریتمهای یادگیری ماشین را پوشش میدهند. برخی از معروفترین کتابخانههای مرتبط با یادگیری ماشین و هوش مصنوعی در این زبان عبارتند از:
اس کیو ال یک زبان کوئری است. شاید بپرسید چرا یک زبان کوئری در میان زبانهای برنامهنویسی علم داده بیان شده؟ پاسخ واضح است؛ اهمیت بسیار بالا.
کوئری به زبانهایی اطلاق میشود که برای استخراج داده از پایگاه داده استفاده میشوند؛ بنابراین، چنین زبانهایی در انتقال علم داده از تئوری تا عمل تاثیر بسزایی دارند. متخصصان و مهندسان علم داده با زبانهای کوئری آشنایی کامل دارند و اغلب آنها نیز اس کیو ال را انتخاب کردهاند.
با اس کیو ال میتوان روی دادهها کوئری زد و بدین ترتیب دادههای مدنظر را با فیلترهای خاصی استخراج کرد. پیشنهاد میکنیم افرادی که قصد فعالیت در حوزه هوش مصنوعی و ماشین لرنینگ را دارند، حتما در کنار یک زبان برنامهنویسی قدرتمند نظیر پایتون، یک زبان کوئری را نیز فرا گیرند.
متخصصان علم آمار به خوبی با زبان آر آشنایی دارند. این زبان در سالهای اخیر به صورت تخصصی در حوزه آمار و علم داده فعالیت داشته و یکی از محبوبترین زبانهای این حوزه است.
یادگیری زبان R نسبت به زبانهایی نظیر سی آسانتر است و همه فرآیندهای دادهکاوی شامل مدلسازی، پیش پردازش داده، توسعه نرم افزار و ارزیابی در آن قابل انجام است.
برخی از معروفترین کتابخانههای زبان آر عبارتند از:
جاوا یکی از قدرتمندترین و البته قدیمیترین زبانهای برنامهنویسی است. این زبان به صورت تخصصی در حوزه علم داده و یادگیری ماشین فعالیت نمیکند، اما میتوان از آن برای نوشتن الگوریتمهای یادگیری ماشین استفاده کرد.
برنامههایی که به زبان جاوا نوشته میشوند، سرعت اجرای بسیار بالایی دارند و در همه سیستم عاملها نظیر ویندوز، مک و لینوکس قابل اجرا هستند. جاوا اسکریپت نسبت به پایتون سطح پایینتری دارند؛ یعنی به زبان کامپیوتر نزدیکتر است؛ بدیهی است که یادگیری آن نیز دشوارتر خواهد بود.
برخی از معروفترین کتابخانههای جاوا عبارتند از:
زبانهای سی و سی پلاس پلاس از شناخته شدهترین زبانهای برنامهنویسی هستند که استفاده از آنها در حوزههای مختلف برنامهنویسی رایج است.
یادگیری زبان سی نیز مانند جاوا دشوار است و کتابخانههای زیادی در حوزه الگوریتمهای هوش مصنوعی و یادگیری ماشین ندارد. سرعت اجرای برنامههایی که با زبانهای C و C++ نوشته میشود بسیار بالاست؛ اما نوشتن آنها نیز بسیار زمانبر است.
برخی از معروفترین کتابخانههای C++ عبارتند از:
زبان برنامهنویسی متلب یکی از زبانهای محبوب نسل چهار با کاربردهای بسیار گسترده است. با توجه به منبع باز (Open Source) نبودن بسیاری از کتابخانههای این زبان، متلب در حوزه یادگیری ماشین طرفداران چندانی ندارد؛ اما توسط متخصصان علم داده مورد استفاده قرار میگیرد.
حالکه با مبانی علم داده از تئوری تا عمل آشنا شدید، نوبت به آخرین و جذابترین بخش مقاله، یعنی کاربردهای این دانش در دنیای امروز میرسد.
علم داده در حوزههای بسیار گستردهای کاربرد دارد. در این بخش قصد داریم حوزههایی را معرفی کنیم که نفوذ علم داده و هوش مصنوعی به آنها، تحول عظیمی را ایجاد کرده و یا در آینده ایجاد خواهد کرد.
پزشکی و سلامت یکی از بهترین حوزهها برای توسعه علم داده و هوش مصنوعی در راستای بهبود تشخیص و درمان بیماریها است. تحقیقات نشان می دهد عمده تصمیمات پزشکی با اختلال مواجه است و شرایط روانی و موقعیتی پزشک میتواند بر آنها تاثیر بگذارد.
یافتن روشی برای کاهش اشتباهات پزشکی میتواند به میلیونها بیمار در سراسر جهان کمک کند از اشتباهات پزشکی در امان باشند.
جمعآوری داده از تشخیصهای صحیح پیشین و برچسب گذاری اطلاعات میتواند به الگوریتمها کمک کند تا بیماران آینده را با توجه به ویژگیهای بیماران گذشته، با دقت بسیار بالایی شناسایی کنند.
کمااینکه استفاده از رویکرد یادگیری نظارت نشده نیز در حوزه سلامت بسیار رایج است. جمعآوری عکسهای پزشکی نظیر عکس رادیولوژی و قراردادن آن در الگوریتمهای یادگیری عمیق، باعث میشود ویژگیهای مشابه در میان عکسهای مربوط به بیماران شناسایی شود و در نمونههای بعدی مورد بررسی و تشخیص قرار گیرد.
البته کاربردهای علم داده از تئوری تا عمل در حوزه پزشکی، بسیار بیشتر از موارد ذکر شده است. شناسایی تداخل دارویی، تشخیص سلولهای سرطانی، تشخیص زودهنگام بیماری و بسیاری از موارد دیگر از کاربردهای این دانش در حوزه سلامت هستند.
حوزه کسبوکار یکی از جذابترین حوزههای توسعه هوش مصنوعی است. شناخت رفتار و علایق مشتریان به روشهای سنتی در دنیایی که کسبوکارهای آن با هزاران و یا گاهی میلیونها مخاطب سروکار دارند، غیرممکن به نظر میرسد.
امروزه اغلب کسبوکارهای بزرگ علم داده از تئوری تا عمل را به خوبی در سازمان خود پیادهسازی کردهاند تا بتوانند به شکل شایستهتری پاسخگوی نیازهای مشتریان باشند.
ارزیابی علایق مشتریان برای ارائه پیشنهاد خرید، شناخت مشتریان ناراضی ورفتارشناسی مشتری در زمان و نوع خرید محصولات تنها بخشی از کاربردهای گسترده علم داده در حوزه کسبوکار هستند.
یکی از اصلیترین وظایف متخصصان داده، پیاده سازی علم داده از تئوری تا عمل در سیستمهای تولیدی و صنعتی است. علم داده میتواند از خطاهای رایج انسانی در این سیستمها جلوگیری کند و کیفیت محصولات تولیدی را بهبود بخشد.
ارزیابی کیفیت محصول، تشخیص قطعات یا محصولات خراب، پیشبینی احتمال خرابی دستگاه و پیشبینی درصد رضایت مشتریان از محصولات بخشی از کابردهای علم داده در حوزه ساخت و تولید هستند.
احتمالا کاربرد هوش مصنوعی در حوزه نظامی کمتر به مذاقتان خوش بیاید؛ مخصوصا اگر فیلم ترمیناتور را تماشا کرده باشید. متاسفانه یا خوشبختانه، هوش مصنوعی به این حوزه نیز ورود کرده است، اگرچه بعید است تا سالها چیزی شبیه به ترمیناتور را طراحی کند.
ساخت موشکهای نقطهزن با قابلیت شناسایی اشیا یا اشخاص، برنامهریزی هوشمند عملیات، شناسایی نقشههای احتمالی دشمن، پیشبینی تلفات و هزینههای احتمالی درگیری و غیره، بخشی از کابردهای علم داده و هوش مصنوعی در حوزه نظامی هستند.
فعالان بازار مالی سالهاست که رویای حضور هوش مصنوعی در این حوزه را در سر میپرورانند. اگر در این بازارها فعالیت داشتهاید، احتمالا از عدم قطعیت موجود در رفتار قیمت آگاهی دارید. از آنجایی که عموم معاملهگران معیارهای صوری دقیقی برای معاملهگری ندارند و تجربهشان نیز محدود است، همواره باید شدت زیادی از عدم قطعیت را تحمل کنند.
هوش مصنوعی با کمک علم داده میتواند نجات بخش فعالان این حوزه باشد. با توجه به دادههای بسیار گستردهای که از بازارهای مالی در دسترس است؛ نظیر چارتهای قیمتی، رفتار معاملهگران موفق، تاثیر اخبار اقتصادی بر قیمت، روندهای دراز مدت قیمتی و ارزش شناسی نمادهای بازار؛ متخصصان علم داده در حوزه با هیچ گونه کمبود اطلاعاتی روبهرو نیستند.
امروزه از هوش مصنوعی در ساخت رباتهای معاملهگر، تشخیص نمادهای باارزش، شناسایی رفتار آینده قیمت، تاثیر دقیق اخبار اقتصادی بر قیمت و بسیاری دیگر از حوزههای بازار مالی استفاده میشود.
در این مقاله تلاش کردیم مبانی علم داده از تئوری تا عمل را به شما معرفی کنیم. بدیهی است که مطالعه یک مقاله نمیتواند برای آشنایی کامل با یک حوزه کافی باشد. جهت آشنایی بیشتر با دنیای علم داده میتوانید «کتاب علم داده از تئوری تا عمل» نوشته محمد جواد جعفری را مطالعه فرمایید. برای دانلود کتاب علم داده از تئوری تا عمل به اپلیکیشنهای طاقچه یا فیدیبو مراجعه کنید.
علم داده دانشی است که اهمیت آن در دنیای تکنولوژی روز به روز در حال افزایش است. امیدواریم این مقاله برای افرادی که قصد ورود به این حوزه را دارند، راهنمای خوبی باشد.
آکادمی همراه در کنار شماست تا برترین دورههای آموزشی در زمینه تکنولوژیهای نوظهور را در اختیارتان قرار دهد. در همین راستا دوره آموزش مبانی علم داده به صورت کاملا رایگان روی سایت قرار گرفته که هماکنون میتوانید در آن ثبت نام کنید.
از اینکه تا انتهای مقاله همراه ما بودید صمیمانه متشکریم؛ خوشحال میشویم نظرات خود را با ما به اشتراک بگذارید و این مقاله را برای دوستان علاقهمندتان به دنیای تکنولوژی ارسال کنید.
آکادمی همراه اول با هدف تربیت، توسعه و توانمندسازی نیروی انسانی در اکوسیستم دیجیتال در تابستان ۹۹ آغاز به کار کرده است. آکادمی به پشتوانهی تجربهی آموزش و توسعهی نیروی انسانی همراهاول میکوشد نیازهای آموزشی عمومی، تخصصی و شکاف میان تحصیلات آکادمیک و فضای کار را پوشش دهد.