آزمون F چیست و چطور محاسبه می‌شود؟

وقتی می‌خواهیم بفهمیم آیا دو گروه مختلف از نظر پراکندگی داده‌های شبیه به هم دارند یا نه؟ از آزمون F استفاده می‌کنیم. در واقع این آزمون یک روش کاربردی برای سنجش این تفاوت‌ها با استفاده از یک عدد خاص به نام آماره F است. اگر این عدد از یک حد خاصی که قبلا تعیین کرده‌ایم بزرگ‌تر باشد، نتیجه می‌گیریم که واریانس‌ها متفاوت هستند.

آماره F در تحلیل‌های پیچیده‌تر مانند بررسی روابط بین متغیرها در رگرسیون یا تحلیل‌های تخصصی‌تر مثل تحلیل واریانس پس از تست ANOVA توسط کارشناسان تحلیل داده به کار می‌رود. این انعطاف‌پذیری در کاربردهای آزمون F باعث شده که یکی از ابزارهای کاربردی در تحلیل داده‌ها باشد. با ما همراه باشید تا با نحوه محاسبه آزمون f بیشتر آشنا شویم.

بابک تیمورپور

علوم داده

داده کاوی با پایتون

آزمون F در آمار چیست؟

آزمون F، آزمونی است که روی توزیع F انجام می‌شود. از آزمون F دو سویه برای بررسی اینکه آیا واریانس‌های دو نمونه داده‌ای که داده شده برابر هستند یا خیر، استفاده می‌شود. اما، اگر آزمون F بررسی کند که آیا واریانس یک جامعه بزرگ‌تر یا کوچک‌تر از دیگری است، به آزمون فرضیه یک‌سویه تبدیل می‌شود.

f value چیست؟

آماره F یا F value نسبت دو واریانس است و به افتخار سر رونالد فیشر نامگذاری شده است. واریانس‌ها میزان پراکندگی نقاط داده‌ها در اطراف میانگین را اندازه‌گیری می‌کنند. واریانس‌های بالاتر زمانی رخ می‌دهند که نقاط داده فردی تمایل دارند از میانگین دورتر قرار بگیرند.

به زبان ساده‌تر، تصور کنید که شما می‌خواهید بدانید آیا دو کلاس مختلف دانش‌آموزان در درس ریاضیات از نظر پراکندگی نمراتشان تفاوت دارند یا نه؟ آزمون F به شما کمک می‌کند تا با محاسبه و مقایسه واریانس (پراکندگی) نمرات هر کلاس، تشخیص دهید آیا این دو کلاس واقعا متفاوت هستند. اگر آزمون نشان دهد که واریانس‌ها متفاوت هستند، می‌تواند نشان‌دهنده تفاوت در نمرات باشد. اگر آزمون تنها بررسی کند که آیا واریانس یک کلاس نسبت به کلاس دیگر بزرگ‌تر یا کوچک‌تر است، آنگاه از آزمون فرضیه یک‌سویه استفاده می‌شود.

جدول f test چیست؟

فرض کنید جدول F مانند یک دایره‌المعارف برای آماره‌های F است. هنگامی که پژوهشگران یک آزمون F را انجام می‌دهند و به مقدار F دست پیدا می‌کنند، می‌توانند این مقدار را با مقادیر موجود در جدول F مقایسه کنند تا ببینند آیا نتایج آن‌ها از نظر آماری معنادار هست یا خیر؟

این کار با نگاه کردن به جدول و یافتن مقدار مربوط به درجه‌های آزادی مورد نظر و سطح اطمینان خاص انجام می‌شود. جدول F به آن‌ها این امکان را می‌دهد که بدون نیاز به محاسبات پیچیده یا استفاده از نرم‌افزار به سرعت مقادیر مختلفی را در یک نگاه بررسی کنند.

آزمون F در چه مواردی مورد استفاده قرار می‌گیرد؟

آزمون F ابزار آماری چندمنظوره‌ای است که توسط تحلیلگران داده در زمینه‌های مختلفی مانند اقتصاد، روانشناسی، کسب‌وکار و علوم طبیعی به طور مکرر استفاده می‌شود. در ادامه نحوه استفاده معمول یک تحلیلگر داده از آزمون F در کار خود را آورده‌ایم:

۱. مقایسه واریانس‌ها

اصلی‌ترین کاربرد آزمون F، مقایسه واریانس‌های دو جمعیت داده برای بررسی برابری یا عدم برابری آن‌ها است. این تحلیل زمانی کاربرد زیادی پیدا می‌کند که تحلیلگر بخواهد برابری واریانس‌ها را برای آزمون‌های آماری دیگر مانند آزمون t یا هنگام مقایسه گروه‌ها برای اطمینان از مشابهت در تغییرپذیری‌های آن‌ها استفاده کند.

۲. آنالیز واریانس (ANOVA)

آزمون F جزء لاینفک ANOVA است که برای تعیین وجود تفاوت‌های معنی‌دار آماری بین میانگین‌های سه گروه مستقل یا بیشتر به کار می‌رود. به عنوان مثال، یک تحلیلگر ممکن است از ANOVA برای مقایسه عملکرد کمپین‌های بازاریابی مختلف، فرایندهای تولید متفاوت، یا تفاوت‌های زمان پاسخ‌گویی در کانال‌های مختلف خدمات مشتری استفاده کند.

۳. تحلیل رگرسیون

در تحلیل آماره F رگرسیون چندگانه، آزمون F برای آزمایش اهمیت کلی مدل رگرسیون استفاده می‌شود. این آزمون کمک می‌کند تا مشخص شود آیا حداقل یک متغیر پیش‌بینی‌کننده، تاثیر معناداری بر متغیر وابسته دارد یا خیر.

۴. انتخاب مدل

تحلیلگران داده از آزمون F برای مقایسه دو مدل و تصمیم‌گیری در مورد اینکه کدام مدل داده‌ها را بهتر برازش می‌کند استفاده می‌کنند، ضمن اینکه پیچیدگی مدل را نیز در نظر می‌گیرند. به زبان ساده‌تر، کمک می‌کند در انتخاب بین یک مدل ساده‌تر و یک مدل پیچیده‌تر، اطمینان حاصل شود که پیچیدگی یک مدل بزرگ‌تر توسط افزایش معناداری در عملکرد توجیه می‌شود.

۵. تشخیص

فراتر از آزمایش فرضیه‌ها، آزمون‌های F همچنین می‌توانند به عنوان ابزارهای تشخیصی برای بررسی فرضیات در مدل‌های رگرسیون خطی استفاده شوند، مانند فرض برابری واریانس خطاها (همسان‌پراکندی). اگر واریانس‌ها نابرابر باشند (ناهمسان‌پراکندی)، می‌تواند بر قابلیت اطمینان نتایج رگرسیون تأثیر بگذارد و منجر به تخمین‌های مغرضانه شود.

تحلیلگران داده عمدتاً از ابزارهای نرم‌افزاری مانند R، پایتون (با کتابخانه‌هایی مانند SciPy یا StatsModels)، Excel یا نرم‌افزارهای آماری تخصصی مانند SPSS یا SAS برای انجام این آزمون‌ها استفاده می‌کنند. این ابزارها قادر به کنترل مجموعه‌های داده بزرگ‌تر هستند و نتایج جامع‌تری را فراهم می‌کنند، از جمله محاسبه آماره F، مقادیر p و راهنمایی برای تفسیر، که فرایند تحلیل را ساده‌تر می‌کند.

تکتم خطیبی

هوش مصنوعی

اصول پایگاه داده مقدماتی

بررسی تفاوت بین آزمون t و آزمون f

آزمون F و آزمون T هر دو در آمار برای مقایسه مجموعه داده‌ها استفاده می‌شوند، اما هر کدام برای مقاصد متفاوتی و در سناریوهای مختلفی به کار می‌روند.

هدف از آزمون‌

آزمون F: بیشتر برای مقایسه واریانس‌های دو جمعیت استفاده می‌شود. این آزمون بررسی می‌کند که آیا واریانس‌ها برابر هستند (یک آزمون همگنی واریانس‌ها) یا خیر. این موضوع برای تصمیم‌گیری درباره اینکه آیا می‌توان از سایر آزمون‌هایی که فرض برابری واریانس‌ها دارند، مانند آزمون t، به طور مناسب استفاده کرد، مهم است.

آزمون T: برای مقایسه میانگین دو گروه به منظور تعیین اینکه آیا آن‌ها از نظر آماری با یکدیگر متفاوت هستند استفاده می‌شود. این آزمون برای تعیین اینکه آیا تفاوت‌ در میانگین‌ها احتمالا به صورت تصادفی رخ داده‌اند یا اینکه معنادار هستند، به کار می‌رود.

توزیع زمینه‌ای

آزمون F: بر اساس توزیع F است، که در آن نسبت دو توزیع کای دو مربع است.

آزمون T: بر اساس توزیع t است، که به ویژه زمانی استفاده می‌شود که اندازه نمونه کوچک باشد.

فرضیات

آزمون F: فرض می‌کند که داده‌ها به طور نرمال توزیع شده‌اند. این آزمون نسبت به انحراف از این فرض حساس است.

آزمون T: فرض می‌کند که داده‌ها به طور نرمال توزیع شده‌اند. برای آزمون t دو نمونه‌ای، اغلب فرض می‌شود که واریانس‌ها برابر هستند (همسان‌پراکندی)، اگرچه ورژن‌هایی از آزمون t وجود دارند (مانند آزمون t ولچ) که نیازی به این فرض ندارند.

انواع تحلیل داده‌ها

آزمون F: اغلب به عنوان پیش‌نیاز سایر آزمون‌ها است. به عنوان مثال، قبل از استفاده از آزمون t دو نمونه‌ای، ممکن است آزمون F برای ارزیابی برابری واریانس‌ها بین دو گروه انجام شود. اگر واریانس‌ها به طور معناداری متفاوت باشند، رویکردهای متفاوتی (مانند استفاده از آزمون t با واریانس‌های نابرابر) ممکن است مورد نیاز باشد.

آزمون T: به طور مستقیم میانگین‌ها را مقایسه می‌کند.

کاربرد عملی

آزمون F: به طور معمول در آزمون‌های تجزیه و تحلیل واریانس (ANOVA) استفاده می‌شود، جایی که واریانس‌ها بین چندین گروه مقایسه می‌شوند تا ببینند آیا حداقل یک میانگین نمونه به طور قابل توجهی از دیگران متفاوت است؟

آزمون T: به طور مکرر در سناریوهای ساده‌تر که نیاز به مقایسه عملکرد یا اثر بین دو گروه است، استفاده می‌شود. به عنوان مثال، آزمایش اثر یک روش تدریس جدید بر عملکرد دانش‌آموزان در مقایسه با روش سنتی.

عماد‌الدین فاطمی‌زاده و...

هوش مصنوعی

بوت کمپ پایتون و هوش مصنوعی

مراحل کلی انجام آزمون F

اگر قصد اجرای آزمون F را دارید، بهتر است از Excel، SPSS، Minitab یا هر نوع دیگری از فناوری استفاده کنید. چون محاسبه آزمون F به صورت دستی، خسته‌کننده و زمان‌بر است و ممکن است برخی اشتباهات در طول فرآیند رخ دهد.

اگر آزمون F را با استفاده از این ابزارها اجرا می‌کنید (مثلا آزمون دو نمونه F برای واریانس‌ها در Excel)، تنها مراحلی که واقعا باید انجام دهید، مرحله ۱ و ۴ است (که به فرضیه صفر مربوط می‌شود). ابزارها مراحل ۲ و ۳ را برای شما محاسبه خواهند کرد. اما اگر آزمون را دستی انجام می‌دهید باید مراحل زیر را طی کنید.

۱. فرضیه صفر و فرضیه جایگزین را تعیین کنید.

۲. مقدار F را محاسبه کنید. مقدار F با استفاده از فرمول

F = (SSE1 – SSE2 / m) / SSE2 / n-k

محاسبه می‌شود، که در آن:

SSE = مجموع مربعات باقی‌مانده

m = تعداد محدودیت‌ها

k = تعداد متغیرهای مستقل

۳. آماره F را پیدا کنید. فرمول آماره F عبارت است از:

آماره F = واریانس میانگین گروه‌ها / میانگین واریانس‌های درون گروهی.

می‌توانید آماره F را در جدول F پیدا کنید.

۴. فرضیه صفر را تایید یا رد کنید.

شما ابتدا باید فرضیه‌های خود را مشخص کنید، سپس با استفاده از داده‌ها و فرمول‌های آماری، مقدار F را محاسبه کنید که نشان‌دهنده نسبت واریانس‌ها است. پس از آن، با مقایسه این مقدار با یک مقدار بحرانی در جدول آماری، تصمیم می‌گیرید که آیا شواهد کافی برای رد فرضیه صفر وجود دارد یا خیر. این کار را معمولاً با استفاده از نرم‌افزارهای آماری انجام می‌دهید تا از دقت آن اطمینان حاصل کنید.

آزمون F برای مقایسه دو واریانس

در آزمون F از آماره F برای مقایسه دو واریانس، s1 و s2، با تقسیم آن‌ها استفاده می‌شود. نتیجه همیشه یک عدد مثبت است (زیرا واریانس‌ها همیشه مثبت هستند). فرمول مقایسه دو واریانس با آزمون F به صورت زیر است:

F = s21 / s22

اگر واریانس‌ها برابر باشند، نسبت واریانس‌ها برابر با ۱ خواهد بود. به عنوان مثال، اگر دو داده مجموعه داشته باشید که نمونه ۱ واریانسی برابر با ۱۰ داشته باشد و نمونه ۲ نیز واریانسی برابر با ۱۰، نسبت آن‌ها برابر با ۱۰/۱۰ = ۱ خواهد بود.

هنگام اجرای آزمون F، همیشه فرض می‌شود که واریانس‌های جمعیت برابر هستند. به عبارت دیگر، همیشه فرض می‌شود که واریانس‌ها برابر با ۱ هستند. بنابراین، فرضیه صفر همیشه این است که واریانس‌ها برابر هستند.

فرضیات آزمون f

چندین فرض برای این آزمون وجود دارد. جمعیت شما باید تقریبا به شکل نرمال توزیع شده باشد (Normal distribution) تا بتوانید از این آزمون استفاده کنید. توزیع نرمال، با عنوان منحنی زنگی نیز شناخته می‌شود، به عنوان مثال بیشتر دانش‌آموزان نمره متوسط (C) را کسب می‌کنند، در حالی که تعداد کمتری از دانش‌آموزان نمره B یا D می‌گیرند. درصد حتی کمتری از دانش‌آموزان نمره F یا A را کسب می‌کنند. این وضعیت یک توزیع را ایجاد می‌کند که شبیه به یک زنگ است (از این رو این لقب را گرفته است).

علاوه بر این چند نکته مهم دیگر را باید به خاطر بسپارید:

واریانس بزرگ‌تر همیشه باید در صورت کسر (عدد بالایی) قرار گیرد تا آزمون به یک آزمون دم راست (Right-tailed) تبدیل شود. آزمون‌های دم راست راحت‌تر محاسبه می‌شوند.
برای آزمون‌های دو دم ( two-tailed tests) آلفا را قبل از یافتن مقدار بحرانی راست، باید به دو تقسیم کنید.
اگر انحراف معیار داده شده باشد، باید مربع آن را بگیرید تا واریانس‌ها به دست آیند.
اگر درجه‌های آزادی شما در جدول F ذکر نشده باشد، از مقدار بحرانی بزرگ‌تر استفاده کنید. این کار به جلوگیری از احتمال خطای نوع اول کمک می‌کند.

آزمون F برای مقایسه دو واریانس به صورت دستی

محاسبه آزمون F به صورت دستی واقعاً خسته‌کننده است، به‌خصوص اگر نیاز به محاسبه واریانس‌ها باشد. استفاده از ابزارهایی مانند Excel به مراتب بهتر است. اما برای محاسبه دستی مراحل زیر را پیش بروید.

مرحله ۱: اگر انحراف معیارها داده شده، به مرحله ۲ بروید. اگر واریانس‌هایی برای مقایسه داده شده، به مرحله ۳ بروید.

مرحله ۲: هر دو انحراف معیار را مربع کنید تا واریانس‌ها به دست آیند. به عنوان مثال، اگر σ۱ = 9.۶ و σ۲ = 10.۹ باشد، پس واریانس‌ها (s1 و s2) به ترتیب ۹.۶^۲ = ۹۲.۱۶ و ۱۰.۹^۲ = ۱۱۸.۸۱ خواهند بود.

مرحله ۳: بزرگ‌ترین واریانس را بر کوچک‌ترین واریانس تقسیم کنید تا مقدار f به دست آید. به عنوان مثال، اگر دو واریانس شما s1 = 2.5 و s2 = 9.4 باشد، مقدار f می‌شود: ۹.۴ / ۲.۵ = ۳.۷۶.

توجه کنید که قرار دادن بزرگترین واریانس در بالا باعث می‌شود آزمون F به یک آزمون دم راست تبدیل شود، که محاسبه آن نسبت به آزمون دم چپ بسیار آسان‌تر است.

مرحله ۴: درجه‌های آزادی خود را پیدا کنید. درجه آزادی، اندازه نمونه منهای ۱ است. چون شما دو نمونه دارید (واریانس ۱ و واریانس ۲)، دو درجه آزادی خواهید داشت: یکی برای صورت و دیگری برای مخرج.

مرحله ۵: به مقدار f که در مرحله ۳ محاسبه کردید در جدول f نگاه کنید. توجه داشته باشید که چندین جدول وجود دارد، بنابراین باید جدول درست را برای سطح آلفای خود پیدا کنید.

مرحله ۶: مقدار محاسبه شده خود را (مرحله ۳) با مقدار جدول f (مرحله ۵) مقایسه کنید. اگر مقدار جدول f کوچک‌تر از مقدار محاسبه شده باشد، می‌توانید فرضیه صفر را رد کنید.

آزمون F دو دمی (Two Tailed F-Test)

تفاوت انجام یک آزمون F یک دمی یا دو دمی در این است که سطح آلفا باید برای آزمون‌های F دو دمی نصف شود. به عنوان مثال، به جای کار با α = 0.۰۵، باید از α = 0.۰۲۵ استفاده کنید یا به جای کار با α = 0.۰۱، باید از α = 0.۰۰۵ استفاده کنید.

در آزمون F دو دمی، شما فقط می‌خواهید بدانید که آیا واریانس‌ها با یکدیگر برابر نیستند؟

Ha = σ۲₁ ≠ σ۲₂

مثال مسئله: انجام آزمون F دو دمی بر روی نمونه‌های زیر:

نمونه ۱: واریانس = 109.۶۳، اندازه نمونه = 41.

نمونه ۲: واریانس = 65.۹۹، اندازه نمونه = 21.

مرحله ۱: بیانیه‌های فرضیه خود را بنویسید:

Ho: تفاوتی در واریانس‌ها وجود ندارد.

Ha: تفاوت در واریانس‌ها وجود دارد.

مرحله ۲: مقدار F بحرانی خود را محاسبه کنید. بالاترین واریانس را به عنوان صورت و پایین‌ترین واریانس را به عنوان مخرج قرار دهید:

آماره F = واریانس ۱ / واریانس ۲ = 109.۶۳ / ۶۵.۹۹ = 1.۶۶

مرحله ۳: درجات آزادی را محاسبه کنید:

درجات آزادی در جدول، اندازه نمونه منهای ۱ خواهد بود، پس:

نمونه ۱ دارای ۴۰ درجه آزادی (صورت).

نمونه ۲ دارای ۲۰ درجه آزادی (مخرج).

مرحله ۴: سطح آلفا را انتخاب کنید. آلفای مشخصی در سوال بیان نشده، پس از ۰.۰۵ (استاندارد در آمار) استفاده کنید که باید برای آزمون دو دمی نصف شود، پس از ۰.۰۲۵ استفاده کنید.

مرحله ۵: با استفاده از جدول F، مقدار F بحرانی را پیدا کنید. چندین جدول وجود دارد، حتما به جدول α = .۰۲۵ نگاه کنید. F بحرانی (۴۰,۲۰) در آلفا (۰.۰۲۵) = 2.۲۸۷.

مرحله ۶: مقدار محاسبه شده خود (مرحله ۲) را با مقدار جدول (مرحله ۵) مقایسه کنید. اگر مقدار محاسبه شده بالاتر از مقدار جدول باشد، می‌توانید فرضیه صفر را رد کنید:

مقدار F محاسبه شده: ۱.۶۶

مقدار F از جدول: ۲.۲۸۷.

۱.۶۶ < 2.287.

پس نمی‌توانیم فرضیه صفر را رد کنیم.

آیا مشتاق به آشنایی بیشتر با تحلیل داده هستید؟

آزمون F برای انجام آزمون برابری واریانس‌های دو جمعیت استفاده می‌شود. اگر یک تحلیلگر داده بخواهد بررسی کند که آیا دو نمونه مستقل از یک جمعیت نرمال با تغییرپذیری یکسان جمع‌آوری شده‌اند یا خیر، معمولاً از آزمون F استفاده می‌کند. همچنین، آزمون F برای تعیین اینکه آیا دو برآورد مستقل از واریانس‌های جمعیت از نظر طبیعت همگن هستند یا خیر، استفاده می‌شود. محاسبه آزمون f بصورت دستی کار دشواری است و توصیه می‌شود آزمون f در spss یا ابزارهایی چون اکسل انجام شود.

تحلیل داده‌ها امروزه به یکی از مهارت‌های کلیدی و مورد نیاز سازمان‌ها تبدیل شده است و نقش بنیادینی در توسعه و پیشرفت آن‌ها دارد. از همین رو قدم گذاشتن در مسیر تحلیل داده می‌تواند به شما نوید یک آینده شغلی موفق را بدهد.

اگر دوست دارید به یک کارشناس تحلیلگر داده تبدیل شوید، بهترین فرصت پیش روی شماست. دوره کارشناس تحلیلگر داده ارائه شده توسط آکادمی همراه، به شما یاد می‌دهد که چطور داده‌های خام را به اطلاعات استراتژیک تبدیل کنید. این دوره مهارت‌های لازم برای تجزیه و تحلیل داده‌ها، تبدیل آن‌ها به بینش‌های عملیاتی و به‌کارگیری این داده‌ها برای هدایت تصمیم‌گیری‌های بهینه در سازمان‌ها را به شما می‌دهد.

اگر دوست دارید اطلاعات بیشتری در این باره کسب کنید به صفحه «مسیر یادگیری کارشناس تحلیلگر داده» سر بزنید.

منابع:

آزمون F چیست و چطور محاسبه می‌شود؟

داده کاوی با پایتون

آزمون F در آمار چیست؟

f value چیست؟

جدول f test چیست؟

آزمون F در چه مواردی مورد استفاده قرار می‌گیرد؟

۱. مقایسه واریانس‌ها

۲. آنالیز واریانس (ANOVA)

۳. تحلیل رگرسیون

۴. انتخاب مدل

۵. تشخیص

اصول پایگاه داده مقدماتی

بررسی تفاوت بین آزمون t و آزمون f

هدف از آزمون‌

توزیع زمینه‌ای

فرضیات

انواع تحلیل داده‌ها

کاربرد عملی

بوت کمپ پایتون و هوش مصنوعی

مراحل کلی انجام آزمون F

آزمون F برای مقایسه دو واریانس

فرضیات آزمون f

آزمون F برای مقایسه دو واریانس به صورت دستی

آزمون F دو دمی (Two Tailed F-Test)

آیا مشتاق به آشنایی بیشتر با تحلیل داده هستید؟

دیدگاهتان را بنویسید لغو پاسخ

اسماعیل سحاب

مطالب مرتبط