ضرایب رگرسیون خطی را تفسیر کنید

آخرین مطالب

امکانات وب

ضرایب رگرسیون خطی را تفسیر کنید

تفسیر دوم حاکی از آن است که دستکاری X منجر به تغییر در Y می شود ، که یک تفسیر علّی از رابطه بین x و y است و بنابراین باید از آن جلوگیری کرد مگر اینکه:

داده های شما از یک طرح آزمایشی تهیه شده است.
شما برای تعصب و اثرات مخدوش شناسایی و کنترل کرده اید.

بیایید سعی کنیم ضرایب رگرسیون خطی را برای مثال زیر تفسیر کنیم:

فرض کنید ما می خواهیم رابطه بین سیگار کشیدن و ضربان قلب را مطالعه کنیم ، بنابراین از مدل رگرسیون خطی استفاده کردیم:

ضربان قلب = β₀ + β₁سیگار کشیدن + ε

جدول زیر نتایج آن مدل را خلاصه می کند:

ضریب	خطای استاندارد	مقدار P
رهگیری کردن	78. 66	0. 84
سیگار کشیدن	2. 94	1. 32	0. 026

اما چگونه می توان بزرگی این رابطه را تفسیر کرد؟

1. اگر سیگار کشیدن یک متغیر باینری است (0: غیر سیگاری ، 1: سیگاری):

سپس β₁= 2. 94 میانگین اختلاف ضربان قلب بین افراد سیگاری و غیر سیگاری خواهد بود.

بنابراین می توانیم بگوییم که طبق مدل ما:

توجه داشته باشید که ما نگفتیم که تبدیل شدن به سیگاری ، ضربان قلب شما را با 2. 94 ضرب در دقیقه افزایش می دهد. این امر به این دلیل است که داده های ما از یک مطالعه مشاهده ای حاصل می شود و مدل ما برای مخدوش تنظیم نمی شود (اگر به این موضوع علاقه دارید ، نمونه ای از شناسایی و تنظیم برای مخدوش را ببینید).

تفسیر خطای استاندارد:

خطای استاندارد (SE) اندازه گیری عدم اطمینان در برآورد ما از ضریب رگرسیون خطی است. برای محاسبه مقدار p و فاصله اطمینان برای ضریب مربوطه مفید است.

از جدول بالا ، ما: SE = 1. 32.

ما می توانیم فاصله اطمینان 95 ٪ را با استفاده از فرمول زیر محاسبه کنیم:

فاصله اطمینان 95 ٪ = β₁2 × SE = 2. 94 ± 2 × 1. 32 = [0. 30 ، 5. 58]

به یاد داشته باشید که فاصله اطمینان 95 ٪ دامنه مقادیری است که 95 ٪ احتمال حاوی مقدار واقعی پارامتر را که ما سعی در تخمین داریم ، دارد.

بنابراین در مورد ما می توانیم نتیجه بگیریم که:

یا به طور غیررسمی می توانیم بگوییم:

تفسیر رهگیری:

رهگیری β₀باید با فرض مقدار 0 برای همه پیش بینی کنندگان در مدل تفسیر شود.

و از آنجا که سیگار کشیدن = 0 به گروه غیر سیگاری ها اشاره دارد ، رهگیری β₀= 78. 66 را می توان به شرح زیر تعبیر کرد:

از طرف دیگر ، می توانیم این را بگوییم:

برای کسب اطلاعات بیشتر در مورد نحوه تفسیر رهگیری در موقعیت های مختلف ، من یک مقاله جداگانه نوشتم: رهگیری رگرسیون خطی را تفسیر کنید.

2. اگر سیگار کشیدن یک متغیر عددی است (استفاده از طول عمر دخانیات در کیلوگرم)

سپس ضریب β₁= 2. 94 را می توان به شرح زیر تعبیر کرد:

یا به همان اندازه ، می توانیم این را بگوییم:

تفسیر ضریب یک متغیر استاندارد:

یک متغیر استاندارد یک متغیر است که دارای میانگین 0 و انحراف استاندارد 1 است. این کار با کم کردن میانگین و تقسیم بر انحراف استاندارد برای هر مقدار متغیر انجام می شود.

در مثال بالا ، اگر سیگار کشیدن یک متغیر استاندارد بود ، رهگیری β₀= 78. 66 را می توان به شرح زیر تعبیر کرد:

با این حال ، ضریب استاندارد سیگار کشیدن β₁= 2. 94 تعبیر شهودی نخواهد داشت:

به همین دلیل ضریب یک متغیر استاندارد به معنای تفسیر به تنهایی نیست.

در حقیقت ، استاندارد سازی عمدتاً هنگامی مورد استفاده قرار می گیرد که بیش از 1 پیش بینی کننده در مدل خود داشته باشید ، هر یک در مقیاس متفاوت اندازه گیری می شود و هدف شما مقایسه تأثیر هر یک بر نتیجه است - پس از استاندارد سازی ، پیش بینی کننده x_iاین بیشترین ضریب را دارد که مهمترین تأثیر آن در نتیجه Y است.

توجه داشته باشید که اگر متغیرهای موجود در مدل دارای انحراف استاندارد مختلف باشند یا توزیع های مختلفی را دنبال کنند ، استاندارد سازی ضرایب رگرسیون قابل مقایسه را ایجاد نمی کند (برای اطلاعات بیشتر ، 2 مقاله من را توصیه می کنم: ضرایب رگرسیون استاندارد در مقابل غیر استاندارد و نحوه ارزیابی اهمیت متغیر در خطی و لجستیکپسرفت).

3. اگر سیگار کشیدن یک متغیر معمولی است (0: غیر سیگاری ، 1: سیگاری سبک ، 2: سیگاری متوسط ، 3: سیگاری سنگین)

طبقه بندی متغیر پیش بینی کننده منجر به از بین رفتن اطلاعات خواهد شد و بنابراین به طور کلی توصیه نمی شود. با این حال ، در بعضی موارد ، وقتی رابطه بین پیش بینی کننده و نتیجه خطی نیست ، منطقی است و با یک تحول متغیر ساده و قابل تفسیر قابل اصلاح نیست.

اگر سیگار کشیدن به چندین دسته مرتب شده تقسیم می شد ، آنگاه β₁= 2. 94 را می توان به شرح زیر تعبیر کرد:

4- اگر سیگار کشیدن یک متغیر طبقه بندی شده با چندین سطح است (0: غیر سیگاری ، 1: سیگاری سیگار ، 2: سیگاری سیگار)

اول توجه کنید که در اینجا ، اعداد 0 ، 1 و 2 نشانگر دسته های بدون هماهنگ سیگار کشیدن هستند و بنابراین شدت آن را نشان نمی دهند و همچنین معقول نیست که برخی از محاسبات را با آنها انجام دهید (مانند گرفتن میانگین آنها).

به طور کلی ، یک متغیر طبقه بندی شده با سطح "N" می تواند تنها پس از تقسیم آن به متغیرهای باینری "N-1" در یک مدل رگرسیون گنجانده شود.

در این حالت ، از 3 دسته سیگار کشیدن برای ایجاد 2 متغیر باینری استفاده می شود که هر کدام دارای ضریب جداگانه β هستند:

متغیر اول سیگاری سیگار به شرح زیر است: "1" اگر فرد سیگاری سیگار باشد و در غیر این صورت "0" (یعنی سیگاری غیر سیگاری یا سیگار).
متغیر دوم سیگاری سیگاری است که به شرح زیر است: "1" اگر فرد سیگاری سیگاری باشد ، و در غیر این صورت "0" (یعنی سیگاری غیر سیگار یا سیگار).
و افراد غیر سیگاری گروه مرجع خواهند بود ، بنابراین به عنوان یک متغیر جداگانه کدگذاری نمی شود (در عوض به طور ضمنی کدگذاری می شود زیرا اگر سیگاری سیگار و سیگاری سیگار هر دو برابر 0 باشد ، پس شخص قطعاً غیر سیگاری است).

مدل می شود:

ضربان قلب = β₀ + β₁سیگاری سیگار + β₂سیگاری سیگاری + ε

β₁با تفاوت میانگین ضربان قلب بین افراد سیگاری و غیر سیگاری (گروه مرجع) مطابقت خواهد داشت.
β₂با تفاوت میانگین ضربان قلب بین افراد سیگاری سیگار و غیر سیگاری (گروه مرجع) مطابقت دارد.

از آنجا که β₁و β₂فقط تأثیر سیگار در مقایسه با سیگار کشیدن و سیگار سیگار را در مقایسه با غیر سیگاری منعکس می کند ، یک سوال مهم بدون جواب مانده است:

تأثیر جهانی سیگار کشیدن بر ضربان قلب چیست؟

اگر تجزیه و تحلیل آماری خود را در R انجام می دهید ، از عملکرد DROP1 استفاده کنید. این آزمایش می کند که اگر متغیر 1 متغیر به طور قابل توجهی بر مدل تأثیر بگذارد ، و این کار را برای هر متغیر در مدل انجام می دهد. خروجی یک ضریب واحد و مقدار P برای هر پیش بینی کننده شامل متغیرهای طبقه بندی خواهد بود ، مهم نیست که چند سطح داشته باشند.

در اینجا کد برای آن وجود دارد:

چه می شود اگر مقدار p برای ضریب β₁از نظر آماری معنی دار نیست؟

مقدار p به سؤال زیر پاسخ می دهد:

اگر در واقعیت پیش بینی کننده (X) و نتیجه (y) مرتبط نبودند ، پس چقدر احتمال دارد ضریب را بدست آورد (β₁) این بزرگ فقط به طور اتفاقی؟

به طور خاص ، مقدار p از آزمایش در صورت β ناشی می شود₁از نظر آماری با 0 متفاوت است.

در بسیاری از موارد ، مانند مثال فوق ، منطقی است که آیا رابطه بین پیش بینی کننده و نتیجه "دقیقاً" صفر است ، زیرا حداقل یک اثر مثبت یا منفی بسیار کوچک بیشتر از صفر دقیق است. اثر

منابع

Gelman A ، Hill J ، Vehtari A. Regression و سایر داستان ها. انتشارات دانشگاه کمبریج؛2021
جیمز G ، Witten D ، Hastie T ، Tibshirani R. مقدمه ای برای یادگیری آماری با برنامه های کاربردی در R. 2021
Falissard B. تجزیه و تحلیل داده های پرسشنامه با نسخه R. 1. چاپمن و هال/CRC ؛2011.

بیشتر خواندن

درمورد من

من جورج چویری ، داروسازی ، MPH هستم ، هدف من کمک به شما در انجام مطالعات ، از مفهوم تا انتشار است.

تجارت با گزینه‌‌های باینری...

ما را در سایت تجارت با گزینه‌‌های باینری دنبال می کنید

برچسب : نویسنده : نازنین فراهانی بازدید : 41 تاريخ : سه شنبه 16 خرداد 1402 ساعت: 16:17

ضرایب رگرسیون خطی را تفسیر کنید

آخرین مطالب

امکانات وب