نمونه گیری (آمار)

نمایش تصویری از فرآیند نمونه گیری

در آمار ، تضمین کیفیت و روش بررسی ، نمونه گیری عبارت است از انتخاب یک زیرمجموعه یا یک نمونه آماری ( به اختصار نمونه نامیده می شود) از افراد از درون یک جامعه آماری برای برآورد ویژگی های کل جامعه. این زیرمجموعه برای منعکس کردن کل جامعه است و آماردانان تلاش می کنند نمونه هایی را جمع آوری کنند که نماینده جامعه باشد. نمونه‌گیری در مقایسه با ثبت داده‌های کل جمعیت، هزینه‌های کمتر و جمع‌آوری داده‌های سریع‌تری دارد و بنابراین، در مواردی که اندازه‌گیری کل جمعیت غیرممکن است، می‌تواند بینشی ارائه دهد.

هر مشاهده یک یا چند ویژگی (مانند وزن، مکان، رنگ یا جرم) اشیاء یا افراد مستقل را اندازه گیری می کند. در نمونه‌گیری پیمایشی ، وزن‌هایی را می‌توان به داده‌ها برای تنظیم طرح نمونه اعمال کرد، به‌ویژه در نمونه‌گیری طبقه‌ای . ^[1] نتایج حاصل از نظریه احتمال و نظریه آماری برای هدایت عمل به کار گرفته شده است. در تحقیقات تجاری و پزشکی، نمونه گیری به طور گسترده برای جمع آوری اطلاعات در مورد یک جمعیت استفاده می شود. ^[2] نمونه‌برداری پذیرش برای تعیین اینکه آیا مقدار زیادی از مواد تولیدی با مشخصات حاکم مطابقت دارد یا خیر، استفاده می‌شود .

تاریخچه

نمونه گیری تصادفی با استفاده از تعداد زیادی ایده قدیمی است که چندین بار در کتاب مقدس ذکر شده است. در سال 1786، پیر سیمون لاپلاس، جمعیت فرانسه را با استفاده از یک نمونه، همراه با تخمین‌گر نسبت، تخمین زد . او همچنین برآوردهای احتمالی خطا را محاسبه کرد. این‌ها به‌عنوان فواصل اطمینان مدرن بیان نمی‌شوند ، بلکه به‌عنوان حجم نمونه‌ای که برای دستیابی به یک حد بالایی خاص در خطای نمونه‌گیری با احتمال 1000/1000 مورد نیاز است، بیان می‌شوند. برآوردهای او از قضیه بیز با احتمال قبلی یکنواخت استفاده کرد و فرض کرد که نمونه او تصادفی است. الکساندر ایوانوویچ چوپرو بررسی های نمونه را در دهه 1870 به امپراتوری روسیه معرفی کرد. ^[3]

در ایالات متحده، پیش‌بینی Literary Digest در سال 1936 مبنی بر پیروزی جمهوری‌خواهان در انتخابات ریاست‌جمهوری ، بدلیل تعصب شدید [1] به‌شدت نادرست بود. بیش از دو میلیون نفر با اسامی که از طریق فهرست اشتراک مجلات و دایرکتوری های تلفن به دست آمده بود به این مطالعه پاسخ دادند. قدردانی نمی شد که این لیست ها به شدت نسبت به جمهوری خواهان تعصب داشتند و نمونه حاصل، اگرچه بسیار بزرگ بود، اما عمیقاً ناقص بود. ^[4]^[5]

انتخابات در سنگاپور از زمان انتخابات 2015 این رویه را اتخاذ کرده است که به شمارش نمونه نیز معروف است، در حالی که طبق گفته اداره انتخابات (ELD)، کمیسیون انتخابات کشورشان، شمارش نمونه ها به کاهش حدس و گمان و اطلاعات نادرست کمک می کند و در عین حال به مقامات انتخاباتی کمک می کند تا درمقایسه با نتیجه انتخابات برای آن بخش انتخاباتی. تعداد نمونه های گزارش شده یک نتیجه شاخص نسبتاً دقیق با فاصله اطمینان 95٪ در حاشیه خطا در 4-5٪ ارائه می دهد. ELD به مردم یادآوری کرد که شمارش نمونه ها جدا از نتایج رسمی است و تنها افسر بازگشت کننده پس از اتمام شمارش آرا، نتایج رسمی را اعلام می کند. ^[6]^[7]

تعریف جمعیت

عمل آماری موفق مبتنی بر تعریف مسئله متمرکز است. در نمونه گیری، این شامل تعریف « جامعه » است که نمونه ما از آن استخراج شده است. یک جمعیت را می توان به این صورت تعریف کرد که شامل همه افراد یا مواردی با ویژگی هایی است که فرد مایل به درک آن است. از آنجایی که به ندرت زمان یا پول کافی برای جمع آوری اطلاعات از همه یا همه چیز در یک جمعیت وجود دارد، هدف یافتن یک نمونه (یا زیر مجموعه) نماینده آن جمعیت است.

گاهی اوقات آنچه یک جمعیت را تعریف می کند آشکار است. به عنوان مثال، یک تولید کننده باید تصمیم بگیرد که آیا یک دسته از مواد تولید شده از کیفیت کافی برخوردار است تا در اختیار مشتری قرار گیرد یا باید به دلیل کیفیت پایین از بین برود یا دوباره کار شود. در این مورد، دسته جمعیت است.

اگرچه جمعیت مورد نظر اغلب از اشیاء فیزیکی تشکیل شده است، گاهی اوقات لازم است نمونه برداری در طول زمان، مکان یا ترکیبی از این ابعاد انجام شود. به عنوان مثال، بررسی کارکنان سوپرمارکت می‌تواند طول خط پرداخت را در زمان‌های مختلف بررسی کند، یا مطالعه بر روی پنگوئن‌های در حال انقراض ممکن است به دنبال درک استفاده آنها از مناطق مختلف شکار در طول زمان باشد. برای بعد زمانی، تمرکز ممکن است روی دوره‌ها یا موقعیت‌های مجزا باشد.

در موارد دیگر، «جمعیت» مورد بررسی ممکن است حتی کمتر ملموس باشد. به عنوان مثال، جوزف جگر رفتار چرخ‌های رولت را در یک کازینو در مونت کارلو مطالعه کرد و از آن برای شناسایی یک چرخ مغرضانه استفاده کرد. در این مورد، «جمعیتی» که جگر می‌خواست بررسی کند، رفتار کلی چرخ بود (یعنی توزیع احتمال نتایج آن در آزمایش‌های بی‌نهایت)، در حالی که «نمونه» او از نتایج مشاهده‌شده از آن چرخ تشکیل شد. ملاحظات مشابهی هنگام اندازه گیری مکرر خواص مواد مانند رسانایی الکتریکی مس مطرح می شود .

این وضعیت اغلب هنگام جستجوی دانش در مورد سیستم علت که جمعیت مشاهده شده نتیجه آن است به وجود می آید. در چنین مواردی، نظریه نمونه گیری ممکن است جمعیت مشاهده شده را به عنوان نمونه ای از یک «ابرجمعیت» بزرگتر در نظر بگیرد. برای مثال، یک محقق ممکن است میزان موفقیت یک برنامه جدید «ترک سیگار» را بر روی یک گروه آزمایشی متشکل از 100 بیمار مطالعه کند تا در صورت عرضه در سراسر کشور، تأثیرات برنامه را پیش‌بینی کند. در اینجا ابرجمعیت "همه در کشور هستند که به این درمان دسترسی دارند" - گروهی که هنوز وجود ندارد زیرا این برنامه هنوز برای همه در دسترس نیست.

ممکن است جامعه ای که از آن نمونه گرفته شده است با جامعه ای که از آن اطلاعات مورد نظر است یکسان نباشد. اغلب یک همپوشانی بزرگ اما نه کامل بین این دو گروه به دلیل مشکلات قاب و غیره وجود دارد (به زیر مراجعه کنید). گاهی اوقات ممکن است کاملاً مجزا باشند - برای مثال، ممکن است برای درک بهتر سلامت انسان، موش‌ها را مطالعه کنیم، یا ممکن است سوابق متولدین سال 2008 را مطالعه کنیم تا در مورد متولدین 2009 پیش‌بینی کنیم.

زمان صرف شده برای دقیق ساختن جمعیت نمونه و جمعیت مورد نظر اغلب به خوبی صرف می شود زیرا بسیاری از مسائل، ابهامات و سوالاتی را مطرح می کند که در غیر این صورت در این مرحله نادیده گرفته می شد.

قاب نمونه برداری

در ساده‌ترین حالت، مانند نمونه‌برداری از یک دسته از مواد از تولید (نمونه‌گیری پذیرفته شده توسط تعداد زیادی)، شناسایی و اندازه‌گیری تک تک موارد در جامعه و گنجاندن هر یک از آنها در نمونه ما بسیار مطلوب است. با این حال، در حالت کلی تر، این معمولاً ممکن یا عملی نیست. هیچ راهی برای شناسایی همه موش ها در مجموعه همه موش ها وجود ندارد. در مواردی که رای دادن اجباری نیست، هیچ راهی برای شناسایی افرادی که در انتخابات آینده (قبل از انتخابات) رای خواهند داد، وجود ندارد. این جمعیت‌های نادقیق به هیچ‌یک از روش‌های زیر قابل نمونه‌گیری نیستند و می‌توانیم تئوری آماری را برای آنها اعمال کنیم.

به عنوان یک راه حل، ما به دنبال یک چارچوب نمونه برداری هستیم که این ویژگی را داشته باشد که بتوانیم تک تک عناصر را شناسایی کنیم و هر کدام را در نمونه خود بگنجانیم. ^[8]^[9]^[10]^[11] ساده ترین نوع قاب، فهرستی از عناصر جمعیت (ترجیحاً کل جمعیت) با اطلاعات تماس مناسب است. به عنوان مثال، در یک نظرسنجی ، چارچوب های نمونه ممکن شامل یک ثبت نام انتخابات و یک فهرست تلفن است .

نمونه احتمالی نمونه ای است که در آن هر واحد از جامعه شانس (بیشتر از صفر) انتخاب شدن در نمونه را دارد و این احتمال را می توان به دقت تعیین کرد. ترکیب این صفات با وزن دهی واحدهای نمونه بر اساس احتمال انتخاب آنها، برآوردهای بی طرفانه از کل جمعیت را ممکن می سازد.

مثال: ما می خواهیم کل درآمد بزرگسالانی که در یک خیابان معین زندگی می کنند را تخمین بزنیم. ما از هر خانوار در آن خیابان بازدید می کنیم، همه بزرگسالان ساکن آنجا را شناسایی می کنیم و به طور تصادفی از هر خانواده یک بزرگسال را انتخاب می کنیم. (به عنوان مثال، ما می توانیم به هر فرد یک عدد تصادفی اختصاص دهیم که از توزیع یکنواخت بین 0 و 1 ایجاد می شود و فردی را که بیشترین تعداد را در هر خانوار دارد انتخاب کنیم). سپس با فرد انتخاب شده مصاحبه می کنیم و درآمد آنها را پیدا می کنیم.
افرادی که به تنهایی زندگی می کنند مطمئنا انتخاب می شوند، بنابراین ما به سادگی درآمد آنها را به برآورد خود از کل اضافه می کنیم. اما فردی که در خانواده‌ای با دو بزرگسال زندگی می‌کند، تنها یک در دو شانس انتخاب دارد. برای انعکاس این موضوع، وقتی به چنین خانواده‌ای می‌رسیم، درآمد فرد انتخاب شده را دو برابر کل آن حساب می‌کنیم. (فردی که از آن خانواده انتخاب می‌شود را می‌توان به‌عنوان نماینده فردی که انتخاب نشده است نیز مشاهده کرد .)

در مثال بالا، احتمال انتخاب برای همه یکسان نیست. آنچه آن را به یک نمونه احتمال تبدیل می کند این واقعیت است که احتمال هر فرد مشخص است. هنگامی که هر عنصر در جمعیت دارای احتمال انتخاب یکسانی باشد ، این به عنوان طرح "احتمال انتخاب برابر" (EPS) شناخته می شود. به این گونه طرح‌ها «خود وزنی» نیز گفته می‌شود، زیرا به همه واحدهای نمونه‌برداری شده وزن یکسانی داده می‌شود.

نمونه‌گیری احتمالی شامل: نمونه‌گیری تصادفی ساده ، نمونه‌گیری سیستماتیک ، نمونه‌گیری طبقه‌ای ، نمونه‌گیری احتمال متناسب با اندازه، و نمونه‌گیری خوشه‌ای یا چند مرحله‌ای است . این روش های مختلف نمونه گیری احتمالی دو چیز مشترک دارند:

هر عنصر یک احتمال غیر صفر شناخته شده برای نمونه برداری دارد و
شامل انتخاب تصادفی در نقطه ای است.

نمونه گیری غیر احتمالی

نمونه‌گیری غیراحتمالی به هر روش نمونه‌گیری گفته می‌شود که در آن برخی از عناصر جامعه هیچ شانسی برای انتخاب ندارند (این موارد گاهی اوقات به عنوان "خارج از پوشش"/"پوشیده" نامیده می‌شوند)، یا جایی که احتمال انتخاب را نمی‌توان دقیقاً تعیین کرد. این شامل انتخاب عناصر بر اساس فرضیات مربوط به جمعیت مورد علاقه است که معیارهای انتخاب را تشکیل می دهد. از این رو، از آنجایی که انتخاب عناصر غیرتصادفی است، نمونه گیری غیراحتمالی امکان تخمین خطاهای نمونه گیری را نمی دهد. این شرایط منجر به سوگیری طرد می‌شود و محدودیت‌هایی را در مورد میزان اطلاعاتی که یک نمونه می‌تواند در مورد جامعه ارائه دهد ایجاد می‌کند. اطلاعات در مورد رابطه بین نمونه و جامعه محدود است و برون یابی از نمونه به جامعه را دشوار می کند.

مثال: ما از هر خانه ای در یک خیابان معین بازدید می کنیم و با اولین فردی که در را پاسخ می دهد مصاحبه می کنیم. در هر خانواری که بیش از یک نفر ساکن باشد، این یک نمونه غیراحتمالی است، زیرا برخی افراد به احتمال زیاد در را پاسخ می دهند (مثلاً یک فرد بیکار که بیشتر وقت خود را در خانه می گذراند، نسبت به یک هم خانه شاغل که ممکن است پاسخ دهد، بیشتر پاسخ می دهد. در محل کار وقتی مصاحبه کننده تماس می گیرد) و محاسبه این احتمالات عملی نیست.

روش های نمونه گیری غیراحتمالی شامل نمونه گیری آسان , نمونه گیری سهمیه ای و نمونه گیری هدفمند می باشد . بعلاوه، اثرات عدم پاسخ ممکن است هر طرح احتمالی را به طرحی غیراحتمالی تبدیل کند، در صورتی که ویژگی های عدم پاسخ به خوبی درک نشده باشند، زیرا عدم پاسخ به طور موثر احتمال نمونه برداری هر عنصر را تغییر می دهد.

روش های نمونه گیری

در هر یک از انواع قاب های مشخص شده در بالا، انواع روش های نمونه گیری را می توان به صورت جداگانه یا ترکیبی به کار برد. عواملی که معمولاً بر انتخاب بین این طرح ها تأثیر می گذارند عبارتند از:

ماهیت و کیفیت قاب
در دسترس بودن اطلاعات کمکی در مورد واحدهای روی قاب
الزامات دقت و نیاز به اندازه گیری دقت
اینکه آیا تجزیه و تحلیل دقیق نمونه مورد انتظار است یا خیر
نگرانی های هزینه/عملیاتی

نمونه گیری تصادفی ساده

نمایش تصویری از انتخاب یک نمونه تصادفی ساده

در یک نمونه تصادفی ساده (SRS) با اندازه معین، همه زیرمجموعه های یک قاب نمونه گیری دارای احتمال مساوی برای انتخاب هستند. بنابراین، هر یک از عناصر فریم دارای احتمال یکسانی برای انتخاب است: فریم تقسیم بندی یا پارتیشن بندی نشده است. علاوه بر این، هر جفت معینی از عناصر، شانس انتخابی مشابه هر جفت دیگری از این قبیل (و به طور مشابه برای سه تایی و غیره) دارد. این سوگیری را به حداقل می رساند و تجزیه و تحلیل نتایج را ساده می کند. به طور خاص، واریانس بین نتایج فردی در نمونه، شاخص خوبی از واریانس در کل جامعه است، که تخمین صحت نتایج را نسبتاً آسان می‌کند.

نمونه گیری تصادفی ساده می تواند در برابر خطای نمونه گیری آسیب پذیر باشد زیرا تصادفی بودن انتخاب ممکن است منجر به نمونه ای شود که ترکیب جامعه را منعکس نمی کند. به عنوان مثال، یک نمونه تصادفی ساده از ده نفر از یک کشور معین به طور متوسط پنج مرد و پنج زن ایجاد می کند، اما هر کارآزمایی مشخص احتمالاً بیش از حد یک جنس را نشان می دهد و دیگری را کمتر نشان می دهد. تکنیک‌های سیستماتیک و طبقه‌بندی شده سعی می‌کنند با «استفاده از اطلاعات مربوط به جمعیت» برای انتخاب یک نمونه «نماینده‌تر» بر این مشکل غلبه کنند.

همچنین، نمونه‌گیری تصادفی ساده می‌تواند هنگام نمونه‌گیری از یک جامعه هدف بزرگ، دست و پا گیر و خسته کننده باشد. در برخی موارد، محققین به سؤالات تحقیقی خاص برای زیر گروه های جامعه علاقه مند هستند. به عنوان مثال، محققان ممکن است علاقه مند به بررسی این باشند که آیا توانایی شناختی به عنوان یک پیش بینی کننده عملکرد شغلی به همان اندازه در بین گروه های نژادی قابل استفاده است یا خیر. نمونه‌گیری تصادفی ساده نمی‌تواند پاسخگوی نیاز محققین در این شرایط باشد، زیرا نمونه‌های فرعی از جامعه را ارائه نمی‌کند و به جای آن می‌توان از راهبردهای نمونه‌گیری دیگر مانند نمونه‌گیری طبقه‌ای استفاده کرد.

نمونه گیری سیستماتیک

نمایش تصویری از انتخاب یک نمونه تصادفی با استفاده از روش نمونه گیری سیستماتیک

نمونه‌گیری سیستماتیک (همچنین به عنوان نمونه‌گیری بازه‌ای نیز شناخته می‌شود) بر ترتیب جامعه مورد مطالعه بر اساس برخی از طرح‌های ترتیب‌بندی و سپس انتخاب عناصر در فواصل زمانی منظم از طریق آن فهرست مرتب شده است. نمونه گیری سیستماتیک شامل یک شروع تصادفی است و سپس با انتخاب هر k امین عنصر از آن زمان به بعد ادامه می یابد. در این حالت k =(اندازه جمعیت/اندازه نمونه). مهم است که نقطه شروع به طور خودکار اولین نفر در لیست نباشد، بلکه به طور تصادفی از اولین عنصر تا k امین عنصر در لیست انتخاب شود. یک مثال ساده این است که هر 10 نام را از فهرست تلفن انتخاب کنید (نمونه "هر 10" که به "نمونه برداری با رد 10" نیز گفته می شود).

تا زمانی که نقطه شروع به صورت تصادفی باشد , نمونه گیری سیستماتیک نوعی نمونه گیری احتمالی است . پیاده سازی آن آسان است و طبقه بندی القا شده می تواند آن را کارآمد کند، اگر متغیری که لیست توسط آن مرتب شده است با متغیر مورد علاقه همبستگی داشته باشد. نمونه برداری «هر 10» به ویژه برای نمونه برداری کارآمد از پایگاه داده مفید است .

برای مثال، فرض کنید می‌خواهیم از یک خیابان طولانی که از یک منطقه فقیر (خانه شماره 1) شروع می‌شود و به یک منطقه گران‌قیمت (خانه شماره 1000) ختم می‌شود، نمونه برداری کنیم. یک انتخاب تصادفی ساده از آدرس‌های این خیابان می‌تواند به راحتی به تعداد بسیار زیادی از آدرس‌های سطح بالا و بسیار کم از انتهای پایین (یا برعکس) منجر شود که منجر به نمونه‌ای غیرنماینده شود. انتخاب (مثلاً) هر 10 شماره خیابان در امتداد خیابان تضمین می کند که نمونه به طور یکنواخت در طول خیابان پخش می شود و همه این مناطق را نشان می دهد. (اگر همیشه از خانه #1 شروع و در #991 خاتمه دهیم، نمونه کمی به سمت انتهای پایین سوگیری می کند؛ با انتخاب تصادفی شروع بین #1 و #10، این سوگیری حذف می شود.)

با این حال، نمونه گیری سیستماتیک به ویژه در برابر تناوب در لیست آسیب پذیر است. اگر تناوب وجود داشته باشد و دوره چند برابر یا فاکتوری از فاصله استفاده شده باشد، نمونه احتمالاً نماینده کل جامعه نیست ، و این باعث می شود طرح نسبت به نمونه گیری تصادفی ساده دقت کمتری داشته باشد.

به عنوان مثال، خیابانی را در نظر بگیرید که در آن خانه‌های فرد با شماره‌های فرد همگی در سمت شمال (گران قیمت) و خانه‌های زوج در سمت جنوبی (ارزان) قرار دارند. بر اساس طرح نمونه گیری ارائه شده در بالا، دریافت نمونه نماینده غیرممکن است. یا خانه‌های نمونه‌برداری شده همگی از سمت فرد و گران‌قیمت خواهند بود، یا همگی از سمت زوج و ارزان خواهند بود، مگر اینکه محقق از این سوگیری آگاهی قبلی داشته باشد و با استفاده از یک پرش که پرش را تضمین می‌کند از آن اجتناب کند. بین دو طرف (هر پرش با اعداد فرد).

یکی دیگر از اشکالات نمونه‌گیری سیستماتیک این است که حتی در سناریوهایی که دقیق‌تر از SRS است، ویژگی‌های نظری آن تعیین کمیت این دقت را دشوار می‌کند. (در دو مثال از نمونه گیری سیستماتیک که در بالا آورده شده است، بسیاری از خطاهای نمونه گیری احتمالی به دلیل تغییرات بین خانه های همسایه است - اما از آنجا که این روش هرگز دو خانه همسایه را انتخاب نمی کند، نمونه هیچ اطلاعاتی در مورد آن تغییر به ما نمی دهد.)

همانطور که در بالا توضیح داده شد، نمونه گیری سیستماتیک یک روش EPS است، زیرا احتمال انتخاب همه عناصر یکسان است (در مثال داده شده، یک در ده). این «نمونه‌گیری تصادفی ساده» نیست ، زیرا زیر مجموعه‌های مختلف با اندازه یکسان، احتمال انتخاب متفاوتی دارند - مثلاً مجموعه {4،14،24،...،994} یک در ده احتمال انتخاب دارد، اما مجموعه {4،13،24،34،...} احتمال انتخاب صفر دارد.

نمونه گیری سیستماتیک را می توان با رویکرد غیر EPS نیز تطبیق داد. برای مثال، بحث نمونه های PPS را در زیر ببینید.

نمونه گیری طبقه ای

نمایش تصویری از انتخاب یک نمونه تصادفی با استفاده از روش نمونه‌گیری طبقه‌ای

هنگامی که جمعیت تعدادی از مقوله‌های متمایز را در بر می‌گیرد، چارچوب را می‌توان توسط این دسته‌ها به «اقشار» جداگانه سازمان‌دهی کرد. سپس هر طبقه به عنوان یک زیرجمعیت مستقل نمونه برداری می شود که از بین آن عناصر فردی می توانند به طور تصادفی انتخاب شوند. ^[8] نسبت اندازه این انتخاب تصادفی (یا نمونه) به اندازه جامعه کسر نمونه نامیده می شود . ^[12] چندین مزیت بالقوه برای نمونه گیری طبقه ای وجود دارد. ^[12]

اول، تقسیم جامعه به اقشار مجزا و مستقل می‌تواند محققان را قادر سازد تا در مورد زیرگروه‌های خاصی استنباط کنند که ممکن است در یک نمونه تصادفی تعمیم‌یافته‌تر گم شوند.

دوم، استفاده از روش نمونه‌گیری طبقه‌ای می‌تواند منجر به برآوردهای آماری کارآمدتر شود (به شرطی که اقشار بر اساس ارتباط با معیار مورد نظر، به جای در دسترس بودن نمونه‌ها انتخاب شوند). حتی اگر روش نمونه گیری طبقه ای منجر به افزایش کارایی آماری نشود، چنین تاکتیکی کارایی کمتری نسبت به نمونه گیری تصادفی ساده نخواهد داشت، مشروط بر اینکه هر قشر متناسب با اندازه گروه در جامعه باشد.

ثالثاً، گاهی اوقات پیش می‌آید که داده‌ها برای اقشار فردی و از قبل موجود در یک جمعیت آسان‌تر از کل جمعیت در دسترس هستند. در چنین مواردی، استفاده از روش نمونه‌گیری طبقه‌بندی‌شده ممکن است راحت‌تر از جمع‌آوری داده‌ها در بین گروه‌ها باشد (اگرچه این ممکن است به طور بالقوه در تضاد با اهمیت استفاده از لایه‌های مرتبط با معیار باشد).

در نهایت، از آنجایی که هر قشر به عنوان یک جمعیت مستقل در نظر گرفته می شود، رویکردهای نمونه گیری متفاوتی را می توان برای اقشار مختلف به کار برد، که به طور بالقوه محققان را قادر می سازد تا از بهترین رویکرد (یا مقرون به صرفه ترین) برای هر زیرگروه شناسایی شده در جامعه استفاده کنند.

با این حال، برخی از اشکالات احتمالی در استفاده از نمونه گیری طبقه ای وجود دارد. اول، شناسایی اقشار و اجرای چنین رویکردی می تواند هزینه و پیچیدگی انتخاب نمونه را افزایش دهد و همچنین منجر به افزایش پیچیدگی تخمین جمعیت شود. دوم، هنگام بررسی معیارهای چندگانه، طبقه بندی متغیرها ممکن است به برخی مرتبط باشد، اما نه به برخی دیگر، که طراحی را پیچیده تر می کند، و به طور بالقوه مطلوبیت لایه ها را کاهش می دهد. در نهایت، در برخی موارد (مانند طرح‌هایی با تعداد لایه‌های زیاد، یا طرح‌هایی با حداقل حجم نمونه مشخص در هر گروه)، نمونه‌برداری طبقه‌ای به طور بالقوه می‌تواند به نمونه بزرگ‌تری نسبت به روش‌های دیگر نیاز داشته باشد (اگرچه در بیشتر موارد، حجم نمونه مورد نیاز است. بزرگتر از مقدار مورد نیاز برای نمونه گیری تصادفی ساده نخواهد بود).

روش نمونه گیری طبقه ای زمانی موثرتر است که سه شرط برآورده شود

تنوع در اقشار به حداقل می رسد
تنوع بین اقشار به حداکثر می رسد
متغیرهایی که جامعه بر اساس آنها طبقه بندی شده است، به شدت با متغیر وابسته مورد نظر همبستگی دارند.

مزایا نسبت به سایر روش های نمونه گیری

بر زیرجمعیت های مهم تمرکز می کند و موارد نامربوط را نادیده می گیرد.
امکان استفاده از تکنیک های مختلف نمونه برداری برای زیرجمعیت های مختلف را فراهم می کند.
دقت / کارایی برآورد را بهبود می بخشد.
با نمونه برداری از تعداد مساوی از اقشار با اندازه های بسیار متفاوت، تعادل بیشتر قدرت آماری آزمون های تفاوت بین اقشار را امکان پذیر می کند.

معایب

نیاز به انتخاب متغیرهای طبقه بندی مرتبط دارد که می تواند مشکل باشد.
زمانی که هیچ زیرگروه همگنی وجود ندارد مفید نیست.
پیاده سازی می تواند پرهزینه باشد.

پس قشربندی

طبقه بندی گاهی اوقات پس از مرحله نمونه برداری در فرآیندی به نام «پسلایه بندی» معرفی می شود. ^[8] این رویکرد معمولاً به دلیل عدم آگاهی قبلی از یک متغیر طبقه‌بندی مناسب یا زمانی که آزمایش‌کننده فاقد اطلاعات لازم برای ایجاد متغیر طبقه‌بندی در طول مرحله نمونه‌گیری است، اجرا می‌شود. اگرچه این روش مستعد آسیب‌های رویکردهای post hoc است، اما می‌تواند مزایای متعددی را در موقعیت مناسب ارائه دهد. پیاده سازی معمولاً از یک نمونه تصادفی ساده پیروی می کند. علاوه بر اجازه طبقه بندی بر روی یک متغیر فرعی، پس طبقه بندی می تواند برای اجرای وزن دهی استفاده شود که می تواند دقت تخمین های نمونه را بهبود بخشد. ^[8]

نمونه برداری بیش از حد

نمونه گیری مبتنی بر انتخاب یکی از راهبردهای نمونه گیری طبقه ای است. در نمونه‌گیری مبتنی بر انتخاب، ^[13] داده‌ها بر روی هدف طبقه‌بندی می‌شوند و از هر طبقه نمونه‌ای گرفته می‌شود تا کلاس هدف کمیاب بیشتر در نمونه نمایش داده شود. سپس مدل بر روی این نمونه مغرضانه ساخته می شود . اثرات متغیرهای ورودی روی هدف اغلب با دقت بیشتری با نمونه مبتنی بر انتخاب تخمین زده می‌شود، حتی زمانی که حجم نمونه کوچک‌تری در مقایسه با نمونه تصادفی گرفته می‌شود. نتایج معمولاً باید برای تصحیح نمونه برداری بیش از حد تنظیم شوند.

نمونه گیری احتمال متناسب با اندازه

در برخی موارد، طراح نمونه برای هر عنصر در جامعه به یک «متغیر کمکی» یا «اندازه اندازه» دسترسی دارد که تصور می‌شود با متغیر مورد علاقه مرتبط است. از این داده ها می توان برای بهبود دقت در طراحی نمونه استفاده کرد. یکی از گزینه ها استفاده از متغیر کمکی به عنوان مبنایی برای طبقه بندی است، همانطور که در بالا بحث شد.

گزینه دیگر نمونه گیری احتمال متناسب با اندازه (PPS) است که در آن احتمال انتخاب برای هر عنصر متناسب با اندازه اندازه آن حداکثر تا 1 تنظیم می شود. در یک طراحی ساده PPS، این احتمالات انتخاب می توانند سپس به عنوان مبنایی برای نمونه برداری پواسون استفاده شود . با این حال، این اشکال اندازه نمونه متغیر را دارد، و بخش‌های مختلف جامعه ممکن است به دلیل تنوع شانسی در انتخاب‌ها، همچنان بیش از حد یا کمتر ارائه شوند.

از تئوری نمونه گیری سیستماتیک می توان برای ایجاد یک احتمال متناسب با حجم نمونه استفاده کرد. این کار با در نظر گرفتن هر تعداد در متغیر اندازه به عنوان یک واحد نمونه انجام می شود. سپس نمونه ها با انتخاب در فواصل زوج از بین این تعداد در متغیر اندازه شناسایی می شوند. این روش گاهی اوقات در موارد ممیزی یا نمونه گیری پزشکی قانونی، نمونه برداری پی در پی یا واحد پولی نامیده می شود.

مثال: فرض کنید شش مدرسه با جمعیت های 150، 180، 200، 220، 260 و 490 دانش آموز داریم (مجموع 1500 دانش آموز)، و می خواهیم از جمعیت دانش آموزی به عنوان مبنای نمونه PPS با اندازه سه استفاده کنیم. برای این کار می‌توانیم شماره‌های مدرسه اول 1 تا 150، مدرسه دوم 151 را به 330 (= 150 + 180)، مدرسه سوم 331 را به 530 و به همین ترتیب به آخرین مدرسه (1011 تا 1500) اختصاص دهیم. سپس یک شروع تصادفی بین 1 و 500 (برابر با 1500/3) ایجاد می کنیم و جمعیت مدرسه را مضرب 500 می شماریم. اگر شروع تصادفی ما 137 بود، مدارسی را انتخاب می کنیم که اعداد 137، 637 و 137 به آنها اختصاص داده شده است. 1137 یعنی مدارس اول و چهارم و ششم.

رویکرد PPS می‌تواند دقت را برای اندازه نمونه معین با تمرکز نمونه بر روی عناصر بزرگی که بیشترین تأثیر را بر تخمین جمعیت دارند، بهبود بخشد. نمونه‌گیری PPS معمولاً برای نظرسنجی از مشاغل استفاده می‌شود، جایی که اندازه عنصر بسیار متفاوت است و اطلاعات کمکی اغلب در دسترس است - برای مثال، نظرسنجی که تلاش می‌کند تعداد شب‌های مهمان در هتل‌ها را اندازه‌گیری کند، ممکن است از تعداد اتاق‌های هر هتل به عنوان متغیر کمکی استفاده کند. . در برخی موارد، اندازه‌گیری قدیمی‌تر از متغیر مورد علاقه می‌تواند به عنوان متغیر کمکی هنگام تلاش برای تولید تخمین‌های جاری بیشتر استفاده شود. ^[14]

نمونه گیری خوشه ای

نمایش تصویری از انتخاب یک نمونه تصادفی با استفاده از روش نمونه‌گیری خوشه‌ای

گاهی اوقات انتخاب پاسخ دهندگان در گروه ها ("خوشه ها") مقرون به صرفه تر است. نمونه گیری اغلب بر اساس جغرافیا یا دوره های زمانی خوشه بندی می شود. (تقریباً همه نمونه‌ها از نظر زمانی «خوشه‌بندی» هستند – اگرچه این به ندرت در تجزیه و تحلیل در نظر گرفته می‌شود.) به عنوان مثال، اگر از خانوارهای درون یک شهر بررسی می‌کنیم، ممکن است ۱۰۰ بلوک شهری را انتخاب کنیم و سپس با هر خانوار درون شهری مصاحبه کنیم. بلوک های انتخاب شده

خوشه بندی می تواند هزینه های سفر و اداری را کاهش دهد. در مثال بالا، یک مصاحبه‌کننده می‌تواند برای بازدید از چندین خانوار در یک بلوک، به جای اینکه مجبور باشد برای هر خانوار به یک بلوک متفاوت رانندگی کند، یک سفر انجام دهد.

همچنین به این معنی است که فرد نیازی به یک چارچوب نمونه‌گیری که تمام عناصر در جامعه هدف را فهرست می‌کند، نیست . در عوض، خوشه ها را می توان از یک قاب در سطح خوشه انتخاب کرد، با یک قاب در سطح عنصر فقط برای خوشه های انتخاب شده ایجاد شده است. در مثال بالا، نمونه فقط به یک نقشه شهر در سطح بلوک برای انتخاب های اولیه نیاز دارد، و سپس یک نقشه در سطح خانوار از 100 بلوک انتخاب شده، به جای یک نقشه در سطح خانوار از کل شهر.

نمونه‌گیری خوشه‌ای (همچنین به عنوان نمونه‌گیری خوشه‌ای شناخته می‌شود) معمولاً تنوع تخمین‌های نمونه را بالاتر از نمونه‌گیری تصادفی ساده افزایش می‌دهد، بسته به اینکه چگونه خوشه‌ها بین یکدیگر در مقایسه با تنوع درون خوشه‌ای متفاوت هستند. به همین دلیل، نمونه‌برداری خوشه‌ای به نمونه بزرگ‌تری نسبت به SRS برای دستیابی به همان سطح دقت نیاز دارد - اما صرفه‌جویی در هزینه‌های حاصل از خوشه‌بندی ممکن است همچنان این گزینه را ارزان‌تر کند.

نمونه گیری خوشه ای معمولاً به صورت نمونه گیری چند مرحله ای اجرا می شود . این یک شکل پیچیده از نمونه‌گیری خوشه‌ای است که در آن دو یا چند سطح از واحدها یکی در دیگری تعبیه شده‌اند. مرحله اول شامل ساخت خوشه هایی است که برای نمونه برداری از آنها استفاده می شود. در مرحله دوم، نمونه ای از واحدهای اولیه به طور تصادفی از هر خوشه انتخاب می شود (به جای استفاده از تمام واحدهای موجود در همه خوشه های انتخاب شده). در مراحل بعدی، در هر یک از آن خوشه‌های انتخابی، نمونه‌های اضافی از واحدها انتخاب می‌شوند و به همین ترتیب. تمام واحدهای نهایی (مثلاً افراد) انتخاب شده در آخرین مرحله این روش بررسی می شوند. بنابراین، این تکنیک اساساً فرآیند گرفتن نمونه‌های فرعی تصادفی از نمونه‌های تصادفی قبلی است.

نمونه‌گیری چند مرحله‌ای می‌تواند هزینه‌های نمونه‌گیری را به طور قابل ملاحظه‌ای کاهش دهد، جایی که فهرست کامل جمعیت باید ساخته شود (قبل از اینکه روش‌های نمونه‌گیری دیگر اعمال شود). با حذف کارهای مربوط به توصیف خوشه هایی که انتخاب نشده اند، نمونه گیری چند مرحله ای می تواند هزینه های کلان مرتبط با نمونه گیری خوشه ای سنتی را کاهش دهد. ^[14] با این حال، هر نمونه ممکن است نماینده کامل کل جامعه نباشد.

نمونه گیری سهمیه ای

در نمونه‌گیری سهمیه‌ای ، جامعه ابتدا به گروه‌های فرعی منحصر به فرد تقسیم می‌شود ، درست مانند نمونه‌گیری طبقه‌ای . سپس از قضاوت برای انتخاب موضوعات یا واحدها از هر بخش بر اساس نسبت مشخص استفاده می شود. به عنوان مثال، ممکن است به مصاحبه کننده گفته شود که از 200 زن و 300 مرد بین سنین 45 تا 60 سال نمونه برداری کند.

این مرحله دوم است که تکنیک را به نمونه‌گیری غیراحتمالی تبدیل می‌کند. در نمونه گیری سهمیه ای انتخاب نمونه غیرتصادفی است . برای مثال، ممکن است مصاحبه‌کنندگان وسوسه شوند که با کسانی که مفیدتر به نظر می‌رسند مصاحبه کنند. مشکل این است که این نمونه ها ممکن است مغرضانه باشند زیرا همه شانس انتخاب ندارند. این عنصر تصادفی بزرگترین نقطه ضعف آن است و سهمیه در مقابل احتمال چند سالی است که موضوع بحث و مناقشه بوده است.

نمونه گیری حداقلی

در مجموعه داده های نامتعادل، که نسبت نمونه گیری از آمار جمعیت پیروی نمی کند، می توان مجموعه داده را به شیوه ای محافظه کارانه به نام نمونه برداری حداقلی نمونه برداری کرد . نمونه‌برداری کمینه منشأ آن در نسبت کمینه اندرسون است که مقدار آن 0.5 است: در یک طبقه‌بندی باینری، اندازه‌های نمونه کلاس باید به طور مساوی انتخاب شوند. این نسبت تنها با فرض طبقه‌بندی‌کننده LDA با توزیع‌های گاوسی می‌تواند ثابت شود که نسبت حداقل است. مفهوم نمونه‌برداری حداقلی اخیراً برای یک کلاس کلی از قوانین طبقه‌بندی، به نام طبقه‌بندی‌کننده هوشمند طبقه‌بندی شده است. در این حالت نسبت نمونه گیری طبقات به گونه ای انتخاب می شود که بدترین حالت خطای طبقه بندی کننده نسبت به همه آمار جمعیت ممکن برای احتمالات قبلی کلاس، بهترین باشد. ^[12]

نمونه برداری تصادفی

نمونه‌گیری تصادفی (گاهی اوقات به عنوان نمونه‌گیری با چنگال ، آسان یا فرصت شناخته می‌شود ) نوعی نمونه‌گیری غیراحتمالی است که شامل نمونه‌گیری از بخشی از جامعه است که نزدیک به دست است. یعنی جمعیتی انتخاب می شود زیرا به راحتی در دسترس و راحت است. ممکن است از طریق ملاقات با شخص یا گنجاندن یک فرد در نمونه زمانی که فرد با او ملاقات می کند یا با یافتن آنها از طریق ابزارهای فناوری مانند اینترنت یا تلفن انتخاب می شود. محققی که از چنین نمونه‌ای استفاده می‌کند، نمی‌تواند از نظر علمی کل جامعه را از این نمونه تعمیم دهد، زیرا به اندازه کافی نماینده نیست. به عنوان مثال، اگر قرار باشد مصاحبه‌کننده در یک روز معین صبح زود در یک مرکز خرید چنین نظرسنجی را انجام دهد، افرادی که می‌توانند با آن‌ها مصاحبه کنند محدود به افرادی می‌شوند که در آن زمان معین در آنجا داده می‌شوند، که بیانگر دیدگاه‌های آن‌ها نیست. اگر قرار باشد نظرسنجی در ساعات مختلف شبانه روز و چند بار در هفته انجام شود، سایر افراد جامعه در چنین منطقه ای. این نوع نمونه برداری بیشتر برای آزمایش آزمایشی مفید است. چندین ملاحظات مهم برای محققانی که از نمونه های راحت استفاده می کنند عبارتند از:

آیا در طرح یا آزمایش تحقیق، کنترل‌هایی وجود دارد که می‌تواند تأثیر یک نمونه غیرتصادفی را کاهش دهد و در نتیجه اطمینان حاصل شود که نتایج بیشتر نماینده جامعه خواهد بود؟
آیا دلیل خوبی برای این باور وجود دارد که یک نمونه راحت خاص نسبت به یک نمونه تصادفی از همان جامعه پاسخ یا رفتار متفاوتی داشته باشد یا باید رفتار کند؟
آیا سوال مطرح شده توسط پژوهش سوالی است که بتوان با استفاده از یک نمونه راحت به آن پاسخ مناسب داد؟

در تحقیقات علوم اجتماعی، نمونه برداری از گلوله برفی تکنیک مشابهی است که در آن از افراد مورد مطالعه موجود برای جذب افراد بیشتر در نمونه استفاده می شود. برخی از انواع نمونه‌گیری گلوله برفی، مانند نمونه‌گیری مبتنی بر پاسخ‌دهنده، امکان محاسبه احتمال‌های انتخاب را فراهم می‌کنند و روش‌های نمونه‌گیری احتمالی تحت شرایط خاص هستند.

نمونه گیری داوطلبانه

روش نمونه گیری داوطلبانه نوعی نمونه گیری غیراحتمالی است. داوطلبان برای تکمیل یک نظرسنجی انتخاب می کنند.

داوطلبان ممکن است از طریق تبلیغات در رسانه های اجتماعی دعوت شوند. ^[15] جمعیت هدف برای تبلیغات را می توان با ویژگی هایی مانند مکان، سن، جنس، درآمد، شغل، تحصیلات یا علایق با استفاده از ابزارهای ارائه شده توسط رسانه اجتماعی انتخاب کرد. آگهی ممکن است حاوی پیامی در مورد تحقیق و پیوند به نظرسنجی باشد. پس از دنبال کردن لینک و تکمیل نظرسنجی، داوطلب داده ها را برای گنجاندن در جامعه نمونه ارسال می کند. این روش می‌تواند به جمعیت جهانی برسد، اما با بودجه کمپین محدود شده است. داوطلبان خارج از جمعیت دعوت شده نیز ممکن است در نمونه گنجانده شوند.

تعمیم از این نمونه دشوار است زیرا ممکن است کل جامعه را نشان ندهد. اغلب، داوطلبان علاقه زیادی به موضوع اصلی نظرسنجی دارند.

نمونه برداری از خط

نمونه‌برداری خط فاصله ، روشی برای نمونه‌برداری از عناصر در یک منطقه است که به موجب آن، اگر یک پاره خط انتخاب شده، به نام «ترانسکت»، عنصر را قطع کند، از یک عنصر نمونه‌برداری می‌شود.

نمونه برداری تابلویی

نمونه‌گیری پانل روشی است که ابتدا گروهی از شرکت‌کنندگان را از طریق روش نمونه‌گیری تصادفی انتخاب می‌کند و سپس از آن گروه چندین بار در یک دوره زمانی اطلاعات (به طور بالقوه یکسان) درخواست می‌کند. بنابراین، هر شرکت کننده در دو یا چند نقطه زمانی مصاحبه می شود. هر دوره از جمع آوری داده ها "موج" نامیده می شود. این روش توسط جامعه شناس پل لازارسفلد در سال 1938 به عنوان ابزاری برای مطالعه مبارزات سیاسی ایجاد شد . ^[16] این روش نمونه برداری طولی امکان تخمین تغییرات در جمعیت را فراهم می کند، برای مثال با توجه به بیماری مزمن تا استرس شغلی و هزینه های هفتگی غذا. نمونه‌گیری تابلویی همچنین می‌تواند برای آگاه کردن محققان در مورد تغییرات سلامت درون فرد به دلیل سن یا کمک به توضیح تغییرات در متغیرهای وابسته مستمر مانند تعامل همسر استفاده شود. ^{[17] چندین روش پیشنهادی برای تجزیه و تحلیل}داده‌های تابلویی وجود دارد ، از جمله MANOVA ، منحنی‌های رشد ، و مدل‌سازی معادلات ساختاری با اثرات تاخیر.

نمونه برداری گلوله برفی

نمونه گیری گلوله برفی شامل یافتن گروه کوچکی از پاسخ دهندگان اولیه و استفاده از آنها برای جذب پاسخ دهندگان بیشتر است. این به ویژه در مواردی که جمعیت پنهان است یا شمارش آن دشوار است مفید است.

نمونه گیری نظری

نمونه‌گیری نظری ^[18] زمانی اتفاق می‌افتد که نمونه‌ها بر اساس نتایج داده‌های جمع‌آوری‌شده تاکنون با هدف توسعه درک عمیق‌تر از منطقه یا توسعه نظریه‌ها انتخاب شوند. موارد شدید یا بسیار خاص ممکن است به منظور به حداکثر رساندن احتمال قابل مشاهده بودن یک پدیده انتخاب شوند.

نمونه گیری فعال

در نمونه‌گیری فعال، نمونه‌هایی که برای آموزش الگوریتم یادگیری ماشین استفاده می‌شوند به طور فعال انتخاب می‌شوند، همچنین یادگیری فعال (یادگیری ماشینی) را با هم مقایسه می‌کنند .

انتخاب قضاوتی

نمونه گیری تصادفی

تعویض واحدهای انتخابی

طرح های نمونه برداری ممکن است بدون جایگزینی ("WOR" - هیچ عنصری را نمی توان بیش از یک بار در یک نمونه انتخاب کرد) یا با جایگزینی ("WR" - یک عنصر ممکن است چندین بار در یک نمونه ظاهر شود). به عنوان مثال، اگر ماهی بگیریم، آنها را اندازه گیری کنیم و بلافاصله قبل از ادامه نمونه، آنها را به آب برگردانیم، این یک طرح WR است، زیرا ممکن است در نهایت یک ماهی را بیش از یک بار صید و اندازه گیری کنیم. اما اگر ماهی را به آب یا تگ برنگردانیم و هر ماهی را پس از صید رها کنیم، این یک طرح WOR می شود.

تعیین حجم نمونه

فرمول ها، جداول و نمودارهای تابع توان، روش های شناخته شده ای برای تعیین اندازه نمونه هستند.

مراحل استفاده از جداول اندازه نمونه:

اندازه اثر مورد نظر، α و β را فرض کنید.
جدول اندازه نمونه را بررسی کنید ^[19]
1. جدول مربوط به α انتخاب شده را انتخاب کنید
2. ردیف مربوط به توان مورد نظر را پیدا کنید
3. ستون مربوط به اندازه اثر تخمینی را پیدا کنید.
4. تقاطع ستون و سطر حداقل اندازه نمونه مورد نیاز است.

نمونه گیری و جمع آوری داده ها

جمع آوری داده های خوب شامل موارد زیر است:

پیروی از فرآیند نمونه گیری تعریف شده
نگهداری داده ها به ترتیب زمانی
توجه به نظرات و سایر رویدادهای متنی
ثبت عدم پاسخگویی

کاربردهای نمونه گیری

نمونه گیری امکان انتخاب نقاط داده درست را از درون مجموعه داده های بزرگتر برای تخمین ویژگی های کل جمعیت فراهم می کند. به عنوان مثال، روزانه حدود 600 میلیون توییت تولید می شود. برای تعیین موضوعاتی که در طول روز مورد بحث قرار می گیرد، لازم نیست همه آنها را بررسی کنید و همچنین برای تعیین احساس در مورد هر یک از موضوعات، لازم نیست به همه توییت ها نگاه کنید. یک فرمول نظری برای نمونه‌برداری از داده‌های توییتر ایجاد شده است. ^[20]

در ساخت انواع مختلف داده های حسی مانند آکوستیک، ارتعاش، فشار، جریان، ولتاژ و داده های کنترل کننده در فواصل زمانی کوتاه در دسترس است. برای پیش‌بینی زمان خرابی ممکن است نیازی به بررسی تمام داده‌ها نباشد، اما ممکن است یک نمونه کافی باشد.

خطا در نظرسنجی های نمونه

نتایج نظرسنجی معمولاً در معرض برخی خطاها هستند. کل خطاها را می توان به خطاهای نمونه گیری و خطاهای غیر نمونه گیری طبقه بندی کرد. اصطلاح "خطا" در اینجا شامل سوگیری های سیستماتیک و همچنین خطاهای تصادفی می شود.

خطاهای نمونه گیری و سوگیری ها

خطاها و سوگیری های نمونه گیری توسط طراحی نمونه القا می شوند. آنها عبارتند از:

سوگیری انتخاب : زمانی که احتمالات انتخاب واقعی با احتمالات فرض شده در محاسبه نتایج متفاوت است.
خطای نمونه گیری تصادفی : تغییرات تصادفی در نتایج به دلیل انتخاب تصادفی عناصر موجود در نمونه.

خطای غیر نمونه گیری

خطاهای غیر نمونه گیری خطاهای دیگری هستند که می توانند بر تخمین های نظرسنجی نهایی تأثیر بگذارند که ناشی از مشکلات در جمع آوری داده ها، پردازش یا طراحی نمونه است. چنین خطاهایی ممکن است شامل موارد زیر باشد:

پوشش بیش از حد: شامل داده های خارج از جمعیت
زیرپوشش: چارچوب نمونه گیری شامل عناصر جامعه نمی شود.
خطای اندازه گیری: به عنوان مثال زمانی که پاسخ دهندگان یک سوال را اشتباه می فهمند یا برای پاسخ دادن به آن مشکل دارند
خطای پردازش: اشتباه در کدگذاری داده ها
سوگیری عدم پاسخ یا مشارکت : عدم دریافت اطلاعات کامل از همه افراد انتخاب شده

پس از نمونه‌گیری، فرآیند دقیقی که در نمونه‌گیری دنبال می‌شود، به جای آنچه در نظر گرفته شده است، بررسی می‌شود تا اثراتی که هر گونه واگرایی ممکن است بر تجزیه و تحلیل بعدی داشته باشد، بررسی شود.

یک مشکل خاص شامل عدم پاسخگویی است . دو نوع عمده عدم پاسخ وجود دارد: ^[21]^[22]

عدم پاسخگویی واحد (عدم تکمیل هر بخشی از نظرسنجی)
عدم پاسخگویی مورد (ارسال یا شرکت در نظرسنجی اما عدم تکمیل یک یا چند جزء/سوال نظرسنجی)

در نمونه گیری نظرسنجی ، بسیاری از افرادی که به عنوان بخشی از نمونه شناسایی می شوند، ممکن است تمایلی به شرکت نداشته باشند، زمان شرکت را نداشته باشند ( هزینه فرصت )، ^[23] یا ممکن است مدیران نظرسنجی نتوانند با آنها تماس بگیرند. در این مورد، خطر تفاوت بین پاسخ دهندگان و غیرپاسخ دهندگان وجود دارد که منجر به تخمین های جانبدارانه پارامترهای جمعیت می شود. این اغلب با بهبود طراحی نظرسنجی، ارائه مشوق‌ها، و انجام مطالعات بعدی که تلاش مکرر برای تماس با افراد بی‌پاسخ و مشخص کردن شباهت‌ها و تفاوت‌های آن‌ها با بقیه قاب است، برطرف می‌شود. ^[24] همچنین می‌توان با وزن دادن به داده‌ها (زمانی که معیارهای جمعیتی در دسترس است) یا با قرار دادن داده‌ها بر اساس پاسخ به سؤالات دیگر، تأثیرات را کاهش داد. عدم پاسخگویی به ویژه در نمونه گیری اینترنتی یک مشکل است. دلایل این مشکل ممکن است شامل نظرسنجی‌های طراحی‌شده نامناسب، ^[22] نظرسنجی بیش از حد (یا خستگی نظرسنجی)، ^[17]^[25]^{[ نیاز به نقل قول برای تأیید ]} و این واقعیت است که شرکت‌کنندگان بالقوه ممکن است آدرس‌های ایمیل متعددی داشته باشند. دیگر استفاده نکنید یا به طور منظم چک نکنید.

وزن نظرسنجی

در بسیاری از موقعیت‌ها، کسر نمونه ممکن است بر اساس طبقه‌بندی متفاوت باشد و داده‌ها باید وزن شوند تا به درستی جامعه را نشان دهند. بنابراین برای مثال، یک نمونه تصادفی ساده از افراد در بریتانیا ممکن است شامل برخی از جزایر دورافتاده اسکاتلند نباشد که نمونه برداری از آنها فوق العاده گران است. یک روش ارزان تر، استفاده از نمونه طبقه بندی شده با اقشار شهری و روستایی است. نمونه روستایی می تواند در نمونه کمتر نشان داده شود، اما برای جبران آن در تجزیه و تحلیل به طور مناسب وزن داده می شود.

به طور کلی، اگر طرح نمونه به هر فرد شانس مساوی برای انتخاب شدن ندهد، معمولاً باید وزن داده شود. به عنوان مثال، زمانی که خانوارها احتمال انتخاب برابری دارند اما یک نفر از داخل هر خانوار مصاحبه می شود، این به افراد خانواده های بزرگ شانس کمتری برای مصاحبه می دهد. این را می توان با استفاده از وزن های نظرسنجی به حساب آورد. به طور مشابه، خانوارهایی که بیش از یک خط تلفن دارند شانس بیشتری برای انتخاب شدن در یک نمونه شماره گیری تصادفی رقمی دارند و وزن ها می توانند برای این کار تنظیم شوند.

وزنه ها همچنین می توانند اهداف دیگری مانند کمک به اصلاح عدم پاسخ را داشته باشند.

روش های تولید نمونه های تصادفی

جدول اعداد تصادفی
الگوریتم های ریاضی برای مولد اعداد شبه تصادفی
دستگاه های تصادفی سازی فیزیکی مانند سکه ها، کارت های بازی یا دستگاه های پیچیده ای مانند ERNIE

همچنین ببینید

در ویکی‌انبار رسانه‌های مربوط به نمونه‌گیری (آمار) وجود دارد .

یادداشت ها

کتاب درسی گرووز و همکاران، مروری بر روش شناسی نظرسنجی، از جمله ادبیات اخیر در مورد توسعه پرسشنامه (که توسط روانشناسی شناختی ارائه شده است ) ارائه می دهد:

رابرت گرووز و دیگران روش بررسی (2010 ویرایش دوم [2004]) ISBN 0-471-48348-6 .

کتاب‌های دیگر بر نظریه آماری نمونه‌گیری پیمایشی تمرکز دارند و به دانشی در مورد آمار اولیه نیاز دارند، همانطور که در کتاب‌های درسی زیر بحث شده است:

دیوید اس. مور و جورج پی مک کیب (فوریه 2005). " مقدمه ای بر عمل آمار " (ویرایش پنجم). WH Freeman & Company. ISBN 0-7167-6282-X .
فریدمن، دیوید ؛ پیسانی، رابرت؛ پوروز، راجر (2007). آمار (ویرایش چهارم). نیویورک: نورتون . شابک 978-0-393-92972-0.

کتاب ابتدایی شیفر و همکارانش از معادلات درجه دوم جبر دبیرستانی استفاده می کند:

شیفر، ریچارد ال.، ویلیام مندنهال و آر. لیمن اوت. نمونه گیری پیمایش ابتدایی ، ویرایش پنجم. بلمونت: مطبوعات داکسبری، 1996.

آمار ریاضی بیشتری برای Lohr، Särndal و همکاران، و برای Cochran مورد نیاز است: ^[26]

کوکران، ویلیام جی (1977). تکنیک های نمونه گیری (ویرایش سوم). وایلی. شابک 978-0-471-16240-7.
لوهر، شارون ال (1999). نمونه برداری: طراحی و تجزیه و تحلیل . داکسبری. شابک 978-0-534-35361-2.
سارندال، کارل-اریک ؛ سوئنسون، بنگت؛ ورتمن، جان (1992). نمونه گیری به کمک پیمایش مدل . Springer-Verlag. شابک 978-0-387-40620-6.

کتاب‌های مهم تاریخی دمینگ و کیش برای بینش دانشمندان علوم اجتماعی (به ویژه در مورد سرشماری ایالات متحده و مؤسسه تحقیقات اجتماعی در دانشگاه میشیگان ) ارزشمند هستند:

دمینگ، دبلیو ادواردز (1966). برخی از نظریه های نمونه گیری . انتشارات دوور . شابک 978-0-486-64684-8. OCLC 166526.
کیش، لزلی (1995) نمونه برداری پیمایشی ، ویلی، شابک 0-471-10949-5

مراجع

^ لنس، پی. هاتوری، A. (2016). نمونه گیری و ارزیابی. وب سایت: ارزیابی اندازه گیری. صص 6-8، 62-64.
↑ سالانت، پریسیلا، آی دیلمن و ای. دان. چگونه نظرسنجی خود را انجام دهید . شماره 300.723 S3. 1994.
↑ Seneta, E. (1985). طرحی از تاریخچه نمونه گیری پیمایشی در روسیه. مجله انجمن آمار سلطنتی. سری A (عمومی) . 148 (2): 118-125. doi :10.2307/2981944. JSTOR 2981944.
↑ دیوید اس. مور و جورج پی مک کیب. " مقدمه ای بر عمل آمار ".
^ فریدمن، دیوید ؛ پیسانی، رابرت؛ پوروز، راجر. آمار.
↑ «شماره نمونه - بخش انتخابات سنگاپور» (PDF) . بازبینی شده در 3 سپتامبر 2023 .
↑ هو، تیموتی (1 سپتامبر 2023). "انتخابات ریاست جمهوری 2023: شمارش نمونه امشب چقدر دقیق خواهد بود؟". DollarsAndSense.sg . بازبینی شده در 3 سپتامبر 2023 .
^ abcd Robert M. Groves; و همکاران (2009).روش بررسی. شابک 978-0470465462.
^ لوهر، شارون ال. نمونه برداری: طراحی و تجزیه و تحلیل .
↑ Särndal، Carl-Erik; سوئنسون، بنگت؛ Wretman, Jan. Model Assisted Survey Sampling .
^ شیفر، ریچارد ال. ویلیام مندنهال؛ آر. لیمن اوت. (2006). نمونه گیری پیمایشی ابتدایی .
^ ابج شاهرخ اصفهانی، محمد؛ دوگرتی، ادوارد (2014). "تاثیر نمونه گیری جداگانه بر دقت طبقه بندی". بیوانفورماتیک . 30 (2): 242-250. doi : 10.1093/bioinformatics/btt662 . PMID 24257187.
^ اسکات، ای جی. وایلد، سی جی (1986). «برازش مدل‌های لجستیک تحت نمونه‌گیری مورد شاهدی یا انتخابی». مجله انجمن آمار سلطنتی، سری B. 48 (2): 170-182. doi :10.1111/j.2517-6161.1986.tb01400.x. JSTOR 2345712.
^ ab
- Lohr, Sharon L. Sampling: Design and Analysis .
- سرندال، کارل-اریک؛ سوئنسون، بنگت؛ Wretman, Jan. Model Assisted Survey Sampling .
↑ آریاراتنه، بودیکا (30 ژوئیه 2017). "روش نمونه گیری داوطلبانه همراه با تبلیغات رسانه های اجتماعی". heal-info.blogspot.com . انفورماتیک سلامت . بازبینی شده در 18 دسامبر 2018 .^{[ منبع نامعتبر؟ ]}
↑ لازارسفلد، پی، و فیسک، ام. (1938). "پانل" به عنوان ابزاری جدید برای سنجش عقاید. فصلنامه افکار عمومی، 2 (4)، 596-612.
^ ab Groves، و غیره. روش بررسی
↑ «نمونه‌هایی از روش‌های نمونه‌گیری» (PDF) .
↑ کوهن، 1988
^ دیپان پالگونا؛ ویکاس جوشی; ونکاتسان چاکاراوارتی; راوی کوثری; LV Subramaniam (2015). تجزیه و تحلیل الگوریتم های نمونه برداری برای توییتر . کنفرانس مشترک بین المللی هوش مصنوعی
↑ برینسکی، ای جی (2008). "عدم پاسخگویی نظرسنجی". در: W. Donsbach & MW Traugott (Eds.), The Sage handbook of public opinion research (ص 309-321). هزار اوکس، کالیفرنیا: انتشارات سیج.
^ ab Dillman، DA، Eltinge، JL، Groves، RM، & Little، RJA (2002). "بدون پاسخ نظرسنجی در طراحی، جمع آوری داده ها و تجزیه و تحلیل". در: RM Groves، DA Dillman، JL Eltinge، و RJA Little (ویرایش‌ها)، بررسی بدون پاسخ (ص 3-26). نیویورک: جان وایلی و پسران.
↑ Dillman، DA، Smyth، JD، & Christian، LM (2009). نظرسنجی های اینترنتی، پستی و حالت مختلط: روش طراحی متناسب سانفرانسیسکو: Jossey-Bass.
^ Vehovar, V., Batagelj, Z., Manfreda, KL, & Zaletel, M. (2002). "عدم پاسخگویی در نظرسنجی های اینترنتی". در: RM Groves، DA Dillman، JL Eltinge، & RJA Little (ویرایش‌ها)، بررسی بدون پاسخ (ص 229-242). نیویورک: جان وایلی و پسران.
^ پورتر؛ ویتکامب وایتزر (2004). «نظرسنجی های متعدد از دانش آموزان و خستگی نظرسنجی». در پورتر، استفان آر (ویرایش). غلبه بر مشکلات تحقیق پیمایشی مسیرهای جدید برای تحقیقات نهادی سانفرانسیسکو: Jossey-Bass. صص 63-74. شابک 9780787974770. بازبینی شده در 15 جولای 2019 .
↑ کوکران، ویلیام جی. (01-01-1977). تکنیک های نمونه گیری، ویرایش سوم (ویرایش سوم). نیویورک، نیویورک: جان وایلی و پسران. شابک 978-0-471-16240-7.

در ادامه مطلب

سینگ، جی ان، جیسوال، AK، و پاندی AK (2021)، روش‌های انتساب بهبود یافته برای داده‌های از دست رفته در نمونه‌گیری متوالی دو موردی، ارتباطات در آمار: نظریه و روش‌ها. DOI: 10.1080/03610926.2021.1944211
Chambers, RL, and Skinner, CJ (ویراستاران) (2003), تجزیه و تحلیل داده های نظرسنجی , Wiley, ISBN 0-471-89987-9
دمینگ، دبلیو. ادواردز (1975) درباره احتمال به عنوان مبنایی برای عمل، آماردان آمریکایی ، 29(4)، صفحات 146-152.
Gy, P (2012) نمونه برداری از سیستم های مواد ناهمگن و پویا: نظریه های ناهمگنی، نمونه برداری و همگن سازی ، علم الزویر، ISBN 978-0444556066
Korn, EL, and Graubard, BI (1999) Analysis of Health Surveys , Wiley, ISBN 0-471-13773-1
لوکاس، ساموئل آر (2012). doi :10.1007%2Fs11135-012-9775-3 "فراتر از اثبات وجود: شرایط هستی شناختی، مفاهیم معرفت شناختی، و تحقیق مصاحبه عمیق."]، کیفیت و کمیت ، doi :10.1007/s113.957-11
استوارت، آلن (1962) ایده های اساسی نمونه گیری علمی ، شرکت انتشارات هافنر، نیویورک ^{[ شبکه موجود نیست ]}
اسمیت، TMF (1984). "موقعیت کنونی و تحولات بالقوه: برخی از دیدگاه های شخصی: بررسی های نمونه". مجله انجمن آمار سلطنتی، سری A. 147 (یکصد و پنجاهمین سالگرد انجمن سلطنتی آمار، شماره 2): 208-221. doi :10.2307/2981677. JSTOR 2981677.
اسمیت، TMF (1993). "جمعیت ها و انتخاب: محدودیت های آمار (نشانی ریاست جمهوری)". مجله انجمن آمار سلطنتی، سری A. 156 (2): 144-166. doi :10.2307/2982726. JSTOR 2982726.(پرتره TMF اسمیت در صفحه 144)
اسمیت، TMF (2001). «صدسالگی: نمونه نظرسنجی». بیومتریک . 88 (1): 167-243. doi :10.1093/biomet/88.1.167.
اسمیت، TMF (2001). "صدمین سالگرد بیومتریکا: بررسی های نمونه". در DM Titterington و DR Cox (ویرایش).بیومتریکا : صد سال . انتشارات دانشگاه آکسفورد صص 165-194. شابک 978-0-19-850993-6.
Whittle, P. (مه 1954). "نمونه گیری پیشگیرانه بهینه". مجله انجمن تحقیقات عملیات آمریکا . 2 (2): 197-203. doi :10.1287/opre.2.2.197. JSTOR 166605.

استانداردها

ISO

سری ISO 2859
سری ISO 3951

ASTM

روش استاندارد ASTM E105 برای نمونه برداری احتمالی از مواد
روش استاندارد ASTM E122 برای محاسبه اندازه نمونه برای تخمین، با خطای قابل تحمل مشخص شده، میانگین مشخصه یک مقدار یا فرآیند
روش استاندارد ASTM E141 برای پذیرش شواهد بر اساس نتایج نمونه گیری احتمالی
ASTM E1402 اصطلاحات استاندارد مربوط به نمونه برداری
روش استاندارد ASTM E1994 برای استفاده از طرح‌های نمونه‌برداری AOQL و LTPD فرآیند گرا
روش استاندارد ASTM E2234 برای نمونه برداری از یک جریان محصول بر اساس ویژگی های نمایه شده توسط AQL

ANSI، ASQ

ANSI/ASQ Z1.4

استانداردهای فدرال و نظامی ایالات متحده

MIL-STD-105
MIL-STD-1916

لینک های خارجی

ویکی دانشگاه منابع آموزشی در مورد نمونه گیری دارد (آمار)

رسانه‌های مربوط به نمونه‌گیری (آمار) در ویکی‌مدیا کامانز