در آمار ، تضمین کیفیت و روش بررسی ، نمونه گیری عبارت است از انتخاب یک زیرمجموعه یا یک نمونه آماری ( به اختصار نمونه نامیده می شود) از افراد از درون یک جامعه آماری برای برآورد ویژگی های کل جامعه. این زیرمجموعه برای منعکس کردن کل جامعه است و آماردانان تلاش می کنند نمونه هایی را جمع آوری کنند که نماینده جامعه باشد. نمونهگیری در مقایسه با ثبت دادههای کل جمعیت، هزینههای کمتر و جمعآوری دادههای سریعتری دارد و بنابراین، در مواردی که اندازهگیری کل جمعیت غیرممکن است، میتواند بینشی ارائه دهد.
هر مشاهده یک یا چند ویژگی (مانند وزن، مکان، رنگ یا جرم) اشیاء یا افراد مستقل را اندازه گیری می کند. در نمونهگیری پیمایشی ، وزنهایی را میتوان به دادهها برای تنظیم طرح نمونه اعمال کرد، بهویژه در نمونهگیری طبقهای . [1] نتایج حاصل از نظریه احتمال و نظریه آماری برای هدایت عمل به کار گرفته شده است. در تحقیقات تجاری و پزشکی، نمونه گیری به طور گسترده برای جمع آوری اطلاعات در مورد یک جمعیت استفاده می شود. [2] نمونهبرداری پذیرش برای تعیین اینکه آیا مقدار زیادی از مواد تولیدی با مشخصات حاکم مطابقت دارد یا خیر، استفاده میشود .
نمونه گیری تصادفی با استفاده از تعداد زیادی ایده قدیمی است که چندین بار در کتاب مقدس ذکر شده است. در سال 1786، پیر سیمون لاپلاس، جمعیت فرانسه را با استفاده از یک نمونه، همراه با تخمینگر نسبت، تخمین زد . او همچنین برآوردهای احتمالی خطا را محاسبه کرد. اینها بهعنوان فواصل اطمینان مدرن بیان نمیشوند ، بلکه بهعنوان حجم نمونهای که برای دستیابی به یک حد بالایی خاص در خطای نمونهگیری با احتمال 1000/1000 مورد نیاز است، بیان میشوند. برآوردهای او از قضیه بیز با احتمال قبلی یکنواخت استفاده کرد و فرض کرد که نمونه او تصادفی است. الکساندر ایوانوویچ چوپرو بررسی های نمونه را در دهه 1870 به امپراتوری روسیه معرفی کرد. [3]
در ایالات متحده، پیشبینی Literary Digest در سال 1936 مبنی بر پیروزی جمهوریخواهان در انتخابات ریاستجمهوری ، بدلیل تعصب شدید [1] بهشدت نادرست بود. بیش از دو میلیون نفر با اسامی که از طریق فهرست اشتراک مجلات و دایرکتوری های تلفن به دست آمده بود به این مطالعه پاسخ دادند. قدردانی نمی شد که این لیست ها به شدت نسبت به جمهوری خواهان تعصب داشتند و نمونه حاصل، اگرچه بسیار بزرگ بود، اما عمیقاً ناقص بود. [4] [5]
انتخابات در سنگاپور از زمان انتخابات 2015 این رویه را اتخاذ کرده است که به شمارش نمونه نیز معروف است، در حالی که طبق گفته اداره انتخابات (ELD)، کمیسیون انتخابات کشورشان، شمارش نمونه ها به کاهش حدس و گمان و اطلاعات نادرست کمک می کند و در عین حال به مقامات انتخاباتی کمک می کند تا درمقایسه با نتیجه انتخابات برای آن بخش انتخاباتی. تعداد نمونه های گزارش شده یک نتیجه شاخص نسبتاً دقیق با فاصله اطمینان 95٪ در حاشیه خطا در 4-5٪ ارائه می دهد. ELD به مردم یادآوری کرد که شمارش نمونه ها جدا از نتایج رسمی است و تنها افسر بازگشت کننده پس از اتمام شمارش آرا، نتایج رسمی را اعلام می کند. [6] [7]
عمل آماری موفق مبتنی بر تعریف مسئله متمرکز است. در نمونه گیری، این شامل تعریف « جامعه » است که نمونه ما از آن استخراج شده است. یک جمعیت را می توان به این صورت تعریف کرد که شامل همه افراد یا مواردی با ویژگی هایی است که فرد مایل به درک آن است. از آنجایی که به ندرت زمان یا پول کافی برای جمع آوری اطلاعات از همه یا همه چیز در یک جمعیت وجود دارد، هدف یافتن یک نمونه (یا زیر مجموعه) نماینده آن جمعیت است.
گاهی اوقات آنچه یک جمعیت را تعریف می کند آشکار است. به عنوان مثال، یک تولید کننده باید تصمیم بگیرد که آیا یک دسته از مواد تولید شده از کیفیت کافی برخوردار است تا در اختیار مشتری قرار گیرد یا باید به دلیل کیفیت پایین از بین برود یا دوباره کار شود. در این مورد، دسته جمعیت است.
اگرچه جمعیت مورد نظر اغلب از اشیاء فیزیکی تشکیل شده است، گاهی اوقات لازم است نمونه برداری در طول زمان، مکان یا ترکیبی از این ابعاد انجام شود. به عنوان مثال، بررسی کارکنان سوپرمارکت میتواند طول خط پرداخت را در زمانهای مختلف بررسی کند، یا مطالعه بر روی پنگوئنهای در حال انقراض ممکن است به دنبال درک استفاده آنها از مناطق مختلف شکار در طول زمان باشد. برای بعد زمانی، تمرکز ممکن است روی دورهها یا موقعیتهای مجزا باشد.
در موارد دیگر، «جمعیت» مورد بررسی ممکن است حتی کمتر ملموس باشد. به عنوان مثال، جوزف جگر رفتار چرخهای رولت را در یک کازینو در مونت کارلو مطالعه کرد و از آن برای شناسایی یک چرخ مغرضانه استفاده کرد. در این مورد، «جمعیتی» که جگر میخواست بررسی کند، رفتار کلی چرخ بود (یعنی توزیع احتمال نتایج آن در آزمایشهای بینهایت)، در حالی که «نمونه» او از نتایج مشاهدهشده از آن چرخ تشکیل شد. ملاحظات مشابهی هنگام اندازه گیری مکرر خواص مواد مانند رسانایی الکتریکی مس مطرح می شود .
این وضعیت اغلب هنگام جستجوی دانش در مورد سیستم علت که جمعیت مشاهده شده نتیجه آن است به وجود می آید. در چنین مواردی، نظریه نمونه گیری ممکن است جمعیت مشاهده شده را به عنوان نمونه ای از یک «ابرجمعیت» بزرگتر در نظر بگیرد. برای مثال، یک محقق ممکن است میزان موفقیت یک برنامه جدید «ترک سیگار» را بر روی یک گروه آزمایشی متشکل از 100 بیمار مطالعه کند تا در صورت عرضه در سراسر کشور، تأثیرات برنامه را پیشبینی کند. در اینجا ابرجمعیت "همه در کشور هستند که به این درمان دسترسی دارند" - گروهی که هنوز وجود ندارد زیرا این برنامه هنوز برای همه در دسترس نیست.
ممکن است جامعه ای که از آن نمونه گرفته شده است با جامعه ای که از آن اطلاعات مورد نظر است یکسان نباشد. اغلب یک همپوشانی بزرگ اما نه کامل بین این دو گروه به دلیل مشکلات قاب و غیره وجود دارد (به زیر مراجعه کنید). گاهی اوقات ممکن است کاملاً مجزا باشند - برای مثال، ممکن است برای درک بهتر سلامت انسان، موشها را مطالعه کنیم، یا ممکن است سوابق متولدین سال 2008 را مطالعه کنیم تا در مورد متولدین 2009 پیشبینی کنیم.
زمان صرف شده برای دقیق ساختن جمعیت نمونه و جمعیت مورد نظر اغلب به خوبی صرف می شود زیرا بسیاری از مسائل، ابهامات و سوالاتی را مطرح می کند که در غیر این صورت در این مرحله نادیده گرفته می شد.
در سادهترین حالت، مانند نمونهبرداری از یک دسته از مواد از تولید (نمونهگیری پذیرفته شده توسط تعداد زیادی)، شناسایی و اندازهگیری تک تک موارد در جامعه و گنجاندن هر یک از آنها در نمونه ما بسیار مطلوب است. با این حال، در حالت کلی تر، این معمولاً ممکن یا عملی نیست. هیچ راهی برای شناسایی همه موش ها در مجموعه همه موش ها وجود ندارد. در مواردی که رای دادن اجباری نیست، هیچ راهی برای شناسایی افرادی که در انتخابات آینده (قبل از انتخابات) رای خواهند داد، وجود ندارد. این جمعیتهای نادقیق به هیچیک از روشهای زیر قابل نمونهگیری نیستند و میتوانیم تئوری آماری را برای آنها اعمال کنیم.
به عنوان یک راه حل، ما به دنبال یک چارچوب نمونه برداری هستیم که این ویژگی را داشته باشد که بتوانیم تک تک عناصر را شناسایی کنیم و هر کدام را در نمونه خود بگنجانیم. [8] [9] [10] [11] ساده ترین نوع قاب، فهرستی از عناصر جمعیت (ترجیحاً کل جمعیت) با اطلاعات تماس مناسب است. به عنوان مثال، در یک نظرسنجی ، چارچوب های نمونه ممکن شامل یک ثبت نام انتخابات و یک فهرست تلفن است .
نمونه احتمالی نمونه ای است که در آن هر واحد از جامعه شانس (بیشتر از صفر) انتخاب شدن در نمونه را دارد و این احتمال را می توان به دقت تعیین کرد. ترکیب این صفات با وزن دهی واحدهای نمونه بر اساس احتمال انتخاب آنها، برآوردهای بی طرفانه از کل جمعیت را ممکن می سازد.
مثال: ما می خواهیم کل درآمد بزرگسالانی که در یک خیابان معین زندگی می کنند را تخمین بزنیم. ما از هر خانوار در آن خیابان بازدید می کنیم، همه بزرگسالان ساکن آنجا را شناسایی می کنیم و به طور تصادفی از هر خانواده یک بزرگسال را انتخاب می کنیم. (به عنوان مثال، ما می توانیم به هر فرد یک عدد تصادفی اختصاص دهیم که از توزیع یکنواخت بین 0 و 1 ایجاد می شود و فردی را که بیشترین تعداد را در هر خانوار دارد انتخاب کنیم). سپس با فرد انتخاب شده مصاحبه می کنیم و درآمد آنها را پیدا می کنیم.
افرادی که به تنهایی زندگی می کنند مطمئنا انتخاب می شوند، بنابراین ما به سادگی درآمد آنها را به برآورد خود از کل اضافه می کنیم. اما فردی که در خانوادهای با دو بزرگسال زندگی میکند، تنها یک در دو شانس انتخاب دارد. برای انعکاس این موضوع، وقتی به چنین خانوادهای میرسیم، درآمد فرد انتخاب شده را دو برابر کل آن حساب میکنیم. (فردی که از آن خانواده انتخاب میشود را میتوان بهعنوان نماینده فردی که انتخاب نشده است نیز مشاهده کرد .)
در مثال بالا، احتمال انتخاب برای همه یکسان نیست. آنچه آن را به یک نمونه احتمال تبدیل می کند این واقعیت است که احتمال هر فرد مشخص است. هنگامی که هر عنصر در جمعیت دارای احتمال انتخاب یکسانی باشد ، این به عنوان طرح "احتمال انتخاب برابر" (EPS) شناخته می شود. به این گونه طرحها «خود وزنی» نیز گفته میشود، زیرا به همه واحدهای نمونهبرداری شده وزن یکسانی داده میشود.
نمونهگیری احتمالی شامل: نمونهگیری تصادفی ساده ، نمونهگیری سیستماتیک ، نمونهگیری طبقهای ، نمونهگیری احتمال متناسب با اندازه، و نمونهگیری خوشهای یا چند مرحلهای است . این روش های مختلف نمونه گیری احتمالی دو چیز مشترک دارند:
نمونهگیری غیراحتمالی به هر روش نمونهگیری گفته میشود که در آن برخی از عناصر جامعه هیچ شانسی برای انتخاب ندارند (این موارد گاهی اوقات به عنوان "خارج از پوشش"/"پوشیده" نامیده میشوند)، یا جایی که احتمال انتخاب را نمیتوان دقیقاً تعیین کرد. این شامل انتخاب عناصر بر اساس فرضیات مربوط به جمعیت مورد علاقه است که معیارهای انتخاب را تشکیل می دهد. از این رو، از آنجایی که انتخاب عناصر غیرتصادفی است، نمونه گیری غیراحتمالی امکان تخمین خطاهای نمونه گیری را نمی دهد. این شرایط منجر به سوگیری طرد میشود و محدودیتهایی را در مورد میزان اطلاعاتی که یک نمونه میتواند در مورد جامعه ارائه دهد ایجاد میکند. اطلاعات در مورد رابطه بین نمونه و جامعه محدود است و برون یابی از نمونه به جامعه را دشوار می کند.
مثال: ما از هر خانه ای در یک خیابان معین بازدید می کنیم و با اولین فردی که در را پاسخ می دهد مصاحبه می کنیم. در هر خانواری که بیش از یک نفر ساکن باشد، این یک نمونه غیراحتمالی است، زیرا برخی افراد به احتمال زیاد در را پاسخ می دهند (مثلاً یک فرد بیکار که بیشتر وقت خود را در خانه می گذراند، نسبت به یک هم خانه شاغل که ممکن است پاسخ دهد، بیشتر پاسخ می دهد. در محل کار وقتی مصاحبه کننده تماس می گیرد) و محاسبه این احتمالات عملی نیست.
روش های نمونه گیری غیراحتمالی شامل نمونه گیری آسان , نمونه گیری سهمیه ای و نمونه گیری هدفمند می باشد . بعلاوه، اثرات عدم پاسخ ممکن است هر طرح احتمالی را به طرحی غیراحتمالی تبدیل کند، در صورتی که ویژگی های عدم پاسخ به خوبی درک نشده باشند، زیرا عدم پاسخ به طور موثر احتمال نمونه برداری هر عنصر را تغییر می دهد.
در هر یک از انواع قاب های مشخص شده در بالا، انواع روش های نمونه گیری را می توان به صورت جداگانه یا ترکیبی به کار برد. عواملی که معمولاً بر انتخاب بین این طرح ها تأثیر می گذارند عبارتند از:
در یک نمونه تصادفی ساده (SRS) با اندازه معین، همه زیرمجموعه های یک قاب نمونه گیری دارای احتمال مساوی برای انتخاب هستند. بنابراین، هر یک از عناصر فریم دارای احتمال یکسانی برای انتخاب است: فریم تقسیم بندی یا پارتیشن بندی نشده است. علاوه بر این، هر جفت معینی از عناصر، شانس انتخابی مشابه هر جفت دیگری از این قبیل (و به طور مشابه برای سه تایی و غیره) دارد. این سوگیری را به حداقل می رساند و تجزیه و تحلیل نتایج را ساده می کند. به طور خاص، واریانس بین نتایج فردی در نمونه، شاخص خوبی از واریانس در کل جامعه است، که تخمین صحت نتایج را نسبتاً آسان میکند.
نمونه گیری تصادفی ساده می تواند در برابر خطای نمونه گیری آسیب پذیر باشد زیرا تصادفی بودن انتخاب ممکن است منجر به نمونه ای شود که ترکیب جامعه را منعکس نمی کند. به عنوان مثال، یک نمونه تصادفی ساده از ده نفر از یک کشور معین به طور متوسط پنج مرد و پنج زن ایجاد می کند، اما هر کارآزمایی مشخص احتمالاً بیش از حد یک جنس را نشان می دهد و دیگری را کمتر نشان می دهد. تکنیکهای سیستماتیک و طبقهبندی شده سعی میکنند با «استفاده از اطلاعات مربوط به جمعیت» برای انتخاب یک نمونه «نمایندهتر» بر این مشکل غلبه کنند.
همچنین، نمونهگیری تصادفی ساده میتواند هنگام نمونهگیری از یک جامعه هدف بزرگ، دست و پا گیر و خسته کننده باشد. در برخی موارد، محققین به سؤالات تحقیقی خاص برای زیر گروه های جامعه علاقه مند هستند. به عنوان مثال، محققان ممکن است علاقه مند به بررسی این باشند که آیا توانایی شناختی به عنوان یک پیش بینی کننده عملکرد شغلی به همان اندازه در بین گروه های نژادی قابل استفاده است یا خیر. نمونهگیری تصادفی ساده نمیتواند پاسخگوی نیاز محققین در این شرایط باشد، زیرا نمونههای فرعی از جامعه را ارائه نمیکند و به جای آن میتوان از راهبردهای نمونهگیری دیگر مانند نمونهگیری طبقهای استفاده کرد.
نمونهگیری سیستماتیک (همچنین به عنوان نمونهگیری بازهای نیز شناخته میشود) بر ترتیب جامعه مورد مطالعه بر اساس برخی از طرحهای ترتیببندی و سپس انتخاب عناصر در فواصل زمانی منظم از طریق آن فهرست مرتب شده است. نمونه گیری سیستماتیک شامل یک شروع تصادفی است و سپس با انتخاب هر k امین عنصر از آن زمان به بعد ادامه می یابد. در این حالت k =(اندازه جمعیت/اندازه نمونه). مهم است که نقطه شروع به طور خودکار اولین نفر در لیست نباشد، بلکه به طور تصادفی از اولین عنصر تا k امین عنصر در لیست انتخاب شود. یک مثال ساده این است که هر 10 نام را از فهرست تلفن انتخاب کنید (نمونه "هر 10" که به "نمونه برداری با رد 10" نیز گفته می شود).
تا زمانی که نقطه شروع به صورت تصادفی باشد , نمونه گیری سیستماتیک نوعی نمونه گیری احتمالی است . پیاده سازی آن آسان است و طبقه بندی القا شده می تواند آن را کارآمد کند، اگر متغیری که لیست توسط آن مرتب شده است با متغیر مورد علاقه همبستگی داشته باشد. نمونه برداری «هر 10» به ویژه برای نمونه برداری کارآمد از پایگاه داده مفید است .
برای مثال، فرض کنید میخواهیم از یک خیابان طولانی که از یک منطقه فقیر (خانه شماره 1) شروع میشود و به یک منطقه گرانقیمت (خانه شماره 1000) ختم میشود، نمونه برداری کنیم. یک انتخاب تصادفی ساده از آدرسهای این خیابان میتواند به راحتی به تعداد بسیار زیادی از آدرسهای سطح بالا و بسیار کم از انتهای پایین (یا برعکس) منجر شود که منجر به نمونهای غیرنماینده شود. انتخاب (مثلاً) هر 10 شماره خیابان در امتداد خیابان تضمین می کند که نمونه به طور یکنواخت در طول خیابان پخش می شود و همه این مناطق را نشان می دهد. (اگر همیشه از خانه #1 شروع و در #991 خاتمه دهیم، نمونه کمی به سمت انتهای پایین سوگیری می کند؛ با انتخاب تصادفی شروع بین #1 و #10، این سوگیری حذف می شود.)
با این حال، نمونه گیری سیستماتیک به ویژه در برابر تناوب در لیست آسیب پذیر است. اگر تناوب وجود داشته باشد و دوره چند برابر یا فاکتوری از فاصله استفاده شده باشد، نمونه احتمالاً نماینده کل جامعه نیست ، و این باعث می شود طرح نسبت به نمونه گیری تصادفی ساده دقت کمتری داشته باشد.
به عنوان مثال، خیابانی را در نظر بگیرید که در آن خانههای فرد با شمارههای فرد همگی در سمت شمال (گران قیمت) و خانههای زوج در سمت جنوبی (ارزان) قرار دارند. بر اساس طرح نمونه گیری ارائه شده در بالا، دریافت نمونه نماینده غیرممکن است. یا خانههای نمونهبرداری شده همگی از سمت فرد و گرانقیمت خواهند بود، یا همگی از سمت زوج و ارزان خواهند بود، مگر اینکه محقق از این سوگیری آگاهی قبلی داشته باشد و با استفاده از یک پرش که پرش را تضمین میکند از آن اجتناب کند. بین دو طرف (هر پرش با اعداد فرد).
یکی دیگر از اشکالات نمونهگیری سیستماتیک این است که حتی در سناریوهایی که دقیقتر از SRS است، ویژگیهای نظری آن تعیین کمیت این دقت را دشوار میکند. (در دو مثال از نمونه گیری سیستماتیک که در بالا آورده شده است، بسیاری از خطاهای نمونه گیری احتمالی به دلیل تغییرات بین خانه های همسایه است - اما از آنجا که این روش هرگز دو خانه همسایه را انتخاب نمی کند، نمونه هیچ اطلاعاتی در مورد آن تغییر به ما نمی دهد.)
همانطور که در بالا توضیح داده شد، نمونه گیری سیستماتیک یک روش EPS است، زیرا احتمال انتخاب همه عناصر یکسان است (در مثال داده شده، یک در ده). این «نمونهگیری تصادفی ساده» نیست ، زیرا زیر مجموعههای مختلف با اندازه یکسان، احتمال انتخاب متفاوتی دارند - مثلاً مجموعه {4،14،24،...،994} یک در ده احتمال انتخاب دارد، اما مجموعه {4،13،24،34،...} احتمال انتخاب صفر دارد.
نمونه گیری سیستماتیک را می توان با رویکرد غیر EPS نیز تطبیق داد. برای مثال، بحث نمونه های PPS را در زیر ببینید.
هنگامی که جمعیت تعدادی از مقولههای متمایز را در بر میگیرد، چارچوب را میتوان توسط این دستهها به «اقشار» جداگانه سازماندهی کرد. سپس هر طبقه به عنوان یک زیرجمعیت مستقل نمونه برداری می شود که از بین آن عناصر فردی می توانند به طور تصادفی انتخاب شوند. [8] نسبت اندازه این انتخاب تصادفی (یا نمونه) به اندازه جامعه کسر نمونه نامیده می شود . [12] چندین مزیت بالقوه برای نمونه گیری طبقه ای وجود دارد. [12]
اول، تقسیم جامعه به اقشار مجزا و مستقل میتواند محققان را قادر سازد تا در مورد زیرگروههای خاصی استنباط کنند که ممکن است در یک نمونه تصادفی تعمیمیافتهتر گم شوند.
دوم، استفاده از روش نمونهگیری طبقهای میتواند منجر به برآوردهای آماری کارآمدتر شود (به شرطی که اقشار بر اساس ارتباط با معیار مورد نظر، به جای در دسترس بودن نمونهها انتخاب شوند). حتی اگر روش نمونه گیری طبقه ای منجر به افزایش کارایی آماری نشود، چنین تاکتیکی کارایی کمتری نسبت به نمونه گیری تصادفی ساده نخواهد داشت، مشروط بر اینکه هر قشر متناسب با اندازه گروه در جامعه باشد.
ثالثاً، گاهی اوقات پیش میآید که دادهها برای اقشار فردی و از قبل موجود در یک جمعیت آسانتر از کل جمعیت در دسترس هستند. در چنین مواردی، استفاده از روش نمونهگیری طبقهبندیشده ممکن است راحتتر از جمعآوری دادهها در بین گروهها باشد (اگرچه این ممکن است به طور بالقوه در تضاد با اهمیت استفاده از لایههای مرتبط با معیار باشد).
در نهایت، از آنجایی که هر قشر به عنوان یک جمعیت مستقل در نظر گرفته می شود، رویکردهای نمونه گیری متفاوتی را می توان برای اقشار مختلف به کار برد، که به طور بالقوه محققان را قادر می سازد تا از بهترین رویکرد (یا مقرون به صرفه ترین) برای هر زیرگروه شناسایی شده در جامعه استفاده کنند.
با این حال، برخی از اشکالات احتمالی در استفاده از نمونه گیری طبقه ای وجود دارد. اول، شناسایی اقشار و اجرای چنین رویکردی می تواند هزینه و پیچیدگی انتخاب نمونه را افزایش دهد و همچنین منجر به افزایش پیچیدگی تخمین جمعیت شود. دوم، هنگام بررسی معیارهای چندگانه، طبقه بندی متغیرها ممکن است به برخی مرتبط باشد، اما نه به برخی دیگر، که طراحی را پیچیده تر می کند، و به طور بالقوه مطلوبیت لایه ها را کاهش می دهد. در نهایت، در برخی موارد (مانند طرحهایی با تعداد لایههای زیاد، یا طرحهایی با حداقل حجم نمونه مشخص در هر گروه)، نمونهبرداری طبقهای به طور بالقوه میتواند به نمونه بزرگتری نسبت به روشهای دیگر نیاز داشته باشد (اگرچه در بیشتر موارد، حجم نمونه مورد نیاز است. بزرگتر از مقدار مورد نیاز برای نمونه گیری تصادفی ساده نخواهد بود).
طبقه بندی گاهی اوقات پس از مرحله نمونه برداری در فرآیندی به نام «پسلایه بندی» معرفی می شود. [8] این رویکرد معمولاً به دلیل عدم آگاهی قبلی از یک متغیر طبقهبندی مناسب یا زمانی که آزمایشکننده فاقد اطلاعات لازم برای ایجاد متغیر طبقهبندی در طول مرحله نمونهگیری است، اجرا میشود. اگرچه این روش مستعد آسیبهای رویکردهای post hoc است، اما میتواند مزایای متعددی را در موقعیت مناسب ارائه دهد. پیاده سازی معمولاً از یک نمونه تصادفی ساده پیروی می کند. علاوه بر اجازه طبقه بندی بر روی یک متغیر فرعی، پس طبقه بندی می تواند برای اجرای وزن دهی استفاده شود که می تواند دقت تخمین های نمونه را بهبود بخشد. [8]
نمونه گیری مبتنی بر انتخاب یکی از راهبردهای نمونه گیری طبقه ای است. در نمونهگیری مبتنی بر انتخاب، [13] دادهها بر روی هدف طبقهبندی میشوند و از هر طبقه نمونهای گرفته میشود تا کلاس هدف کمیاب بیشتر در نمونه نمایش داده شود. سپس مدل بر روی این نمونه مغرضانه ساخته می شود . اثرات متغیرهای ورودی روی هدف اغلب با دقت بیشتری با نمونه مبتنی بر انتخاب تخمین زده میشود، حتی زمانی که حجم نمونه کوچکتری در مقایسه با نمونه تصادفی گرفته میشود. نتایج معمولاً باید برای تصحیح نمونه برداری بیش از حد تنظیم شوند.
در برخی موارد، طراح نمونه برای هر عنصر در جامعه به یک «متغیر کمکی» یا «اندازه اندازه» دسترسی دارد که تصور میشود با متغیر مورد علاقه مرتبط است. از این داده ها می توان برای بهبود دقت در طراحی نمونه استفاده کرد. یکی از گزینه ها استفاده از متغیر کمکی به عنوان مبنایی برای طبقه بندی است، همانطور که در بالا بحث شد.
گزینه دیگر نمونه گیری احتمال متناسب با اندازه (PPS) است که در آن احتمال انتخاب برای هر عنصر متناسب با اندازه اندازه آن حداکثر تا 1 تنظیم می شود. در یک طراحی ساده PPS، این احتمالات انتخاب می توانند سپس به عنوان مبنایی برای نمونه برداری پواسون استفاده شود . با این حال، این اشکال اندازه نمونه متغیر را دارد، و بخشهای مختلف جامعه ممکن است به دلیل تنوع شانسی در انتخابها، همچنان بیش از حد یا کمتر ارائه شوند.
از تئوری نمونه گیری سیستماتیک می توان برای ایجاد یک احتمال متناسب با حجم نمونه استفاده کرد. این کار با در نظر گرفتن هر تعداد در متغیر اندازه به عنوان یک واحد نمونه انجام می شود. سپس نمونه ها با انتخاب در فواصل زوج از بین این تعداد در متغیر اندازه شناسایی می شوند. این روش گاهی اوقات در موارد ممیزی یا نمونه گیری پزشکی قانونی، نمونه برداری پی در پی یا واحد پولی نامیده می شود.
مثال: فرض کنید شش مدرسه با جمعیت های 150، 180، 200، 220، 260 و 490 دانش آموز داریم (مجموع 1500 دانش آموز)، و می خواهیم از جمعیت دانش آموزی به عنوان مبنای نمونه PPS با اندازه سه استفاده کنیم. برای این کار میتوانیم شمارههای مدرسه اول 1 تا 150، مدرسه دوم 151 را به 330 (= 150 + 180)، مدرسه سوم 331 را به 530 و به همین ترتیب به آخرین مدرسه (1011 تا 1500) اختصاص دهیم. سپس یک شروع تصادفی بین 1 و 500 (برابر با 1500/3) ایجاد می کنیم و جمعیت مدرسه را مضرب 500 می شماریم. اگر شروع تصادفی ما 137 بود، مدارسی را انتخاب می کنیم که اعداد 137، 637 و 137 به آنها اختصاص داده شده است. 1137 یعنی مدارس اول و چهارم و ششم.
رویکرد PPS میتواند دقت را برای اندازه نمونه معین با تمرکز نمونه بر روی عناصر بزرگی که بیشترین تأثیر را بر تخمین جمعیت دارند، بهبود بخشد. نمونهگیری PPS معمولاً برای نظرسنجی از مشاغل استفاده میشود، جایی که اندازه عنصر بسیار متفاوت است و اطلاعات کمکی اغلب در دسترس است - برای مثال، نظرسنجی که تلاش میکند تعداد شبهای مهمان در هتلها را اندازهگیری کند، ممکن است از تعداد اتاقهای هر هتل به عنوان متغیر کمکی استفاده کند. . در برخی موارد، اندازهگیری قدیمیتر از متغیر مورد علاقه میتواند به عنوان متغیر کمکی هنگام تلاش برای تولید تخمینهای جاری بیشتر استفاده شود. [14]
گاهی اوقات انتخاب پاسخ دهندگان در گروه ها ("خوشه ها") مقرون به صرفه تر است. نمونه گیری اغلب بر اساس جغرافیا یا دوره های زمانی خوشه بندی می شود. (تقریباً همه نمونهها از نظر زمانی «خوشهبندی» هستند – اگرچه این به ندرت در تجزیه و تحلیل در نظر گرفته میشود.) به عنوان مثال، اگر از خانوارهای درون یک شهر بررسی میکنیم، ممکن است ۱۰۰ بلوک شهری را انتخاب کنیم و سپس با هر خانوار درون شهری مصاحبه کنیم. بلوک های انتخاب شده
خوشه بندی می تواند هزینه های سفر و اداری را کاهش دهد. در مثال بالا، یک مصاحبهکننده میتواند برای بازدید از چندین خانوار در یک بلوک، به جای اینکه مجبور باشد برای هر خانوار به یک بلوک متفاوت رانندگی کند، یک سفر انجام دهد.
همچنین به این معنی است که فرد نیازی به یک چارچوب نمونهگیری که تمام عناصر در جامعه هدف را فهرست میکند، نیست . در عوض، خوشه ها را می توان از یک قاب در سطح خوشه انتخاب کرد، با یک قاب در سطح عنصر فقط برای خوشه های انتخاب شده ایجاد شده است. در مثال بالا، نمونه فقط به یک نقشه شهر در سطح بلوک برای انتخاب های اولیه نیاز دارد، و سپس یک نقشه در سطح خانوار از 100 بلوک انتخاب شده، به جای یک نقشه در سطح خانوار از کل شهر.
نمونهگیری خوشهای (همچنین به عنوان نمونهگیری خوشهای شناخته میشود) معمولاً تنوع تخمینهای نمونه را بالاتر از نمونهگیری تصادفی ساده افزایش میدهد، بسته به اینکه چگونه خوشهها بین یکدیگر در مقایسه با تنوع درون خوشهای متفاوت هستند. به همین دلیل، نمونهبرداری خوشهای به نمونه بزرگتری نسبت به SRS برای دستیابی به همان سطح دقت نیاز دارد - اما صرفهجویی در هزینههای حاصل از خوشهبندی ممکن است همچنان این گزینه را ارزانتر کند.
نمونه گیری خوشه ای معمولاً به صورت نمونه گیری چند مرحله ای اجرا می شود . این یک شکل پیچیده از نمونهگیری خوشهای است که در آن دو یا چند سطح از واحدها یکی در دیگری تعبیه شدهاند. مرحله اول شامل ساخت خوشه هایی است که برای نمونه برداری از آنها استفاده می شود. در مرحله دوم، نمونه ای از واحدهای اولیه به طور تصادفی از هر خوشه انتخاب می شود (به جای استفاده از تمام واحدهای موجود در همه خوشه های انتخاب شده). در مراحل بعدی، در هر یک از آن خوشههای انتخابی، نمونههای اضافی از واحدها انتخاب میشوند و به همین ترتیب. تمام واحدهای نهایی (مثلاً افراد) انتخاب شده در آخرین مرحله این روش بررسی می شوند. بنابراین، این تکنیک اساساً فرآیند گرفتن نمونههای فرعی تصادفی از نمونههای تصادفی قبلی است.
نمونهگیری چند مرحلهای میتواند هزینههای نمونهگیری را به طور قابل ملاحظهای کاهش دهد، جایی که فهرست کامل جمعیت باید ساخته شود (قبل از اینکه روشهای نمونهگیری دیگر اعمال شود). با حذف کارهای مربوط به توصیف خوشه هایی که انتخاب نشده اند، نمونه گیری چند مرحله ای می تواند هزینه های کلان مرتبط با نمونه گیری خوشه ای سنتی را کاهش دهد. [14] با این حال، هر نمونه ممکن است نماینده کامل کل جامعه نباشد.
در نمونهگیری سهمیهای ، جامعه ابتدا به گروههای فرعی منحصر به فرد تقسیم میشود ، درست مانند نمونهگیری طبقهای . سپس از قضاوت برای انتخاب موضوعات یا واحدها از هر بخش بر اساس نسبت مشخص استفاده می شود. به عنوان مثال، ممکن است به مصاحبه کننده گفته شود که از 200 زن و 300 مرد بین سنین 45 تا 60 سال نمونه برداری کند.
این مرحله دوم است که تکنیک را به نمونهگیری غیراحتمالی تبدیل میکند. در نمونه گیری سهمیه ای انتخاب نمونه غیرتصادفی است . برای مثال، ممکن است مصاحبهکنندگان وسوسه شوند که با کسانی که مفیدتر به نظر میرسند مصاحبه کنند. مشکل این است که این نمونه ها ممکن است مغرضانه باشند زیرا همه شانس انتخاب ندارند. این عنصر تصادفی بزرگترین نقطه ضعف آن است و سهمیه در مقابل احتمال چند سالی است که موضوع بحث و مناقشه بوده است.
در مجموعه داده های نامتعادل، که نسبت نمونه گیری از آمار جمعیت پیروی نمی کند، می توان مجموعه داده را به شیوه ای محافظه کارانه به نام نمونه برداری حداقلی نمونه برداری کرد . نمونهبرداری کمینه منشأ آن در نسبت کمینه اندرسون است که مقدار آن 0.5 است: در یک طبقهبندی باینری، اندازههای نمونه کلاس باید به طور مساوی انتخاب شوند. این نسبت تنها با فرض طبقهبندیکننده LDA با توزیعهای گاوسی میتواند ثابت شود که نسبت حداقل است. مفهوم نمونهبرداری حداقلی اخیراً برای یک کلاس کلی از قوانین طبقهبندی، به نام طبقهبندیکننده هوشمند طبقهبندی شده است. در این حالت نسبت نمونه گیری طبقات به گونه ای انتخاب می شود که بدترین حالت خطای طبقه بندی کننده نسبت به همه آمار جمعیت ممکن برای احتمالات قبلی کلاس، بهترین باشد. [12]
نمونهگیری تصادفی (گاهی اوقات به عنوان نمونهگیری با چنگال ، آسان یا فرصت شناخته میشود ) نوعی نمونهگیری غیراحتمالی است که شامل نمونهگیری از بخشی از جامعه است که نزدیک به دست است. یعنی جمعیتی انتخاب می شود زیرا به راحتی در دسترس و راحت است. ممکن است از طریق ملاقات با شخص یا گنجاندن یک فرد در نمونه زمانی که فرد با او ملاقات می کند یا با یافتن آنها از طریق ابزارهای فناوری مانند اینترنت یا تلفن انتخاب می شود. محققی که از چنین نمونهای استفاده میکند، نمیتواند از نظر علمی کل جامعه را از این نمونه تعمیم دهد، زیرا به اندازه کافی نماینده نیست. به عنوان مثال، اگر قرار باشد مصاحبهکننده در یک روز معین صبح زود در یک مرکز خرید چنین نظرسنجی را انجام دهد، افرادی که میتوانند با آنها مصاحبه کنند محدود به افرادی میشوند که در آن زمان معین در آنجا داده میشوند، که بیانگر دیدگاههای آنها نیست. اگر قرار باشد نظرسنجی در ساعات مختلف شبانه روز و چند بار در هفته انجام شود، سایر افراد جامعه در چنین منطقه ای. این نوع نمونه برداری بیشتر برای آزمایش آزمایشی مفید است. چندین ملاحظات مهم برای محققانی که از نمونه های راحت استفاده می کنند عبارتند از:
در تحقیقات علوم اجتماعی، نمونه برداری از گلوله برفی تکنیک مشابهی است که در آن از افراد مورد مطالعه موجود برای جذب افراد بیشتر در نمونه استفاده می شود. برخی از انواع نمونهگیری گلوله برفی، مانند نمونهگیری مبتنی بر پاسخدهنده، امکان محاسبه احتمالهای انتخاب را فراهم میکنند و روشهای نمونهگیری احتمالی تحت شرایط خاص هستند.
روش نمونه گیری داوطلبانه نوعی نمونه گیری غیراحتمالی است. داوطلبان برای تکمیل یک نظرسنجی انتخاب می کنند.
داوطلبان ممکن است از طریق تبلیغات در رسانه های اجتماعی دعوت شوند. [15] جمعیت هدف برای تبلیغات را می توان با ویژگی هایی مانند مکان، سن، جنس، درآمد، شغل، تحصیلات یا علایق با استفاده از ابزارهای ارائه شده توسط رسانه اجتماعی انتخاب کرد. آگهی ممکن است حاوی پیامی در مورد تحقیق و پیوند به نظرسنجی باشد. پس از دنبال کردن لینک و تکمیل نظرسنجی، داوطلب داده ها را برای گنجاندن در جامعه نمونه ارسال می کند. این روش میتواند به جمعیت جهانی برسد، اما با بودجه کمپین محدود شده است. داوطلبان خارج از جمعیت دعوت شده نیز ممکن است در نمونه گنجانده شوند.
تعمیم از این نمونه دشوار است زیرا ممکن است کل جامعه را نشان ندهد. اغلب، داوطلبان علاقه زیادی به موضوع اصلی نظرسنجی دارند.
نمونهبرداری خط فاصله ، روشی برای نمونهبرداری از عناصر در یک منطقه است که به موجب آن، اگر یک پاره خط انتخاب شده، به نام «ترانسکت»، عنصر را قطع کند، از یک عنصر نمونهبرداری میشود.
نمونهگیری پانل روشی است که ابتدا گروهی از شرکتکنندگان را از طریق روش نمونهگیری تصادفی انتخاب میکند و سپس از آن گروه چندین بار در یک دوره زمانی اطلاعات (به طور بالقوه یکسان) درخواست میکند. بنابراین، هر شرکت کننده در دو یا چند نقطه زمانی مصاحبه می شود. هر دوره از جمع آوری داده ها "موج" نامیده می شود. این روش توسط جامعه شناس پل لازارسفلد در سال 1938 به عنوان ابزاری برای مطالعه مبارزات سیاسی ایجاد شد . [16] این روش نمونه برداری طولی امکان تخمین تغییرات در جمعیت را فراهم می کند، برای مثال با توجه به بیماری مزمن تا استرس شغلی و هزینه های هفتگی غذا. نمونهگیری تابلویی همچنین میتواند برای آگاه کردن محققان در مورد تغییرات سلامت درون فرد به دلیل سن یا کمک به توضیح تغییرات در متغیرهای وابسته مستمر مانند تعامل همسر استفاده شود. [17] چندین روش پیشنهادی برای تجزیه و تحلیل دادههای تابلویی وجود دارد ، از جمله MANOVA ، منحنیهای رشد ، و مدلسازی معادلات ساختاری با اثرات تاخیر.
نمونه گیری گلوله برفی شامل یافتن گروه کوچکی از پاسخ دهندگان اولیه و استفاده از آنها برای جذب پاسخ دهندگان بیشتر است. این به ویژه در مواردی که جمعیت پنهان است یا شمارش آن دشوار است مفید است.
نمونهگیری نظری [18] زمانی اتفاق میافتد که نمونهها بر اساس نتایج دادههای جمعآوریشده تاکنون با هدف توسعه درک عمیقتر از منطقه یا توسعه نظریهها انتخاب شوند. موارد شدید یا بسیار خاص ممکن است به منظور به حداکثر رساندن احتمال قابل مشاهده بودن یک پدیده انتخاب شوند.
در نمونهگیری فعال، نمونههایی که برای آموزش الگوریتم یادگیری ماشین استفاده میشوند به طور فعال انتخاب میشوند، همچنین یادگیری فعال (یادگیری ماشینی) را با هم مقایسه میکنند .
طرح های نمونه برداری ممکن است بدون جایگزینی ("WOR" - هیچ عنصری را نمی توان بیش از یک بار در یک نمونه انتخاب کرد) یا با جایگزینی ("WR" - یک عنصر ممکن است چندین بار در یک نمونه ظاهر شود). به عنوان مثال، اگر ماهی بگیریم، آنها را اندازه گیری کنیم و بلافاصله قبل از ادامه نمونه، آنها را به آب برگردانیم، این یک طرح WR است، زیرا ممکن است در نهایت یک ماهی را بیش از یک بار صید و اندازه گیری کنیم. اما اگر ماهی را به آب یا تگ برنگردانیم و هر ماهی را پس از صید رها کنیم، این یک طرح WOR می شود.
فرمول ها، جداول و نمودارهای تابع توان، روش های شناخته شده ای برای تعیین اندازه نمونه هستند.
مراحل استفاده از جداول اندازه نمونه:
جمع آوری داده های خوب شامل موارد زیر است:
نمونه گیری امکان انتخاب نقاط داده درست را از درون مجموعه داده های بزرگتر برای تخمین ویژگی های کل جمعیت فراهم می کند. به عنوان مثال، روزانه حدود 600 میلیون توییت تولید می شود. برای تعیین موضوعاتی که در طول روز مورد بحث قرار می گیرد، لازم نیست همه آنها را بررسی کنید و همچنین برای تعیین احساس در مورد هر یک از موضوعات، لازم نیست به همه توییت ها نگاه کنید. یک فرمول نظری برای نمونهبرداری از دادههای توییتر ایجاد شده است. [20]
در ساخت انواع مختلف داده های حسی مانند آکوستیک، ارتعاش، فشار، جریان، ولتاژ و داده های کنترل کننده در فواصل زمانی کوتاه در دسترس است. برای پیشبینی زمان خرابی ممکن است نیازی به بررسی تمام دادهها نباشد، اما ممکن است یک نمونه کافی باشد.
نتایج نظرسنجی معمولاً در معرض برخی خطاها هستند. کل خطاها را می توان به خطاهای نمونه گیری و خطاهای غیر نمونه گیری طبقه بندی کرد. اصطلاح "خطا" در اینجا شامل سوگیری های سیستماتیک و همچنین خطاهای تصادفی می شود.
خطاها و سوگیری های نمونه گیری توسط طراحی نمونه القا می شوند. آنها عبارتند از:
خطاهای غیر نمونه گیری خطاهای دیگری هستند که می توانند بر تخمین های نظرسنجی نهایی تأثیر بگذارند که ناشی از مشکلات در جمع آوری داده ها، پردازش یا طراحی نمونه است. چنین خطاهایی ممکن است شامل موارد زیر باشد:
پس از نمونهگیری، فرآیند دقیقی که در نمونهگیری دنبال میشود، به جای آنچه در نظر گرفته شده است، بررسی میشود تا اثراتی که هر گونه واگرایی ممکن است بر تجزیه و تحلیل بعدی داشته باشد، بررسی شود.
یک مشکل خاص شامل عدم پاسخگویی است . دو نوع عمده عدم پاسخ وجود دارد: [21] [22]
در نمونه گیری نظرسنجی ، بسیاری از افرادی که به عنوان بخشی از نمونه شناسایی می شوند، ممکن است تمایلی به شرکت نداشته باشند، زمان شرکت را نداشته باشند ( هزینه فرصت )، [23] یا ممکن است مدیران نظرسنجی نتوانند با آنها تماس بگیرند. در این مورد، خطر تفاوت بین پاسخ دهندگان و غیرپاسخ دهندگان وجود دارد که منجر به تخمین های جانبدارانه پارامترهای جمعیت می شود. این اغلب با بهبود طراحی نظرسنجی، ارائه مشوقها، و انجام مطالعات بعدی که تلاش مکرر برای تماس با افراد بیپاسخ و مشخص کردن شباهتها و تفاوتهای آنها با بقیه قاب است، برطرف میشود. [24] همچنین میتوان با وزن دادن به دادهها (زمانی که معیارهای جمعیتی در دسترس است) یا با قرار دادن دادهها بر اساس پاسخ به سؤالات دیگر، تأثیرات را کاهش داد. عدم پاسخگویی به ویژه در نمونه گیری اینترنتی یک مشکل است. دلایل این مشکل ممکن است شامل نظرسنجیهای طراحیشده نامناسب، [22] نظرسنجی بیش از حد (یا خستگی نظرسنجی)، [17] [25] [ نیاز به نقل قول برای تأیید ] و این واقعیت است که شرکتکنندگان بالقوه ممکن است آدرسهای ایمیل متعددی داشته باشند. دیگر استفاده نکنید یا به طور منظم چک نکنید.
در بسیاری از موقعیتها، کسر نمونه ممکن است بر اساس طبقهبندی متفاوت باشد و دادهها باید وزن شوند تا به درستی جامعه را نشان دهند. بنابراین برای مثال، یک نمونه تصادفی ساده از افراد در بریتانیا ممکن است شامل برخی از جزایر دورافتاده اسکاتلند نباشد که نمونه برداری از آنها فوق العاده گران است. یک روش ارزان تر، استفاده از نمونه طبقه بندی شده با اقشار شهری و روستایی است. نمونه روستایی می تواند در نمونه کمتر نشان داده شود، اما برای جبران آن در تجزیه و تحلیل به طور مناسب وزن داده می شود.
به طور کلی، اگر طرح نمونه به هر فرد شانس مساوی برای انتخاب شدن ندهد، معمولاً باید وزن داده شود. به عنوان مثال، زمانی که خانوارها احتمال انتخاب برابری دارند اما یک نفر از داخل هر خانوار مصاحبه می شود، این به افراد خانواده های بزرگ شانس کمتری برای مصاحبه می دهد. این را می توان با استفاده از وزن های نظرسنجی به حساب آورد. به طور مشابه، خانوارهایی که بیش از یک خط تلفن دارند شانس بیشتری برای انتخاب شدن در یک نمونه شماره گیری تصادفی رقمی دارند و وزن ها می توانند برای این کار تنظیم شوند.
وزنه ها همچنین می توانند اهداف دیگری مانند کمک به اصلاح عدم پاسخ را داشته باشند.
کتاب درسی گرووز و همکاران، مروری بر روش شناسی نظرسنجی، از جمله ادبیات اخیر در مورد توسعه پرسشنامه (که توسط روانشناسی شناختی ارائه شده است ) ارائه می دهد:
کتابهای دیگر بر نظریه آماری نمونهگیری پیمایشی تمرکز دارند و به دانشی در مورد آمار اولیه نیاز دارند، همانطور که در کتابهای درسی زیر بحث شده است:
کتاب ابتدایی شیفر و همکارانش از معادلات درجه دوم جبر دبیرستانی استفاده می کند:
آمار ریاضی بیشتری برای Lohr، Särndal و همکاران، و برای Cochran مورد نیاز است: [26]
کتابهای مهم تاریخی دمینگ و کیش برای بینش دانشمندان علوم اجتماعی (به ویژه در مورد سرشماری ایالات متحده و مؤسسه تحقیقات اجتماعی در دانشگاه میشیگان ) ارزشمند هستند: