زبانشناسی پیکرهای روشی تجربی برای مطالعه زبان از طریق پیکره متنی (جمع پیکرهها ) است. [1] مجموعهها مجموعههای متوازن و غالباً طبقهبندیشدهای از متن گفتار یا نوشتار معتبر، «دنیای واقعی» هستند که هدفشان نمایش یک تنوع زبانی معین است . [1] امروزه، اجسام عموماً مجموعه دادههای قابل خواندن توسط ماشین هستند.
زبانشناسی مجموعه پیشنهاد میکند که تجزیه و تحلیل قابل اعتماد یک زبان با مجموعههای جمعآوریشده در این زمینه - بافت طبیعی ("واقع") آن زبان - با حداقل تداخل تجربی امکانپذیرتر است. مجموعههای بزرگ متن، اگرچه مجموعهها نیز ممکن است از نظر واژههای در حال اجرا کوچک باشند، به زبانشناسان اجازه میدهند تا تحلیلهای کمی بر روی مفاهیم زبانشناختی انجام دهند که آزمایش کیفی آنها ممکن است دشوار باشد. [2]
روش متن پیکره از بدنه متون در هر زبان طبیعی برای استخراج مجموعه ای از قوانین انتزاعی حاکم بر آن زبان استفاده می کند. از این نتایج می توان برای کشف روابط بین آن زبان موضوعی و سایر زبان هایی که تحت تحلیل مشابهی قرار گرفته اند استفاده کرد. اولین چنین مجموعه هایی به صورت دستی از متون منبع مشتق شده بودند، اما اکنون آن کار به صورت خودکار انجام می شود.
Corpora نه تنها برای تحقیقات زبانشناسی مورد استفاده قرار گرفته است، بلکه از سال 1969 به طور فزاینده ای برای گردآوری فرهنگ لغت (که با The American Heritage Dictionary of the English Language در سال 1969 شروع شد) و گرامرهای مرجع، با A Comprehensive Grammar of the English Language ، منتشر شده در 1985، به عنوان اولین.
کارشناسان در این زمینه نظرات متفاوتی در مورد حاشیه نویسی یک مجموعه دارند. این دیدگاهها از جان مکهاردی سینکلر ، که از حاشیهنویسی حداقلی حمایت میکند، [3] تا تیم بررسی کاربرد زبان انگلیسی ( دانشگاه کالج ، لندن)، که از حاشیهنویسی بهمنظور درک بیشتر زبانی از طریق ضبط دقیق حمایت میکند. [4]
برخی از اولین تلاشها در توصیف دستوری حداقل تا حدی بر اساس مجموعههایی با اهمیت مذهبی یا فرهنگی خاص بود. برای مثال، ادبیات پراتیشاخیا الگوهای صوتی سانسکریت را که در وداها یافت میشود، توصیف میکند ، و دستور زبان سانسکریت کلاسیک پانینی حداقل تا حدی مبتنی بر تحلیل همان پیکره است. به همین ترتیب، دستور نویسان اولیه عربی توجه خاصی به زبان قرآن داشتند . در سنت اروپای غربی، محققان برای امکان مطالعه دقیق زبان کتاب مقدس و دیگر متون متعارف، هماهنگی هایی را تهیه کردند.
یک نقطه عطف در زبان شناسی پیکره مدرن، انتشار تحلیل محاسباتی انگلیسی آمریکایی امروزی در سال 1967 بود. نوشته هنری کوچرا و دبلیو. نلسون فرانسیس ، کار بر اساس تجزیه و تحلیل کورپوس براون بود که یک پیکره ساختاریافته و متعادل است. از یک میلیون کلمه انگلیسی آمریکایی از سال 1961. مجموعه شامل 2000 نمونه متن، از ژانرهای مختلف است. [5] Corpus براون اولین مجموعه کامپیوتری بود که برای تحقیقات زبانی طراحی شد. [6] کوچرا و فرانسیس مجموعه براون را در معرض انواع تحلیلهای محاسباتی قرار دادند و سپس عناصر زبانشناسی، آموزش زبان، روانشناسی ، آمار و جامعهشناسی را با هم ترکیب کردند تا اثری غنی و متنوع ایجاد کنند. یکی دیگر از انتشارات کلیدی Randolph Quirk "Towards a description of English Usage" در سال 1960 [7] بود که در آن او Survey of English Usage را معرفی کرد . مجموعه کویرک اولین مجموعه مدرنی بود که با هدف نشان دادن کل زبان ساخته شد. [8]
اندکی پس از آن، ناشر بوستون، هوتون-میفلین، به کوچرا مراجعه کرد تا یک پایگاه استنادی سه خطی با میلیون کلمه برای فرهنگ لغت میراث آمریکایی جدید خود ، اولین فرهنگ لغت که با استفاده از زبان شناسی پیکره گردآوری شده است، ارائه کند. AHD گامی نوآورانه را برای ترکیب عناصر تجویزی (نحوه استفاده از زبان ) با اطلاعات توصیفی (نحوه استفاده از آن ) برداشت.
ناشران دیگر نیز از این روند پیروی کردند. فرهنگ لغت یادگیرنده تک زبانه COBUILD ناشر بریتانیایی کالینز ، که برای کاربرانی که انگلیسی را به عنوان یک زبان خارجی یاد می گیرند، طراحی شده است، با استفاده از بانک انگلیسی گردآوری شده است . Survey of English Usage Corpus در توسعه یکی از مهمترین گرامرهای مبتنی بر Corpus استفاده شد که توسط Quirk و همکاران نوشته شده بود. و در سال 1985 با عنوان گرامر جامع زبان انگلیسی منتشر شد . [9]
مجموعه براون همچنین تعدادی از ساختارهای مشابه را ایجاد کرده است: LOB Corpus ( انگلیسی بریتانیایی دهه 1960 )، Kolhapur ( انگلیسی هندی )، ولینگتون ( انگلیسی نیوزلند )، مجموعه انگلیسی استرالیایی ( انگلیسی استرالیایی )، مجموعه Frown (اوایل دهه 1990). انگلیسی آمریکایی ) و FLOB Corpus (انگلیسی بریتانیایی دهه 1990). مجموعههای دیگر نشاندهنده زبانها، انواع و حالتهای بسیاری هستند، و شامل مجموعه بینالمللی انگلیسی ، و مجموعه ملی بریتانیا ، مجموعهای ۱۰۰ میلیون کلمهای از طیفی از متون گفتاری و نوشتاری است که در دهه ۱۹۹۰ توسط کنسرسیومی از ناشران، دانشگاهها ایجاد شد. آکسفورد و لنکستر ) و کتابخانه بریتانیا . برای انگلیسی آمریکایی معاصر، کار روی مجموعه ملی آمریکایی متوقف شده است ، اما مجموعه بیش از 400 میلیون کلمه انگلیسی معاصر آمریکایی (1990 تا کنون) اکنون از طریق یک رابط وب در دسترس است.
اولین مجموعه کامپیوتری زبان گفتاری رونویسی شده در سال 1971 توسط پروژه فرانسوی مونترال ساخته شد، [10] که حاوی یک میلیون کلمه بود که الهام بخش مجموعه بسیار بزرگتر شانا پوپلاک از زبان فرانسوی گفتاری در منطقه اتاوا-هال بود. [11]
در دهه 1990، بسیاری از موفقیتهای اولیه قابل توجه در روشهای آماری در برنامهنویسی به زبان طبیعی (NLP) در زمینه ترجمه ماشینی اتفاق افتاد ، بهویژه به دلیل کار در IBM Research. این سیستمها میتوانستند از مجموعههای متنی چندزبانه موجود که توسط پارلمان کانادا و اتحادیه اروپا در نتیجه قوانینی که خواستار ترجمه تمام مراحل دولتی به همه زبانهای رسمی نظامهای دولتی مربوطه بودند، تهیه شده بود ، استفاده کنند.
در زبان های غیر اروپایی نیز مجموعه هایی وجود دارد. به عنوان مثال، موسسه ملی زبان و زبان شناسی ژاپنی در ژاپن تعدادی مجموعه از زبان ژاپنی گفتاری و نوشتاری ساخته است. مجموعه های زبان اشاره نیز با استفاده از داده های ویدئویی ایجاد شده اند. [12]
علاوه بر این مجموعههای زبانهای زنده، مجموعههای رایانهای نیز از مجموعههایی از متون به زبانهای باستانی ساخته شدهاند. به عنوان مثال پایگاه داده Andersen -Forbes از کتاب مقدس عبری است که از دهه 1970 توسعه یافته است، که در آن هر بند با استفاده از نمودارهایی تجزیه می شود که حداکثر هفت سطح نحو را نشان می دهد، و هر بخش با هفت زمینه اطلاعات برچسب گذاری شده است. [13] [14] مجموعه عربی قرآنی مجموعه ای مشروح برای زبان عربی کلاسیک قرآن است . این یک پروژه اخیر با چندین لایه حاشیه نویسی از جمله تقسیم بندی مورفولوژیکی، برچسب گذاری بخشی از گفتار ، و تجزیه و تحلیل نحوی با استفاده از گرامر وابستگی است. [15] مجموعه دیجیتالی سانسکریت (DCS) یک مجموعه «ساندی-شکافی از متون سانسکریت با تجزیه و تحلیل کامل صرفی و واژگانی... طراحی شده برای پژوهش متن-تاریخی در زبان شناسی و زبان سانسکریت است». [16]
علاوه بر جستوجوی زبانشناختی محض، محققان شروع به استفاده از زبانشناسی پیکرهای در سایر زمینههای دانشگاهی و حرفهای کردهاند، مانند زیرشاخههای نوظهور حقوق و زبانشناسی پیکره ، که به دنبال درک متون حقوقی با استفاده از دادهها و ابزارهای پیکره است. مجموعه دادههای DBLP Discovery بر علوم رایانه متمرکز است، که حاوی انتشارات مربوط به علوم رایانه با فرادادههای حساس مانند وابستگیهای نویسنده، نقلقولها یا زمینههای مطالعاتی است. [17] مجموعه داده متمرکزتری توسط NLP Scholar، ترکیبی از مقالات ACL Anthology و ابرداده Google Scholar معرفی شد . [18] Corpora همچنین می تواند در تلاش های ترجمه [19] یا در آموزش زبان های خارجی کمک کند. [20]
زبانشناسی بدنه تعدادی روش تحقیق ایجاد کرده است که سعی در ردیابی مسیری از داده به نظریه دارد. والیس و نلسون (2001) [21] برای اولین بار آنچه را که دیدگاه 3A نامیدند معرفی کردند: حاشیه نویسی، انتزاع و تجزیه و تحلیل.
امروزه اکثر مجموعههای واژگانی دارای برچسب بخشی از گفتار (برچسب POS) هستند. با این حال، حتی زبانشناسان پیکرهای که با «متن ساده بدون حاشیهنویسی» کار میکنند، ناگزیر از روشی برای جداسازی اصطلاحات برجسته استفاده میکنند. در چنین شرایطی حاشیه نویسی و انتزاع در یک جستجوی واژگانی ترکیب می شوند.
مزیت انتشار یک مجموعه حاشیه نویسی این است که سایر کاربران می توانند آزمایشاتی را روی مجموعه انجام دهند (از طریق مدیران مجموعه ). زبان شناسانی با علایق و دیدگاه های متفاوت از مبتکران می توانند از این اثر بهره ببرند. با به اشتراک گذاشتن داده ها، زبان شناسان پیکره می توانند پیکره را به عنوان محل بحث زبانی و مطالعه بیشتر در نظر بگیرند. [22]
مجموعه کتاب های این حوزه عبارتند از:
چندین مجله بین المللی با داوری همتا وجود دارد که به زبان شناسی پیکره اختصاص داده شده اند، به عنوان مثال: