زبانشناسی پیکره

زبان‌شناسی پیکره‌ای روشی تجربی برای مطالعه زبان از طریق پیکره متنی (جمع پیکره‌ها ) است. ^[1] مجموعه‌ها مجموعه‌های متوازن و غالباً طبقه‌بندی‌شده‌ای از متن گفتار یا نوشتار معتبر، «دنیای واقعی» هستند که هدفشان نمایش یک تنوع زبانی معین است . ^[1] امروزه، اجسام عموماً مجموعه داده‌های قابل خواندن توسط ماشین هستند.

زبان‌شناسی مجموعه پیشنهاد می‌کند که تجزیه و تحلیل قابل اعتماد یک زبان با مجموعه‌های جمع‌آوری‌شده در این زمینه - بافت طبیعی ("واقع") آن زبان - با حداقل تداخل تجربی امکان‌پذیرتر است. مجموعه‌های بزرگ متن، اگرچه مجموعه‌ها نیز ممکن است از نظر واژه‌های در حال اجرا کوچک باشند، به زبان‌شناسان اجازه می‌دهند تا تحلیل‌های کمی بر روی مفاهیم زبان‌شناختی انجام دهند که آزمایش کیفی آن‌ها ممکن است دشوار باشد. ^[2]

روش متن پیکره از بدنه متون در هر زبان طبیعی برای استخراج مجموعه ای از قوانین انتزاعی حاکم بر آن زبان استفاده می کند. از این نتایج می توان برای کشف روابط بین آن زبان موضوعی و سایر زبان هایی که تحت تحلیل مشابهی قرار گرفته اند استفاده کرد. اولین چنین مجموعه هایی به صورت دستی از متون منبع مشتق شده بودند، اما اکنون آن کار به صورت خودکار انجام می شود.

Corpora نه تنها برای تحقیقات زبانشناسی مورد استفاده قرار گرفته است، بلکه از سال 1969 به طور فزاینده ای برای گردآوری فرهنگ لغت (که با The American Heritage Dictionary of the English Language در سال 1969 شروع شد) و گرامرهای مرجع، با A Comprehensive Grammar of the English Language ، منتشر شده در 1985، به عنوان اولین.

کارشناسان در این زمینه نظرات متفاوتی در مورد حاشیه نویسی یک مجموعه دارند. این دیدگاه‌ها از جان مک‌هاردی سینکلر ، که از حاشیه‌نویسی حداقلی حمایت می‌کند، ^[3] تا تیم بررسی کاربرد زبان انگلیسی ( دانشگاه کالج ، لندن)، که از حاشیه‌نویسی به‌منظور درک بیشتر زبانی از طریق ضبط دقیق حمایت می‌کند. ^[4]

تاریخچه

برخی از اولین تلاش‌ها در توصیف دستوری حداقل تا حدی بر اساس مجموعه‌هایی با اهمیت مذهبی یا فرهنگی خاص بود. برای مثال، ادبیات پراتیشاخیا الگوهای صوتی سانسکریت را که در وداها یافت می‌شود، توصیف می‌کند ، و دستور زبان سانسکریت کلاسیک پانینی حداقل تا حدی مبتنی بر تحلیل همان پیکره است. به همین ترتیب، دستور نویسان اولیه عربی توجه خاصی به زبان قرآن داشتند . در سنت اروپای غربی، محققان برای امکان مطالعه دقیق زبان کتاب مقدس و دیگر متون متعارف، هماهنگی هایی را تهیه کردند.

مجموعه های انگلیسی

یک نقطه عطف در زبان شناسی پیکره مدرن، انتشار تحلیل محاسباتی انگلیسی آمریکایی امروزی در سال 1967 بود. نوشته هنری کوچرا و دبلیو. نلسون فرانسیس ، کار بر اساس تجزیه و تحلیل کورپوس براون بود که یک پیکره ساختاریافته و متعادل است. از یک میلیون کلمه انگلیسی آمریکایی از سال 1961. مجموعه شامل 2000 نمونه متن، از ژانرهای مختلف است. ^[5] Corpus براون اولین مجموعه کامپیوتری بود که برای تحقیقات زبانی طراحی شد. ^[6] کوچرا و فرانسیس مجموعه براون را در معرض انواع تحلیل‌های محاسباتی قرار دادند و سپس عناصر زبان‌شناسی، آموزش زبان، روان‌شناسی ، آمار و جامعه‌شناسی را با هم ترکیب کردند تا اثری غنی و متنوع ایجاد کنند. یکی دیگر از انتشارات کلیدی Randolph Quirk "Towards a description of English Usage" در سال 1960 ^[7] بود که در آن او Survey of English Usage را معرفی کرد . مجموعه کویرک اولین مجموعه مدرنی بود که با هدف نشان دادن کل زبان ساخته شد. ^[8]

اندکی پس از آن، ناشر بوستون، هوتون-میفلین، به کوچرا مراجعه کرد تا یک پایگاه استنادی سه خطی با میلیون کلمه برای فرهنگ لغت میراث آمریکایی جدید خود ، اولین فرهنگ لغت که با استفاده از زبان شناسی پیکره گردآوری شده است، ارائه کند. AHD گامی نوآورانه را برای ترکیب عناصر تجویزی (نحوه استفاده از زبان ) با اطلاعات توصیفی (نحوه استفاده از آن ) برداشت.

ناشران دیگر نیز از این روند پیروی کردند. فرهنگ لغت یادگیرنده تک زبانه COBUILD ناشر بریتانیایی کالینز ، که برای کاربرانی که انگلیسی را به عنوان یک زبان خارجی یاد می گیرند، طراحی شده است، با استفاده از بانک انگلیسی گردآوری شده است . Survey of English Usage Corpus در توسعه یکی از مهمترین گرامرهای مبتنی بر Corpus استفاده شد که توسط Quirk و همکاران نوشته شده بود. و در سال 1985 با عنوان گرامر جامع زبان انگلیسی منتشر شد . ^[9]

مجموعه براون همچنین تعدادی از ساختارهای مشابه را ایجاد کرده است: LOB Corpus ( انگلیسی بریتانیایی دهه 1960 )، Kolhapur ( انگلیسی هندی )، ولینگتون ( انگلیسی نیوزلند )، مجموعه انگلیسی استرالیایی ( انگلیسی استرالیایی )، مجموعه Frown (اوایل دهه 1990). انگلیسی آمریکایی ) و FLOB Corpus (انگلیسی بریتانیایی دهه 1990). مجموعه‌های دیگر نشان‌دهنده زبان‌ها، انواع و حالت‌های بسیاری هستند، و شامل مجموعه بین‌المللی انگلیسی ، و مجموعه ملی بریتانیا ، مجموعه‌ای ۱۰۰ میلیون کلمه‌ای از طیفی از متون گفتاری و نوشتاری است که در دهه ۱۹۹۰ توسط کنسرسیومی از ناشران، دانشگاه‌ها ایجاد شد. آکسفورد و لنکستر ) و کتابخانه بریتانیا . برای انگلیسی آمریکایی معاصر، کار روی مجموعه ملی آمریکایی متوقف شده است ، اما مجموعه بیش از 400 میلیون کلمه انگلیسی معاصر آمریکایی (1990 تا کنون) اکنون از طریق یک رابط وب در دسترس است.

اولین مجموعه کامپیوتری زبان گفتاری رونویسی شده در سال 1971 توسط پروژه فرانسوی مونترال ساخته شد، ^[10] که حاوی یک میلیون کلمه بود که الهام بخش مجموعه بسیار بزرگتر شانا پوپلاک از زبان فرانسوی گفتاری در منطقه اتاوا-هال بود. ^[11]

اجسام چند زبانه

در دهه 1990، بسیاری از موفقیت‌های اولیه قابل توجه در روش‌های آماری در برنامه‌نویسی به زبان طبیعی (NLP) در زمینه ترجمه ماشینی اتفاق افتاد ، به‌ویژه به دلیل کار در IBM Research. این سیستم‌ها می‌توانستند از مجموعه‌های متنی چندزبانه موجود که توسط پارلمان کانادا و اتحادیه اروپا در نتیجه قوانینی که خواستار ترجمه تمام مراحل دولتی به همه زبان‌های رسمی نظام‌های دولتی مربوطه بودند، تهیه شده بود ، استفاده کنند.

در زبان های غیر اروپایی نیز مجموعه هایی وجود دارد. به عنوان مثال، موسسه ملی زبان و زبان شناسی ژاپنی در ژاپن تعدادی مجموعه از زبان ژاپنی گفتاری و نوشتاری ساخته است. مجموعه های زبان اشاره نیز با استفاده از داده های ویدئویی ایجاد شده اند. ^[12]

مجموعه زبان های باستانی

علاوه بر این مجموعه‌های زبان‌های زنده، مجموعه‌های رایانه‌ای نیز از مجموعه‌هایی از متون به زبان‌های باستانی ساخته شده‌اند. به عنوان مثال پایگاه داده Andersen -Forbes از کتاب مقدس عبری است که از دهه 1970 توسعه یافته است، که در آن هر بند با استفاده از نمودارهایی تجزیه می شود که حداکثر هفت سطح نحو را نشان می دهد، و هر بخش با هفت زمینه اطلاعات برچسب گذاری شده است. ^[13]^[14] مجموعه عربی قرآنی مجموعه ای مشروح برای زبان عربی کلاسیک قرآن است . این یک پروژه اخیر با چندین لایه حاشیه نویسی از جمله تقسیم بندی مورفولوژیکی، برچسب گذاری بخشی از گفتار ، و تجزیه و تحلیل نحوی با استفاده از گرامر وابستگی است. ^[15] مجموعه دیجیتالی سانسکریت (DCS) یک مجموعه «ساندی-شکافی از متون سانسکریت با تجزیه و تحلیل کامل صرفی و واژگانی... طراحی شده برای پژوهش متن-تاریخی در زبان شناسی و زبان سانسکریت است». ^[16]

Corpora از زمینه های خاص

علاوه بر جست‌وجوی زبان‌شناختی محض، محققان شروع به استفاده از زبان‌شناسی پیکره‌ای در سایر زمینه‌های دانشگاهی و حرفه‌ای کرده‌اند، مانند زیرشاخه‌های نوظهور حقوق و زبان‌شناسی پیکره ، که به دنبال درک متون حقوقی با استفاده از داده‌ها و ابزارهای پیکره است. مجموعه داده‌های DBLP Discovery بر علوم رایانه متمرکز است، که حاوی انتشارات مربوط به علوم رایانه با فراداده‌های حساس مانند وابستگی‌های نویسنده، نقل‌قول‌ها یا زمینه‌های مطالعاتی است. ^[17] مجموعه داده متمرکزتری توسط NLP Scholar، ترکیبی از مقالات ACL Anthology و ابرداده Google Scholar معرفی شد . ^[18] Corpora همچنین می تواند در تلاش های ترجمه ^[19] یا در آموزش زبان های خارجی کمک کند. ^[20]

روش ها

زبانشناسی بدنه تعدادی روش تحقیق ایجاد کرده است که سعی در ردیابی مسیری از داده به نظریه دارد. والیس و نلسون (2001) ^[21] برای اولین بار آنچه را که دیدگاه 3A نامیدند معرفی کردند: حاشیه نویسی، انتزاع و تجزیه و تحلیل.

حاشیه نویسی شامل استفاده از یک طرح برای متون است. حاشیه نویسی ها ممکن است شامل نشانه گذاری ساختاری، برچسب گذاری بخشی از گفتار ، تجزیه و نمایش های متعدد دیگر باشد.
انتزاع شامل ترجمه (نقشه برداری) اصطلاحات در طرح به اصطلاحات در یک مدل یا مجموعه داده با انگیزه نظری است. انتزاع معمولاً شامل جستجوی زبان شناس است، اما ممکن است شامل آموزش قوانین برای تجزیه کننده ها باشد.
تجزیه و تحلیل شامل بررسی آماری، دستکاری و تعمیم از مجموعه داده است. تجزیه و تحلیل ممکن است شامل ارزیابی های آماری، بهینه سازی مبانی قوانین یا روش های کشف دانش باشد.

امروزه اکثر مجموعه‌های واژگانی دارای برچسب بخشی از گفتار (برچسب POS) هستند. با این حال، حتی زبان‌شناسان پیکره‌ای که با «متن ساده بدون حاشیه‌نویسی» کار می‌کنند، ناگزیر از روشی برای جداسازی اصطلاحات برجسته استفاده می‌کنند. در چنین شرایطی حاشیه نویسی و انتزاع در یک جستجوی واژگانی ترکیب می شوند.

مزیت انتشار یک مجموعه حاشیه نویسی این است که سایر کاربران می توانند آزمایشاتی را روی مجموعه انجام دهند (از طریق مدیران مجموعه ). زبان شناسانی با علایق و دیدگاه های متفاوت از مبتکران می توانند از این اثر بهره ببرند. با به اشتراک گذاشتن داده ها، زبان شناسان پیکره می توانند پیکره را به عنوان محل بحث زبانی و مطالعه بیشتر در نظر بگیرند. ^[22]

همچنین ببینید

یادداشت ها و مراجع

^ ab Meyer, Charles F. (2023). زبانشناسی مجموعه انگلیسی (ویرایش دوم). کمبریج: انتشارات دانشگاه کمبریج. ص 4.
↑ Hunston, S. (1 ژانویه 2006)، "Corpus Linguistics"، در براون، کیث (ویرایش)، دایره المعارف زبان و زبانشناسی (ویرایش دوم) ، آکسفورد: الزویر، صفحات 234-248، doi :10.1016/b0 -08-044854-2/00944-5، شابک 978-0-08-044854-1، بازیابی شده در 31 اکتبر 2023
↑ سینکلر، جی. «تحلیل خودکار اجسام»، در Svartvik, J. (ویرایشگر) Directions in Corpus Linguistics (مجموعه مقالات سمپوزیوم نوبل 82) . برلین: Mouton de Gruyter. 1992.
^ Wallis, S. 'Annotation, Retrieval and Experimentation', in Meurman-Solin, A. & Nurmi, AA (ed.) Annotating Variation and Change. هلسینکی: Varieng، [دانشگاه هلسینکی]. 2007. انتشارات الکترونیکی
^ فرانسیس، دبلیو نلسون؛ کوچرا، هنری (1 ژوئن 1967). تجزیه و تحلیل محاسباتی انگلیسی آمریکایی امروزی . Providence: انتشارات دانشگاه براون. شابک 978-0870571053.
↑ کندی، جی. (1 ژانویه 2001)، "Corpus Linguistics"، در اسملسر، نیل جی. Baltes, Paul B. (ویراستار)، دایره المعارف بین المللی علوم اجتماعی و رفتاری ، آکسفورد: پرگامون، صفحات 2816-2820، ISBN 978-0-08-043076-8، بازیابی شده در 31 اکتبر 2023
↑ کویرک، راندولف (نوامبر 1960). "به سوی توصیفی از کاربرد انگلیسی". معاملات انجمن فلولوژی . 59 (1): 40-61. doi :10.1111/j.1467-968X.1960.tb00308.x.
↑ کندی، جی. (1 ژانویه 2001)، "Corpus Linguistics"، در اسملسر، نیل جی. Baltes, Paul B. (eds.), International Encyclopedia of the Social & Behavioral Sciences , Oxford: Pergamon, pp. 2816–2820, doi :10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8، بازیابی شده در 31 اکتبر 2023
^ کویرک، راندولف؛ گرین باوم، سیدنی؛ زالو، جفری؛ سوارتویک، جان (1985). گرامر جامع زبان انگلیسی . لندن: لانگمن. شابک 978-0582517349.
^ سانکف، دیوید؛ سانکوف، گیلیان (1973). دارنل، آر (ویرایش). «روش های نمونه پیمایش و تحلیل به کمک رایانه در بررسی تنوع دستوری». زبان های کانادایی در زمینه اجتماعی آنها ادمونتون: تحقیقات زبانی گنجانده شده: 7-63.
↑ پوپلاک، شانا (۱۹۸۹). فاسولد، آر. Schiffrin, D. (eds.). "مراقبت و رسیدگی به یک مگا کورپوس". تغییر و تنوع زبان . مسائل جاری در نظریه زبان شناسی. 52 . آمستردام: بنجامین: 411–451. doi :10.1075/cilt.52.25pop. شابک 978-90-272-3546-6.
↑ «مرکز ملی منابع زبان اشاره و اشاره در BU» www.bu.edu . بازبینی شده در 31 اکتبر 2023 .
^ اندرسن، فرانسیس اول. فوربس، آ. دین (2003)، "دستور زبان عبری تجسم شده: I. نحو"، مطالعات باستانی خاور نزدیک ، جلد. 40، صص 43-61 [45]
↑ Eyland، E. Ann (1987)، "Revelations from Word Counts"، در نیوینگ، ادوارد جی. کنراد، ادگار دبلیو (ویرایش)، دیدگاه‌هایی در مورد زبان و متن: مقالات و شعرهایی به افتخار شصتمین سالگرد تولد فرانسیس اول. اندرسن، 28 ژوئیه 1985 ، دریاچه وینونا، IN: Eisenbrauns ، ص. 51, ISBN 0-931464-26-9
↑ Dukes, K., Atwell, E. and Habash, N. 'همکاری نظارت شده برای حاشیه نویسی نحوی قرآن عربی'. مجله منابع و ارزشیابی زبان . 2011.
↑ «مجموعه دیجیتال سانسکریت (DCS)» . بازبینی شده در 28 ژوئن 2022 .
^ واله، یان فیلیپ؛ رواس، تری؛ محمد، سیف; گیپ، بلا (2022). "D3: مجموعه ای عظیم از فراداده های علمی برای تجزیه و تحلیل وضعیت تحقیقات علوم کامپیوتر". مجموعه مقالات سیزدهمین کنفرانس منابع و ارزشیابی زبان . مارسی، فرانسه: انجمن منابع زبان اروپا: 2642–2651. arXiv : 2204.13384 .
↑ محمد، سیف م. (2020). "محقق NLP: مجموعه داده ای برای بررسی وضعیت تحقیقات NLP". مجموعه مقالات دوازدهمین کنفرانس منابع و ارزشیابی زبان . مارسی، فرانسه: انجمن منابع زبان اروپا: 868–877. شابک 979-10-95546-34-4.
↑ Bernardini, S. (1 ژانویه 2006), "Machine Readable Corpora" در براون، کیت (ویرایش)، دایره المعارف زبان و زبانشناسی (نسخه دوم) ، آکسفورد: الزویر، صفحات 358-375، doi : 10.1016/ b0-08-044854-2/00476-4، ISBN 978-0-08-044854-1، بازیابی شده در 31 اکتبر 2023
↑ ماینز، یوهانس گوتنبرگ-دانشگاه. "Corpus Linguistics | ENGLISH LINGUISTICS". Johannes Gutenberg-Universität Mainz (به آلمانی) . بازبینی شده در 31 اکتبر 2023 .
↑ والیس، اس. و نلسون جی. کشف دانش در مجموعه هایی که از نظر دستوری تجزیه و تحلیل شده اند . داده کاوی و کشف دانش ، 5 : 307-340. 2001.
^ بیکر، پل؛ اگبرت، جسی، ویراستاران. (2016). رویکردهای روش‌شناختی مثلث‌سازی در پژوهش‌های پیکره-زبانی . نیویورک: روتلج.

در ادامه مطلب

کتاب ها

Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
مک کارتی، دی.، و سامپسون جی. زبانشناسی بدنه: خواندن در یک رشته در حال گسترش ، پیوسته، 2005. ISBN 0-8264-8803-X
Facchinetti, R. توصیف نظری و کاربردهای عملی مجموعه های زبانی . Verona: QuiEdit، 2007 ISBN 978-88-89480-37-3
Facchinetti, R. (ed.) Corpus Linguistics 25 Years on . نیویورک/آمستردام: رودوپی، 2007 ISBN 978-90-420-2195-2
فاچینتی، آر . و ریسانن ام . برن: پیتر لانگ، 2006 ISBN 3-03910-851-4
Lenders, W. واژه شناسی محاسباتی و زبانشناسی پیکره تا حدود. 1970/1980 ، در: Gouws, RH, Heid, U., Schweicard, W., Wiegand, HE (eds.) Dictionaries – An International Encyclopedia of Lexicography. جلد تکمیلی: تحولات اخیر با تمرکز بر واژگان نگاری الکترونیکی و محاسباتی . Berlin: De Gruyter Mouton, 2013 ISBN 978-3112146651
فوس، اریک و همکاران. (ویرایش): Grammar and Corpora 2016 , Heidelberg: Heidelberg University Publishing, 2018. doi :10.17885/heiup.361.509 (دسترسی باز دیجیتال).
Stefanowitsch A. 2020. Corpus linguistics: راهنمای روش شناسی . برلین: انتشارات علم زبان. ISBN 978-3-96110-225-9 , doi :10.5281/zenodo.3735822 دسترسی آزاد https://langsci-press.org/catalog/book/148.

سری کتاب

مجموعه کتاب های این حوزه عبارتند از:

زبان و کامپیوتر (بریل)
مطالعات در رشته زبان شناسی (جان بنجامینز)
زبانشناسی مجموعه انگلیسی (پیتر لانگ)
مجموعه و گفتمان (بلومزبری)

مجلات

چندین مجله بین المللی با داوری همتا وجود دارد که به زبان شناسی پیکره اختصاص داده شده اند، به عنوان مثال:

Corpora
زبانشناسی پیکره و نظریه زبانشناسی
مجله ICAME
مجله بین المللی کورپوس زبانشناسی
مجله منابع زبان و ارزیابی، که توسط انجمن منابع زبان اروپا پشتیبانی می شود
پژوهش در زبانشناسی بدنه، با حمایت انجمن اسپانیایی زبانشناسی بدنه (AELINCO)

لینک های خارجی

در ویکی‌انبار رسانه‌های مرتبط با زبان‌شناسی مجموعه‌ای وجود دارد .

Penn Parsed Corpora of Historical English