مجموعه متن

در زبان‌شناسی و پردازش زبان طبیعی ، پیکره ( شعر : corpora ) یا مجموعه متن مجموعه‌ای از مجموعه داده‌ها است که از منابع زبانی به‌طور دیجیتالی و قدیمی‌تر، دیجیتالی شده، اعم از حاشیه‌نویسی یا بدون حاشیه‌نویسی تشکیل شده است.

مشروح، آنها در زبانشناسی پیکره برای آزمون فرضیه های آماری ، بررسی رخدادها یا اعتبارسنجی قواعد زبانی در یک قلمرو زبانی خاص استفاده شده اند .

نمای کلی

یک مجموعه ممکن است شامل متون به یک زبان واحد ( مجموعه تک زبانه ) یا داده های متنی به چندین زبان ( جنس چند زبانه ) باشد.

به منظور مفیدتر ساختن مجموعه ها برای انجام تحقیقات زبانی، آنها اغلب تحت فرآیندی قرار می گیرند که به عنوان حاشیه نویسی شناخته می شود . نمونه ای از حاشیه نویسی یک پیکره، برچسب گذاری بخشی از گفتار یا برچسب گذاری POS است که در آن اطلاعات مربوط به بخش گفتار هر کلمه (فعل، اسم، صفت و غیره) به شکل برچسب به مجموعه اضافه می شود . مثال دیگر نشان دادن شکل لم (پایه) هر کلمه است. هنگامی که زبان پیکره زبان کاری محققانی نیست که از آن استفاده می کنند، برای دوزبانه کردن حاشیه نویسی از glossing بین خطی استفاده می شود.

برخی از مجموعه‌ها سطوح ساختار یافته بیشتری از تجزیه و تحلیل را اعمال کرده‌اند. به طور خاص، مجموعه های کوچکتر ممکن است به طور کامل تجزیه شوند . معمولاً چنین مجموعه هایی را Treebanks یا Parsed Corpora می نامند . دشواری حصول اطمینان از اینکه کل مجموعه به طور کامل و پیوسته حاشیه نویسی شده است به این معنی است که این مجموعه ها معمولا کوچکتر هستند و شامل حدود یک تا سه میلیون کلمه هستند. سطوح دیگری از تجزیه و تحلیل ساختارمند زبانی امکان پذیر است، از جمله حاشیه نویسی برای ریخت شناسی ، معناشناسی و عمل شناسی .

برنامه های کاربردی

Corpora پایگاه دانش اصلی در زبانشناسی پیکره است . سایر زمینه های کاربردی قابل توجه عبارتند از:

فناوری زبان ، پردازش زبان طبیعی ، زبان‌شناسی محاسباتی
- تجزیه و تحلیل و پردازش انواع مختلف اجسام همچنین موضوع کار زیادی در زبان‌شناسی محاسباتی ، تشخیص گفتار و ترجمه ماشینی است، جایی که اغلب برای ایجاد مدل‌های مارکوف پنهان برای بخشی از برچسب‌گذاری گفتار و اهداف دیگر استفاده می‌شود . فهرست های بدنه و فرکانس به دست آمده از آنها برای آموزش زبان مفید هستند . Corpora را می توان به عنوان یک نوع کمک نوشتن زبان خارجی در نظر گرفت زیرا دانش گرامری متنی که توسط کاربران غیر بومی از طریق قرار گرفتن در معرض متون معتبر در بدنه ها به دست می آید به زبان آموزان اجازه می دهد تا نحوه شکل گیری جمله در زبان مقصد را درک کنند و نوشتن موثر را ممکن می سازد. ^[1]

ترجمه ماشینی
- اجسام چندزبانه ای که به طور ویژه برای مقایسه کنار هم قالب بندی شده اند، پیکره های موازی تراز شده نامیده می شوند . دو نوع اصلی بدنه موازی وجود دارد که شامل متون به دو زبان است. در مجموعه ترجمه ، متون یک زبان ترجمه متون به زبان دیگر هستند. در یک مجموعه قابل مقایسه ، متون از یک نوع هستند و محتوای یکسانی را پوشش می‌دهند، اما ترجمه‌ای از یکدیگر نیستند. ^[2] برای بهره‌برداری از متن موازی، نوعی هم‌ترازی متن که بخش‌های متن معادل (عبارات یا جملات) را شناسایی می‌کند، پیش‌نیاز تحلیل است. الگوریتم‌های ترجمه ماشینی برای ترجمه بین دو زبان اغلب با استفاده از قطعات موازی شامل یک پیکره زبان اول و یک پیکره زبان دوم، که ترجمه عنصر به عنصر بدنه زبان اول است، آموزش داده می‌شوند. ^[3]

فلسفه ها
- مجموعه‌های متنی همچنین در مطالعه اسناد تاریخی ، به عنوان مثال در تلاش برای رمزگشایی خط‌های باستانی، یا در پژوهش‌های کتاب مقدس استفاده می‌شوند . برخی از مجموعه‌های باستان‌شناسی می‌توانند آنقدر کوتاه باشند که یک عکس فوری در زمان ارائه کنند. یکی از کوتاه‌ترین مجموعه‌های زمانی ممکن است متون حروف 15 تا 30 ساله آمارنا ( 1350 قبل از میلاد ) باشد. مجموعه یک شهر باستانی، (مثلاً « متون Kültepe » ترکیه)، ممکن است از طریق مجموعه‌ای از مجموعه‌ها که بر اساس تاریخ‌های مکان یافتن آنها تعیین می‌شوند، عبور کند.

برخی از مجموعه های متنی قابل توجه

همچنین ببینید

مراجع

↑ یون، اچ، و هیرولا، ا. (2004). نگرش دانش آموزان ESL نسبت به استفاده از مجموعه در نوشتن L2. مجله نگارش زبان دوم، 13 (4)، 257–283. بازبینی شده در 21 مارس 2012.
^ Wołk، K. Marasek, K. (7 آوریل 2014). "ترجمه گفتار آماری بلادرنگ". دیدگاه های نوین در سیستم ها و فناوری های اطلاعاتی، جلد 1 . پیشرفت در سیستم های هوشمند و محاسبات. جلد 275. اسپرینگر. صص 107-114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. شابک 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
↑ ولک، کریستوف؛ ماراسک، کریستوف (2015). "داده کاوی موازی تنظیم شده و با شتاب GPU از شرکت های مشابه". در کرال، پاول؛ Matousek, Václav (ویرایشات). متن، گفتار و گفتگو – هجدهمین کنفرانس بین المللی، TSD 2015، پیلسن، جمهوری چک، 14 تا 17 سپتامبر 2015، مجموعه مقالات . نکات سخنرانی در علوم کامپیوتر. جلد 9302. اسپرینگر. صص 32-40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. شابک 978-3-319-24032-9.

لینک های خارجی

پیوندهای منبع ACL SIGLEX: Text Corpora بایگانی شده 13/08/2013 در Wayback Machine
توسعه مجموعه های زبانی: راهنمای عمل خوب
نمونه‌های رایگان (نه رایگان)، مجموعه‌های مبتنی بر وب (هر کدام ۴۵ تا ۴۲۵ میلیون کلمه): آمریکایی (COCA، COHA، TIME)، بریتانیایی (BNC)، اسپانیایی، پرتغالی
ساخت اینترکورپ مجموعه‌های موازی همزمان زبان‌های تدریس شده در دانشکده هنر دانشگاه چارلز.
Sketch Engine: مجموعه‌های باز با دسترسی آزاد
TS Corpus - یک مجموعه ترکی که به طور رایگان برای تحقیقات دانشگاهی در دسترس است.
مجموعه ملی ترکیه - مجموعه ای همه منظوره برای ترکی معاصر
مجموعه سخنرانی های سیاسی، دسترسی رایگان به سخنرانی های سیاسی سیاستمداران آمریکایی و چینی، توسعه یافته توسط کتابخانه دانشگاه باپتیست هنگ کنگ
مجموعه ملی روسیه