stringtranslate.com

مجموعه متن

در زبان‌شناسی و پردازش زبان طبیعی ، پیکره ( شعر : corpora ) یا مجموعه متن مجموعه‌ای از مجموعه داده‌ها است که از منابع زبانی به‌طور دیجیتالی و قدیمی‌تر، دیجیتالی شده، اعم از حاشیه‌نویسی یا بدون حاشیه‌نویسی تشکیل شده است.

مشروح، آنها در زبانشناسی پیکره برای آزمون فرضیه های آماری ، بررسی رخدادها یا اعتبارسنجی قواعد زبانی در یک قلمرو زبانی خاص استفاده شده اند .

نمای کلی

یک مجموعه ممکن است شامل متون به یک زبان واحد ( مجموعه تک زبانه ) یا داده های متنی به چندین زبان ( جنس چند زبانه ) باشد.

به منظور مفیدتر ساختن مجموعه ها برای انجام تحقیقات زبانی، آنها اغلب تحت فرآیندی قرار می گیرند که به عنوان حاشیه نویسی شناخته می شود . نمونه ای از حاشیه نویسی یک پیکره، برچسب گذاری بخشی از گفتار یا برچسب گذاری POS است که در آن اطلاعات مربوط به بخش گفتار هر کلمه (فعل، اسم، صفت و غیره) به شکل برچسب به مجموعه اضافه می شود . مثال دیگر نشان دادن شکل لم (پایه) هر کلمه است. هنگامی که زبان پیکره زبان کاری محققانی نیست که از آن استفاده می کنند، برای دوزبانه کردن حاشیه نویسی از glossing بین خطی استفاده می شود.

برخی از مجموعه‌ها سطوح ساختار یافته بیشتری از تجزیه و تحلیل را اعمال کرده‌اند. به طور خاص، مجموعه های کوچکتر ممکن است به طور کامل تجزیه شوند . معمولاً چنین مجموعه هایی را Treebanks یا Parsed Corpora می نامند . دشواری حصول اطمینان از اینکه کل مجموعه به طور کامل و پیوسته حاشیه نویسی شده است به این معنی است که این مجموعه ها معمولا کوچکتر هستند و شامل حدود یک تا سه میلیون کلمه هستند. سطوح دیگری از تجزیه و تحلیل ساختارمند زبانی امکان پذیر است، از جمله حاشیه نویسی برای ریخت شناسی ، معناشناسی و عمل شناسی .

برنامه های کاربردی

Corpora پایگاه دانش اصلی در زبانشناسی پیکره است . سایر زمینه های کاربردی قابل توجه عبارتند از:

برخی از مجموعه های متنی قابل توجه

همچنین ببینید

مراجع

  1. یون، اچ، و هیرولا، ا. (2004). نگرش دانش آموزان ESL نسبت به استفاده از مجموعه در نوشتن L2. مجله نگارش زبان دوم، 13 (4)، 257–283. بازبینی شده در 21 مارس 2012.
  2. ^ Wołk، K. Marasek, K. (7 آوریل 2014). "ترجمه گفتار آماری بلادرنگ". دیدگاه های نوین در سیستم ها و فناوری های اطلاعاتی، جلد 1 . پیشرفت در سیستم های هوشمند و محاسبات. جلد 275. اسپرینگر. صص 107-114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. شابک 978-3-319-05950-1. ISSN  2194-5357. S2CID  15361632.
  3. ولک، کریستوف؛ ماراسک، کریستوف (2015). "داده کاوی موازی تنظیم شده و با شتاب GPU از شرکت های مشابه". در کرال، پاول؛ Matousek, Václav (ویرایشات). متن، گفتار و گفتگو – هجدهمین کنفرانس بین المللی، TSD 2015، پیلسن، جمهوری چک، 14 تا 17 سپتامبر 2015، مجموعه مقالات . نکات سخنرانی در علوم کامپیوتر. جلد 9302. اسپرینگر. صص 32-40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. شابک 978-3-319-24032-9.

لینک های خارجی