مجموعه های دیجیتالی داده های زبان طبیعی
در زبانشناسی و پردازش زبان طبیعی ، پیکره ( شعر : corpora ) یا مجموعه متن مجموعهای از مجموعه دادهها است که از منابع زبانی بهطور دیجیتالی و قدیمیتر، دیجیتالی شده، اعم از حاشیهنویسی یا بدون حاشیهنویسی تشکیل شده است.
مشروح، آنها در زبانشناسی پیکره برای آزمون فرضیه های آماری ، بررسی رخدادها یا اعتبارسنجی قواعد زبانی در یک قلمرو زبانی خاص استفاده شده اند .
نمای کلی
یک مجموعه ممکن است شامل متون به یک زبان واحد ( مجموعه تک زبانه ) یا داده های متنی به چندین زبان ( جنس چند زبانه ) باشد.
به منظور مفیدتر ساختن مجموعه ها برای انجام تحقیقات زبانی، آنها اغلب تحت فرآیندی قرار می گیرند که به عنوان حاشیه نویسی شناخته می شود . نمونه ای از حاشیه نویسی یک پیکره، برچسب گذاری بخشی از گفتار یا برچسب گذاری POS است که در آن اطلاعات مربوط به بخش گفتار هر کلمه (فعل، اسم، صفت و غیره) به شکل برچسب به مجموعه اضافه می شود . مثال دیگر نشان دادن شکل لم (پایه) هر کلمه است. هنگامی که زبان پیکره زبان کاری محققانی نیست که از آن استفاده می کنند، برای دوزبانه کردن حاشیه نویسی از glossing بین خطی استفاده می شود.
برخی از مجموعهها سطوح ساختار یافته بیشتری از تجزیه و تحلیل را اعمال کردهاند. به طور خاص، مجموعه های کوچکتر ممکن است به طور کامل تجزیه شوند . معمولاً چنین مجموعه هایی را Treebanks یا Parsed Corpora می نامند . دشواری حصول اطمینان از اینکه کل مجموعه به طور کامل و پیوسته حاشیه نویسی شده است به این معنی است که این مجموعه ها معمولا کوچکتر هستند و شامل حدود یک تا سه میلیون کلمه هستند. سطوح دیگری از تجزیه و تحلیل ساختارمند زبانی امکان پذیر است، از جمله حاشیه نویسی برای ریخت شناسی ، معناشناسی و عمل شناسی .
برنامه های کاربردی
Corpora پایگاه دانش اصلی در زبانشناسی پیکره است . سایر زمینه های کاربردی قابل توجه عبارتند از:
- ترجمه ماشینی
- اجسام چندزبانه ای که به طور ویژه برای مقایسه کنار هم قالب بندی شده اند، پیکره های موازی تراز شده نامیده می شوند . دو نوع اصلی بدنه موازی وجود دارد که شامل متون به دو زبان است. در مجموعه ترجمه ، متون یک زبان ترجمه متون به زبان دیگر هستند. در یک مجموعه قابل مقایسه ، متون از یک نوع هستند و محتوای یکسانی را پوشش میدهند، اما ترجمهای از یکدیگر نیستند. [2] برای بهرهبرداری از متن موازی، نوعی همترازی متن که بخشهای متن معادل (عبارات یا جملات) را شناسایی میکند، پیشنیاز تحلیل است. الگوریتمهای ترجمه ماشینی برای ترجمه بین دو زبان اغلب با استفاده از قطعات موازی شامل یک پیکره زبان اول و یک پیکره زبان دوم، که ترجمه عنصر به عنصر بدنه زبان اول است، آموزش داده میشوند. [3]
برخی از مجموعه های متنی قابل توجه
همچنین ببینید
مراجع
- ↑ یون، اچ، و هیرولا، ا. (2004). نگرش دانش آموزان ESL نسبت به استفاده از مجموعه در نوشتن L2. مجله نگارش زبان دوم، 13 (4)، 257–283. بازبینی شده در 21 مارس 2012.
- ^ Wołk، K. Marasek, K. (7 آوریل 2014). "ترجمه گفتار آماری بلادرنگ". دیدگاه های نوین در سیستم ها و فناوری های اطلاعاتی، جلد 1 . پیشرفت در سیستم های هوشمند و محاسبات. جلد 275. اسپرینگر. صص 107-114. arXiv : 1509.09090 . doi :10.1007/978-3-319-05951-8_11. شابک 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
- ↑ ولک، کریستوف؛ ماراسک، کریستوف (2015). "داده کاوی موازی تنظیم شده و با شتاب GPU از شرکت های مشابه". در کرال، پاول؛ Matousek, Václav (ویرایشات). متن، گفتار و گفتگو – هجدهمین کنفرانس بین المللی، TSD 2015، پیلسن، جمهوری چک، 14 تا 17 سپتامبر 2015، مجموعه مقالات . نکات سخنرانی در علوم کامپیوتر. جلد 9302. اسپرینگر. صص 32-40. arXiv : 1509.08639 . doi :10.1007/978-3-319-24033-6_4. شابک 978-3-319-24032-9.
لینک های خارجی
- پیوندهای منبع ACL SIGLEX: Text Corpora بایگانی شده 13/08/2013 در Wayback Machine
- توسعه مجموعه های زبانی: راهنمای عمل خوب
- نمونههای رایگان (نه رایگان)، مجموعههای مبتنی بر وب (هر کدام ۴۵ تا ۴۲۵ میلیون کلمه): آمریکایی (COCA، COHA، TIME)، بریتانیایی (BNC)، اسپانیایی، پرتغالی
- ساخت اینترکورپ مجموعههای موازی همزمان زبانهای تدریس شده در دانشکده هنر دانشگاه چارلز.
- Sketch Engine: مجموعههای باز با دسترسی آزاد
- TS Corpus - یک مجموعه ترکی که به طور رایگان برای تحقیقات دانشگاهی در دسترس است.
- مجموعه ملی ترکیه - مجموعه ای همه منظوره برای ترکی معاصر
- مجموعه سخنرانی های سیاسی، دسترسی رایگان به سخنرانی های سیاسی سیاستمداران آمریکایی و چینی، توسعه یافته توسط کتابخانه دانشگاه باپتیست هنگ کنگ
- مجموعه ملی روسیه