stringtranslate.com

ابهام زدایی معنای کلمه

ابهام‌زدایی با معنای کلمه فرآیندی است برای شناسایی معنای یک کلمه در یک جمله یا بخش دیگری از بافت . درو شناخت زبان انسان ، معمولاً ناخودآگاه است.

با توجه به اینکه زبان طبیعی نیازمند انعکاس واقعیت عصبی است، همانطور که توسط توانایی های ارائه شده توسط شبکه های عصبی مغز شکل می گیرد ، علم کامپیوتر در توسعه توانایی کامپیوترها برای انجام پردازش زبان طبیعی و یادگیری ماشین با چالش طولانی مدت روبرو بوده است .

تکنیک‌های زیادی مورد تحقیق قرار گرفته‌اند، از جمله روش‌های مبتنی بر فرهنگ لغت که از دانش رمزگذاری‌شده در منابع واژگانی استفاده می‌کنند، روش‌های یادگیری ماشینی نظارت‌شده که در آن یک طبقه‌بندی برای هر کلمه متمایز در مجموعه‌ای از مثال‌های مشروح با حس دستی آموزش داده می‌شود، و روش‌های کاملاً بدون نظارت که خوشه‌بندی می‌شوند. وقوع کلمات، در نتیجه القای حس کلمه. در این میان، رویکردهای یادگیری تحت نظارت موفق‌ترین الگوریتم‌ها تا به امروز بوده‌اند .

صحت الگوریتم های فعلی بدون انبوهی از هشدارها دشوار است. در زبان انگلیسی، دقت در سطح درشت دانه ( هموگراف ) معمولاً بالای 90٪ (از سال 2009) است، با برخی از روش ها در هموگرافی های خاص بیش از 96٪ به دست می آید. در تمایزات حسی دقیق‌تر، دقت‌های برتر از 59.1% تا 69.0% در تمرین‌های ارزیابی گزارش شده است (SemEval-2007، Senseval-2)، که در آن دقت خط پایه ساده‌ترین الگوریتم ممکن برای همیشه انتخاب متداول‌ترین حس 51.4% بود. و به ترتیب 57 درصد.

انواع

ابهام‌زدایی به دو ورودی سخت‌گیرانه نیاز دارد: یک فرهنگ لغت برای مشخص کردن حس‌هایی که باید ابهام‌زدایی شوند و مجموعه‌ای از داده‌های زبانی که باید ابهام‌زدایی شوند (در برخی روش‌ها، مجموعه آموزشی از مثال‌های زبان نیز مورد نیاز است). کار WSD دو نوع دارد: "نمونه واژگانی" (ابهام‌زدایی از وقوع نمونه کوچکی از کلمات هدف که قبلاً انتخاب شده‌اند) و کار "همه کلمات" (ابهام‌زدایی از همه کلمات در یک متن در حال اجرا). کار "همه کلمات" به طور کلی شکل واقعی‌تری از ارزیابی در نظر گرفته می‌شود، اما تولید مجموعه گران‌تر است، زیرا حاشیه‌نویس‌های انسانی باید هر بار که نیاز به قضاوت برچسب‌گذاری دارند، تعاریف هر کلمه را در دنباله بخوانند، نه یک بار. برای بلوکی از نمونه‌ها برای همان کلمه هدف.

تاریخچه

WSD اولین بار به عنوان یک کار محاسباتی متمایز در طی روزهای اولیه ترجمه ماشینی در دهه 1940 فرموله شد و آن را به یکی از قدیمی ترین مشکلات در زبان شناسی محاسباتی تبدیل کرد. وارن ویور برای اولین بار این مسئله را در زمینه محاسباتی در یادداشت خود در مورد ترجمه در سال 1949 مطرح کرد. [1] بعداً، بار-هیلل (1960) استدلال کرد [2] که WSD را نمی توان با "کامپیوتر الکترونیکی" حل کرد، زیرا به طور کلی نیاز به مدل سازی کل دانش جهان است.

در دهه 1970، WSD یک وظیفه فرعی از سیستم‌های تفسیر معنایی بود که در حوزه هوش مصنوعی توسعه یافت و با معنای شناسی ترجیحی ویلکس شروع شد. با این حال، از آنجایی که سیستم‌های WSD در آن زمان عمدتاً مبتنی بر قوانین و کدگذاری دستی بودند، مستعد گلوگاه کسب دانش بودند.

در دهه 1980 منابع واژگانی در مقیاس بزرگ، مانند فرهنگ لغت زبان انگلیسی کنونی یادگیرنده پیشرفته آکسفورد (OALD) در دسترس قرار گرفت: کدگذاری دستی با دانش استخراج شده به طور خودکار از این منابع جایگزین شد، اما ابهام‌زدایی همچنان مبتنی بر دانش یا مبتنی بر فرهنگ لغت بود. .

در دهه 1990، انقلاب آماری زبان‌شناسی محاسباتی را پیشرفته کرد و WSD به یک مسئله پارادایم تبدیل شد که تکنیک‌های یادگیری ماشین نظارت شده را بر روی آن اعمال می‌کرد.

در دهه 2000، تکنیک‌های نظارت‌شده در دقت به سطح بالایی رسیدند، و بنابراین توجه به حواس درشت‌تر، تطبیق دامنه ، سیستم‌های مبتنی بر پیکره نیمه‌نظارت‌شده و بدون نظارت، ترکیبی از روش‌های مختلف، و بازگشت سیستم‌های مبتنی بر دانش از طریق نمودار معطوف شد. روش های مبتنی بر با این حال، سیستم های نظارت شده همچنان بهترین عملکرد را دارند.

مشکلات

تفاوت بین لغت نامه ها

یکی از مشکلات ابهام‌زدایی از معنای کلمه، تصمیم‌گیری درباره چیستی حواس است، زیرا فرهنگ‌های لغت و اصطلاحنامه‌های مختلف تقسیم‌بندی‌های متفاوتی از کلمات را به حس ارائه می‌کنند. برخی از محققان انتخاب یک فرهنگ لغت خاص و استفاده از مجموعه حواس آن را برای مقابله با این موضوع پیشنهاد کرده اند. با این حال، به طور کلی، نتایج تحقیقات با استفاده از تمایزات گسترده در حواس، بسیار بهتر از نتایج با استفاده از تمایزهای محدود بوده است. [3] [4] بیشتر محققان به کار بر روی WSD ریز دانه ادامه می دهند .

بیشتر تحقیقات در زمینه WSD با استفاده از WordNet به عنوان فهرستی از حس مرجع برای زبان انگلیسی انجام می شود. WordNet یک واژگان محاسباتی است که مفاهیم را به عنوان مجموعه‌های مترادف رمزگذاری می‌کند (مثلاً مفهوم ماشین به صورت { car, auto, automobile, machine, motorcar } کدگذاری می‌شود). منابع دیگری که برای اهداف ابهام‌زدایی مورد استفاده قرار می‌گیرند عبارتند از: اصطلاحنامه روگت [5] و ویکی‌پدیا . [6] اخیراً، BabelNet ، یک فرهنگ لغت دایره المعارف چند زبانه، برای WSD چند زبانه استفاده شده است. [7]

برچسب گذاری بخشی از گفتار

در هر آزمون واقعی، نشان‌گذاری بخشی از گفتار و برچسب‌گذاری حسی ثابت شده است که ارتباط بسیار نزدیکی با هم دارند و هر یک به طور بالقوه محدودیت‌هایی را بر دیگری تحمیل می‌کنند. این سؤال که آیا این وظایف باید با هم نگه داشته شوند یا از هم جدا شوند، هنوز به اتفاق آرا حل نشده است، اما اخیراً دانشمندان تمایل دارند این موارد را جداگانه آزمایش کنند (مثلاً در مسابقات Senseval/ SemEval بخش‌هایی از گفتار به عنوان ورودی برای ابهام‌زدایی متن ارائه می‌شود).

هر دو برچسب گذاری WSD و بخشی از گفتار شامل ابهام زدایی یا برچسب زدن با کلمات است. با این حال، الگوریتم‌هایی که برای یکی استفاده می‌شوند، برای دیگری به خوبی کار نمی‌کنند، عمدتاً به این دلیل که بخش گفتار یک کلمه عمدتاً توسط یک تا سه کلمه بلافاصله مجاور تعیین می‌شود، در حالی که معنای یک کلمه ممکن است با کلمات دورتر تعیین شود. . میزان موفقیت الگوریتم‌های برچسب‌گذاری بخشی از گفتار در حال حاضر بسیار بیشتر از WSD است، دقت پیشرفته‌تر در حدود 96% [8] یا بهتر، در مقایسه با دقت کمتر از 75% [ نیاز به منبع ] در معنای کلمه ابهام زدایی با یادگیری نظارت شده . این ارقام برای زبان انگلیسی معمولی است و ممکن است با ارقام سایر زبان ها بسیار متفاوت باشد.

واریانس بین داور

مشکل دیگر واریانس بین داوری است . سیستم‌های WSD معمولاً با مقایسه نتایج آنها در یک کار با نتایج یک انسان آزمایش می‌شوند. با این حال، در حالی که اختصاص بخشی از گفتار به متن نسبتاً آسان است، ثابت شده است که آموزش افراد برای برچسب زدن حواس بسیار دشوارتر است. [9] در حالی که کاربران می‌توانند تمام قسمت‌های ممکن گفتار را که یک کلمه می‌تواند بگیرد، حفظ کنند، اغلب برای افراد غیرممکن است که تمام حواس یک کلمه را به خاطر بسپارند. علاوه بر این، انسان ها بر سر کار مورد نظر توافق ندارند - فهرستی از حواس و جملات ارائه دهید، و انسان ها همیشه در مورد اینکه کدام کلمه به کدام معنا تعلق دارد، توافق نمی کنند. [10]

از آنجایی که عملکرد انسان به عنوان استاندارد عمل می کند، یک حد بالایی برای عملکرد رایانه است. با این حال، عملکرد انسان در تمایزات درشت دانه بسیار بهتر از تمایزات دانه ریز است ، بنابراین دوباره به همین دلیل است که تحقیقات در مورد تمایزات دانه درشت [11] [12] در تمرینات ارزیابی اخیر WSD مورد آزمایش قرار گرفته است. [3] [4]

موجودی حس و وابستگی الگوریتم‌ها به وظیفه

فهرست حسی مستقل از کار، مفهومی منسجم نیست: [13] هر کار مستلزم تقسیم خاص خود از معنای کلمه به حواس مرتبط با کار است. علاوه بر این، الگوریتم های کاملا متفاوت ممکن است برای برنامه های مختلف مورد نیاز باشد. در ترجمه ماشینی، مشکل به شکل انتخاب کلمه هدف است. «حواس» کلماتی در زبان مقصد هستند که اغلب با تمایزات معنی‌داری در زبان مبدأ مطابقت دارند («بانک» می‌تواند به زبان فرانسوی banque - یعنی «بانک مالی» یا رودخانه - یعنی «لبه رودخانه» ترجمه شود. '). در بازیابی اطلاعات، لزوماً نیازی به فهرست معنا نیست، زیرا کافی است بدانیم که یک کلمه در پرس و جو و سند بازیابی شده به یک معنا به کار رفته است. معنای آن بی اهمیت است.

گسسته حواس

در نهایت، خود مفهوم " حس کلمه " لغزنده و بحث برانگیز است. اکثر مردم می توانند در تمایزات در سطح هموگرافی درشت دانه توافق کنند (مثلاً قلم به عنوان ابزار نوشتن یا محفظه)، اما یک سطح به چند معنایی ریزدانه پایین می آیند ، و اختلاف نظرهایی ایجاد می شود. به عنوان مثال، در Senseval-2، که از تمایزات حسی دقیق استفاده می‌کرد، حاشیه‌نویسان انسانی تنها در 85 درصد از وقوع کلمات موافق بودند. [14] معنای کلمه در اصل بی نهایت متغیر و حساس به متن است. به آسانی به معانی فرعی مجزا یا مجزا تقسیم نمی شود. [15] لغت شناسان اغلب معانی کلمات سست و متداخل را در پیکره ها کشف می کنند، و معانی استاندارد یا متعارف را به طرق مختلف گیج کننده گسترش، تعدیل و مورد بهره برداری قرار می دهند. هنر واژگان شناسی عبارت است از تعمیم از مجموعه به تعاریفی که دامنه کامل معنای یک کلمه را برمی انگیزد و توضیح می دهد و به نظر می رسد که کلمات از نظر معنایی به خوبی رفتار می کنند. با این حال، به هیچ وجه مشخص نیست که آیا این تمایزات معنی مشابه در کاربردهای محاسباتی قابل اجرا هستند ، زیرا تصمیمات فرهنگ نویسان معمولاً توسط ملاحظات دیگری هدایت می شود. در سال 2009، یک کار - به نام جایگزینی واژگانی - به عنوان راه حل ممکن برای مشکل گسست حسی پیشنهاد شد. [16] وظیفه شامل ارائه جایگزینی برای یک کلمه در زمینه است که معنای کلمه اصلی را حفظ می کند (به طور بالقوه، می توان جایگزین ها را از واژگان کامل زبان مقصد انتخاب کرد، بنابراین بر گسستگی غلبه کرد).

رویکردها و روش ها

دو رویکرد اصلی برای WSD وجود دارد - رویکردهای عمیق و رویکردهای کم عمق.

رویکردهای عمیق دسترسی به مجموعه جامعی از دانش جهانی را فرض می کند . این رویکردها معمولاً در عمل چندان موفق تلقی نمی شوند، عمدتاً به این دلیل که چنین مجموعه ای از دانش در قالبی قابل خواندن توسط رایانه، خارج از حوزه های بسیار محدود وجود ندارد. [17] علاوه بر این، به دلیل سنت طولانی در زبان‌شناسی محاسباتی ، استفاده از چنین رویکردهایی از نظر دانش رمزگذاری‌شده و در برخی موارد، تشخیص دانش مربوط به دانش زبانی یا جهانی دشوار است. اولین تلاش مارگارت مسترمن و همکارانش در واحد تحقیقات زبان کمبریج در انگلستان در دهه 1950 بود . این تلاش به عنوان داده از نسخه کارت پانچ شده اصطلاحنامه Roget و "سرهای" شماره گذاری شده آن به عنوان نشانگر موضوعات استفاده کرد و با استفاده از یک الگوریتم تقاطع مجموعه ای به دنبال تکرار در متن گشت. این خیلی موفق نبود، [18] اما روابط قوی با کارهای بعدی، به ویژه بهینه سازی یادگیری ماشینی یارووسکی از روش اصطلاحنامه در دهه 1990 داشت.

رویکردهای سطحی سعی در درک متن ندارند، بلکه کلمات اطراف را در نظر می گیرند. این قوانین را می توان به طور خودکار توسط کامپیوتر، با استفاده از مجموعه آموزشی از کلمات برچسب گذاری شده با حواس کلمات آنها استخراج کرد. این رویکرد، در حالی که از نظر تئوری به اندازه رویکردهای عمیق قدرتمند نیست، به دلیل دانش محدود کامپیوتر در جهان، در عمل نتایج برتری به همراه دارد.

چهار رویکرد مرسوم برای WSD وجود دارد:

تقریباً همه این رویکردها با تعریف پنجره ای از n کلمه محتوایی در اطراف هر کلمه به منظور رفع ابهام در مجموعه، و تجزیه و تحلیل آماری آن n کلمه اطراف کار می کنند. دو رویکرد سطحی که برای آموزش و سپس رفع ابهام استفاده می شود، طبقه بندی کننده های ساده بیز و درخت های تصمیم هستند . در تحقیقات اخیر، روش‌های مبتنی بر هسته مانند ماشین‌های بردار پشتیبان عملکرد برتری را در یادگیری نظارت شده نشان داده‌اند . رویکردهای مبتنی بر نمودار نیز توجه زیادی را از سوی جامعه پژوهشی به خود جلب کرده‌اند و در حال حاضر عملکردی نزدیک به وضعیت هنر دارند.

روش های فرهنگ لغت و دانش محور

الگوریتم Lesk [19] روشی مبتنی بر فرهنگ لغت است. بر این فرض استوار است که کلماتی که با هم در متن به کار رفته اند با یکدیگر مرتبط هستند و می توان این رابطه را در تعاریف کلمات و معانی آنها مشاهده کرد. دو (یا بیشتر) کلمه با یافتن جفت حس فرهنگ لغت با بیشترین همپوشانی کلمه در تعاریف فرهنگ لغت‌شان رفع ابهام می‌شوند. به عنوان مثال، هنگام رفع ابهام کلمات در "مخروط کاج"، تعاریف حواس مناسب هر دو شامل کلمات همیشه سبز و درخت (حداقل در یک فرهنگ لغت) می شود. رویکرد مشابهی [20] کوتاه ترین مسیر را بین دو کلمه جستجو می کند: کلمه دوم به طور مکرر در میان تعاریف هر گونه معنایی کلمه اول جستجو می شود، سپس در میان تعاریف هر گونه معنایی هر کلمه در تعاریف قبلی و غیره. در در نهایت، کلمه اول با انتخاب نوع معنایی که فاصله کلمه اول تا دوم را به حداقل می رساند، ابهام می یابد.

جایگزینی برای استفاده از تعاریف، در نظر گرفتن ارتباط کلی کلمه-معنا و محاسبه شباهت معنایی هر جفت حس کلمه بر اساس یک پایگاه دانش واژگانی معین مانند WordNet است . روش‌های مبتنی بر نمودار که یادآور گسترش تحقیقات فعال‌سازی در روزهای اولیه تحقیقات هوش مصنوعی هستند، با موفقیت به کار گرفته شده‌اند. نشان داده شده است که رویکردهای پیچیده‌تر مبتنی بر نمودار تقریباً به خوبی روش‌های نظارت شده [21] عمل می‌کنند یا حتی از آنها در حوزه‌های خاص بهتر عمل می‌کنند. [3] [22] اخیراً گزارش شده است که معیارهای اتصال گراف ساده ، مانند درجه ، WSD پیشرفته‌ای را در حضور پایگاه دانش واژگانی به اندازه کافی غنی انجام می‌دهند. [23] همچنین، انتقال خودکار دانش در قالب روابط معنایی از ویکی‌پدیا به ورد نت نشان داده شده است که روش‌های ساده مبتنی بر دانش را تقویت می‌کند، و آنها را قادر می‌سازد تا با بهترین سیستم‌های نظارت شده رقابت کنند و حتی در یک محیط خاص از آنها بهتر عمل کنند. [24]

استفاده از اولویت‌های انتخابی (یا محدودیت‌های انتخابی) نیز مفید است، برای مثال، با علم به اینکه شخص معمولاً غذا می‌پزد، می‌توان کلمه باس را در «من در حال پختن باس‌ها هستم» (یعنی این یک آلات موسیقی نیست) ابهام زد.

روش های نظارت شده

روش‌های نظارت شده بر این فرض استوارند که زمینه می‌تواند به تنهایی شواهد کافی برای ابهام‌زدایی کلمات ارائه دهد (از این رو، عقل سلیم و استدلال غیرضروری تلقی می‌شوند). احتمالاً هر الگوریتم یادگیری ماشینی در WSD اعمال شده است، از جمله تکنیک‌های مرتبط مانند انتخاب ویژگی ، بهینه‌سازی پارامتر، و یادگیری گروهی . ماشین‌های بردار پشتیبانی و یادگیری مبتنی بر حافظه تا به امروز موفق‌ترین رویکردها هستند، احتمالاً به این دلیل که می‌توانند با ابعاد بالای فضای ویژگی کنار بیایند. با این حال، این روش‌های نظارت شده در معرض تنگنای کسب دانش جدید قرار دارند، زیرا برای آموزش به مقادیر قابل‌توجهی از مجموعه‌های دارای برچسب حسی دستی، که ایجاد آنها پر زحمت و پرهزینه است، متکی هستند.

روش های نیمه نظارتی

به دلیل کمبود داده‌های آموزشی، بسیاری از الگوریتم‌های ابهام‌زدایی حس کلمه از یادگیری نیمه نظارتی استفاده می‌کنند که به داده‌های برچسب‌دار و بدون برچسب اجازه می‌دهد. الگوریتم یارووسکی نمونه اولیه چنین الگوریتمی بود. [25] این زبان از ویژگی‌های «یک حس در هر هم‌نشینی» و «یک حس در هر گفتمان» در زبان‌های انسانی برای ابهام‌زدایی معنای کلمه استفاده می‌کند. از مشاهده، کلمات تمایل دارند در اکثر گفتمان‌های داده شده و در یک ترکیب معین فقط یک معنا را نشان دهند. [26]

رویکرد راه‌اندازی از مقدار کمی داده اولیه برای هر کلمه شروع می‌شود: یا نمونه‌های آموزشی برچسب‌گذاری شده دستی یا تعداد کمی از قوانین تصمیم‌گیری مطمئن (مثلاً «بازی» در زمینه «باس» تقریباً همیشه ابزار موسیقی را نشان می‌دهد). دانه ها برای آموزش یک طبقه بندی کننده اولیه با استفاده از هر روش نظارت شده استفاده می شوند. سپس این طبقه‌بندی‌کننده در قسمت بدون برچسب بدنه برای استخراج یک مجموعه آموزشی بزرگ‌تر استفاده می‌شود که در آن فقط مطمئن‌ترین طبقه‌بندی‌ها گنجانده شده است. این فرآیند تکرار می‌شود، هر طبقه‌بندی‌کننده جدید روی یک مجموعه آموزشی بزرگ‌تر آموزش داده می‌شود، تا زمانی که کل پیکره مصرف شود، یا تا زمانی که به حداکثر تعداد تکرار معینی برسد.

سایر تکنیک‌های نیمه‌نظارت‌شده از مقادیر زیادی از پیکره‌های بدون برچسب برای ارائه اطلاعات همزمانی استفاده می‌کنند که مکمل پیکره‌های برچسب‌گذاری شده است. این تکنیک‌ها پتانسیل کمک به انطباق مدل‌های تحت نظارت را با حوزه‌های مختلف دارند.

همچنین، یک کلمه مبهم در یک زبان اغلب بسته به معنای کلمه به کلمات مختلف در زبان دوم ترجمه می شود. اجسام دوزبانه تراز واژه‌ای برای استنتاج تمایزات حسی بین زبانی، نوعی سیستم نیمه نظارت شده، استفاده شده‌اند. [ نیازمند منبع ]

روش های بدون نظارت

یادگیری بدون نظارت بزرگترین چالش برای محققان WSD است. فرض اساسی این است که حواس مشابه در زمینه‌های مشابه رخ می‌دهند، و بنابراین می‌توان با خوشه‌بندی رخدادهای واژه‌ای با استفاده از برخی معیارهای تشابه بافت، [27]، حواس را از متن القا کرد . سپس، رخدادهای جدید کلمه را می توان به نزدیکترین خوشه ها/حواس القایی طبقه بندی کرد. عملکرد کمتر از روش های دیگر توصیف شده در بالا بوده است، اما مقایسه دشوار است زیرا حواس القا شده باید به فرهنگ لغت شناخته شده حواس کلمات نگاشت شوند. اگر نگاشت به مجموعه ای از حواس فرهنگ لغت مورد نظر نباشد، ارزیابی های مبتنی بر خوشه (شامل اندازه گیری های آنتروپی و خلوص) می تواند انجام شود. روش دیگر، روش های القای حس کلمه را می توان در یک برنامه آزمایش و مقایسه کرد. به عنوان مثال، نشان داده شده است که القای حس کلمه، خوشه بندی نتایج جستجوی وب را با افزایش کیفیت خوشه های نتایج و درجه تنوع فهرست های نتایج، بهبود می بخشد. [28] [29] امید است که یادگیری بدون نظارت بر تنگنای کسب دانش غلبه کند زیرا آنها به تلاش دستی وابسته نیستند.

نمایش کلمات با در نظر گرفتن بافت آنها از طریق بردارهای متراکم با اندازه ثابت ( جاسازی کلمه ) به یکی از اساسی ترین بلوک ها در چندین سیستم NLP تبدیل شده است. [30] [31] [32] حتی اگر بیشتر تکنیک‌های سنتی جاسازی کلمه، کلمات را با چندین معانی در یک نمایش برداری واحد ترکیب می‌کنند، هنوز هم می‌توان از آنها برای بهبود WSD استفاده کرد. [33] یک رویکرد ساده برای استفاده از جاسازی‌های کلمات از پیش محاسبه‌شده برای نشان دادن حواس کلمات، محاسبه مرکز خوشه‌های حسی است. [34] [35] علاوه بر تکنیک‌های جاسازی کلمه، پایگاه‌های داده واژگانی (مانند WordNet ، ConceptNet ، BabelNet ) همچنین می‌توانند به سیستم‌های بدون نظارت در نقشه‌برداری کلمات و حواس آنها به عنوان فرهنگ لغت کمک کنند. برخی از تکنیک‌هایی که پایگاه‌های داده واژگانی و جاسازی‌های کلمه را ترکیب می‌کنند در AutoExtend [36] [37] و Most Suitable Sense Annotation (MSSA) ارائه شده‌اند. [38] در AutoExtend، [37] آنها روشی را ارائه می‌کنند که نمایش ورودی شی را از ویژگی‌های آن جدا می‌کند، مانند کلمات و حواس کلمه آنها. AutoExtend از ساختار گراف برای ترسیم اشیاء کلمات (مثلا متن) و غیر کلمه (مثلا synsets در WordNet ) به عنوان گره و رابطه بین گره ها به عنوان یال استفاده می کند. روابط (لبه ها) در AutoExtend می تواند اضافه یا شباهت بین گره های آن را بیان کند. اولی شهود پشت حساب افست را به تصویر می کشد، [30] در حالی که دومی شباهت بین دو گره را تعریف می کند. در MSSA، [38] یک سیستم ابهام‌زدایی بدون نظارت از شباهت بین حس‌های کلمه در یک پنجره زمینه ثابت استفاده می‌کند تا مناسب‌ترین معنای کلمه را با استفاده از یک مدل تعبیه کلمه از پیش آموزش‌دیده و WordNet انتخاب کند . برای هر پنجره زمینه، MSSA مرکز هر تعریف معنی کلمه را با میانگین بردارهای کلمه کلمات آن در براق‌های WordNet محاسبه می‌کند (یعنی براقیت تعریف کوتاه و یک یا چند مثال کاربردی) با استفاده از یک مدل تعبیه کلمه از قبل آموزش‌دیده شده. این مرکزها بعداً برای انتخاب کلمه حس با بیشترین شباهت یک کلمه هدف به همسایگان بلافاصله مجاور آن (یعنی کلمات پیشین و جانشین) استفاده می شوند. پس از حاشیه نویسی و رفع ابهام همه کلمات، می توان از آنها به عنوان یک مجموعه آموزشی در هر تکنیک استاندارد جاسازی کلمه استفاده کرد. در نسخه بهبودیافته خود، MSSA می‌تواند از تعبیه‌های معنی کلمه برای تکرار فرآیند ابهام‌زدایی خود به صورت مکرر استفاده کند.

رویکردهای دیگر

سایر رویکردها ممکن است در روش های خود متفاوت باشند:

زبان های دیگر

موانع محلی و خلاصه

گلوگاه کسب دانش شاید مانع اصلی برای حل مشکل WSD باشد. روش‌های نظارت‌نشده بر دانش مربوط به حواس کلمات تکیه می‌کنند، که فقط در فرهنگ‌های لغت و پایگاه‌های واژگانی فرمول‌بندی شده است. روش های نظارت شده به طور اساسی به وجود مثال های حاشیه نویسی دستی برای هر معنای کلمه بستگی دارد، شرطی که می تواند تا کنون [ چه زمانی؟ همانطور که در تمرینات Senseval انجام می شود ، فقط برای چند کلمه برای اهداف آزمایشی استفاده می شود .

یکی از امیدوارکننده‌ترین گرایش‌ها در تحقیقات WSD، استفاده از بزرگترین مجموعه‌ای است که تا به حال در دسترس بوده است، وب جهانی ، برای به دست آوردن خودکار اطلاعات لغوی. [50] WSD به طور سنتی به عنوان یک فناوری مهندسی زبان میانی شناخته می‌شود که می‌تواند کاربردهایی مانند بازیابی اطلاعات (IR) را بهبود بخشد. با این حال، در این مورد، عکس آن نیز صادق است: موتورهای جستجوی وب تکنیک‌های IR ساده و قوی را پیاده‌سازی می‌کنند که می‌توانند با موفقیت وب را برای اطلاعات مورد استفاده در WSD استخراج کنند. فقدان تاریخی داده‌های آموزشی باعث ظهور برخی الگوریتم‌ها و تکنیک‌های جدید شده است، همانطور که در دستیابی خودکار بدنه‌های دارای برچسب حسی توضیح داده شده است .

منابع دانش خارجی

دانش جزء اساسی WSD است. منابع دانش داده هایی را ارائه می دهند که برای ارتباط حواس با کلمات ضروری است. آنها می توانند از مجموعه ای از متون، بدون برچسب یا حاشیه نویسی شده با حواس کلمات، تا فرهنگ لغت های قابل خواندن ماشینی، اصطلاحنامه ها، واژه نامه ها، هستی شناسی ها و غیره متفاوت باشند .

ساختار یافته:

  1. دیکشنری های قابل خواندن با ماشین (MRDs)
  2. هستی شناسی ها
  3. اصطلاحنامه

بدون ساختار:

  1. منابع تجمیع
  2. سایر منابع (مانند لیست های فراوانی کلمه ، لیست های توقف ، برچسب های دامنه، [53] و غیره)
  3. Corpora : پیکره‌های خام و پیکره‌های دارای حاشیه‌نویسی حسی

ارزیابی

مقایسه و ارزیابی سیستم‌های مختلف WSD به دلیل مجموعه‌های آزمایشی مختلف، موجودی‌های حسی و منابع دانش اتخاذ شده بسیار دشوار است. قبل از سازماندهی کمپین های ارزیابی خاص، اکثر سیستم ها بر روی مجموعه داده های داخلی، اغلب در مقیاس کوچک، ارزیابی می شدند . به منظور آزمایش الگوریتم، توسعه دهندگان باید زمان خود را صرف حاشیه نویسی همه موارد تکرار کنند. و مقایسه روش‌ها حتی در یک مجموعه مشابه در صورت وجود موجودی‌های حسی متفاوت، واجد شرایط نیست.

به منظور تعریف مجموعه داده ها و روش های ارزیابی مشترک، کمپین های ارزیابی عمومی سازماندهی شده است. Senseval (در حال حاضر به SemEval تغییر نام داده است ) یک مسابقه بین المللی ابهام زدایی از واژه است که از سال 1998 هر سه سال یکبار برگزار می شود: Senseval-1 (1998)، Senseval-2 (2001)، Senseval-3 [غصب شده] (2004)، و جانشین آن، SemEval. (2007). هدف این مسابقه سازماندهی سخنرانی‌های مختلف، آماده‌سازی و حاشیه‌نویسی دستی برای سیستم‌های آزمایشی، انجام ارزیابی مقایسه‌ای سیستم‌های WSD در چندین نوع کار، از جمله تمام کلمات و نمونه واژگانی WSD برای زبان‌های مختلف، و اخیراً ، وظایف جدید مانند برچسب گذاری نقش معنایی ، WSD براق، جایگزینی واژگانی و غیره. سیستم های ارائه شده برای ارزیابی به این مسابقات معمولاً تکنیک های مختلفی را ادغام می کنند و اغلب روش های نظارت شده و مبتنی بر دانش را ترکیب می کنند (به ویژه برای جلوگیری از عملکرد بد در فقدان نمونه های آموزشی) .

در سال های اخیر 2007-2012 ، انتخاب های کار ارزیابی WSD رشد کرده است و معیار ارزیابی WSD بسته به نوع کار ارزیابی WSD به شدت تغییر کرده است. در زیر انواع وظایف WSD را برشمرده است:

انتخاب های طراحی کار

همانطور که تکنولوژی تکامل می یابد، وظایف Word Sense ابهام زدایی (WSD) در اشکال مختلف به سمت جهت های مختلف تحقیقاتی و برای زبان های بیشتر رشد می کند:

نرم افزار

همچنین ببینید

مراجع

  1. ^ ویور 1949.
  2. Bar-Hillel 1964, pp. 174-179.
  3. ^ abc Navigli, Litkowski & Hargraves 2007, pp. 30-35.
  4. ^ آب پرادان و همکاران. 2007، صص 87-92.
  5. ^ Yarowsky 1992, pp. 454-460.
  6. Mihalcea 2007.
  7. ^ A. Moro; الف. راگاناتو; R. Navigli. Entity Linking با ابهام‌زدایی Word Sense: یک رویکرد یکپارچه ملاقات می‌کند. بایگانی شده در 08-08-2014 در ماشین Wayback . معاملات انجمن زبانشناسی محاسباتی (TACL). 2. صص 231-244. 2014.
  8. مارتینز، آنجل آر. (ژانویه 2012). «برچسب گذاری قسمتی از گفتار: برچسب گذاری قسمتی از گفتار». بررسی های بین رشته ای وایلی: آمار محاسباتی . 4 (1): 107-113. doi :10.1002/wics.195. S2CID  62672734. بایگانی شده از نسخه اصلی در 2023-07-15 . بازیابی شده در 2021-04-01 .
  9. فلبام 1997.
  10. اسنایدر و پالمر 2004، صفحات 41-43.
  11. Navigli 2006، pp. 105-112.
  12. ^ اسنو و همکاران 2007، صفحات 1005-1014.
  13. Palmer, Babko-Malaya & Dang 2004, pp. 49-56.
  14. ادموندز 2000.
  15. Kilgarrif 1997, pp. 91-113.
  16. McCarthy & Navigli 2009, pp. 139-159.
  17. ^ لنات و گوها 1989.
  18. Wilks, Slator & Guthrie 1996.
  19. ^ لسک 1986، صفحات 24-26.
  20. ^ دیامانتینی، سی. میرکولی، ع. پوتنا، دی. Storti, E. (2015-06-01). "ابهام زدایی معنایی در یک سیستم کشف اطلاعات اجتماعی". کنفرانس بین المللی فناوری ها و سیستم های همکاری (CTS) 2015 . صص 326-333. doi :10.1109/CTS.2015.7210442. شابک 978-1-4673-7647-1. S2CID  13260353.
  21. Navigli & Velardi 2005، pp. 1063-1074.
  22. Agirre, Lopez de Lacalle & Soroa 2009, pp. 1501–1506.
  23. ناویگلی و لاپاتا 2010، صفحات 678-692.
  24. Ponzetto & Navigli 2010, pp. 1522-1531.
  25. Yarowsky 1995، صفحات 189-196.
  26. میتکوف، روسلان (2004). «13.5.3 دو ادعا درباره حواس». کتاب راهنمای زبان‌شناسی محاسباتی آکسفورد . OUP. ص 257. شابک 978-0-19-927634-9. بایگانی شده از نسخه اصلی در 2022-02-22 . بازیابی شده در 2022-02-22 .
  27. ^ Schütze 1998, pp. 97-123.
  28. Navigli & Crisafulli 2010.
  29. دی مارکو و ناویگلی 2013.
  30. ^ آب میکولوف، توماس؛ چن، کای؛ کورادو، گرگ؛ دین، جفری (16-01-2013). "برآورد کارآمد بازنمایی کلمات در فضای برداری". arXiv : 1301.3781 [cs.CL].
  31. ^ پنینگتون، جفری؛ سوچر، ریچارد؛ منینگ، کریستوفر (2014). "Glove: Global Vectors for Word Representation". مجموعه مقالات کنفرانس 2014 روشهای تجربی در پردازش زبان طبیعی (EMNLP) . استرودزبورگ، PA، ایالات متحده آمریکا: انجمن زبانشناسی محاسباتی. صفحات 1532-1543. doi : 10.3115/v1/d14-1162 . S2CID  1957433.
  32. بویانوفسکی، پیوتر؛ گرو، ادوارد؛ ژولین، آرماند؛ میکولوف، توماس (دسامبر 2017). " غنی سازی وکتورهای کلمه با اطلاعات زیر کلمه ". معاملات انجمن زبانشناسی محاسباتی . 5 : 135-146. arXiv : 1607.04606 . doi : 10.1162/tacl_a_00051 . ISSN  2307-387X.
  33. ^ یاکوباکی، ایگناسیو؛ پیله ور، محمد طاهر; ناویگلی، روبرتو (2016). «جاسازی‌هایی برای ابهام‌زدایی حس کلمه: یک مطالعه ارزیابی». مجموعه مقالات پنجاه و چهارمین اجلاس سالانه انجمن زبانشناسی محاسباتی (جلد 1: مقالات طولانی) . برلین، آلمان: انجمن زبانشناسی محاسباتی: 897-907. doi : 10.18653/v1/P16-1085 . hdl : 11573/936571 . بایگانی شده از نسخه اصلی در 2019-10-28 . بازیابی شده در 2019-10-28 .
  34. ^ بهینگاردیو، سودا؛ سینگ، دیرندرا؛ V، رودرامورتی; ردکار، هانومانت؛ باتاچاریا، پوشپاک (2015). "تشخیص حسی بدون نظارت با استفاده از جاسازی های کلمه". مجموعه مقالات کنفرانس 2015 بخش آمریکای شمالی انجمن زبان‌شناسی محاسباتی: فناوری‌های زبان انسانی . دنور، کلرادو: انجمن زبانشناسی محاسباتی. ص 1238-1243. doi : 10.3115/v1/N15-1132. S2CID  10778029. بایگانی شده از نسخه اصلی در 2023-01-21 . بازیابی شده در 2023-01-21 .
  35. ^ بوتنارو، آندری؛ یونسکو، رادو تودور؛ هریستیا، فلورنتینا (2017). "ShotgunWSD: یک الگوریتم بدون نظارت برای ابهام‌زدایی کلی از معنای کلمه با الهام از توالی‌یابی DNA". مجموعه مقالات پانزدهمین کنفرانس فصل اروپایی انجمن زبانشناسی محاسباتی : 916-926. arXiv : 1707.08084 . بایگانی شده از نسخه اصلی در 2023-01-21 . بازیابی شده در 2023-01-21 .
  36. ^ روته، ساشا؛ شوتزه، هینریچ (2015). "AutoExtend: گسترش تعبیه‌های Word به Embeddings برای Synsets و Lexemes". جلد 1: مقالات بلند . انجمن زبان‌شناسی محاسباتی و کنفرانس مشترک بین‌المللی پردازش زبان طبیعی. مجموعه مقالات پنجاه و سومین نشست سالانه انجمن زبانشناسی محاسباتی و هفتمین کنفرانس مشترک بین المللی پردازش زبان طبیعی . استرودزبورگ، پنسیلوانیا، ایالات متحده آمریکا: انجمن زبانشناسی محاسباتی. صفحات 1793-1803. arXiv : 1507.01127 . Bibcode : 2015arXiv150701127R. doi : 10.3115/v1/p15-1173. S2CID  15687295.
  37. ^ آب روته، ساشا؛ شوتزه، هینریچ (سپتامبر 2017). "AutoExtend: ترکیب جاسازی های کلمه با منابع معنایی". زبانشناسی محاسباتی . 43 (3): 593-617. doi : 10.1162/coli_a_00294 . ISSN  0891-2017.
  38. ^ آب رواس، تری؛ گروسکی، ویلیام؛ آیزاوا، آکیکو (دسامبر 2019). «جاسازی‌های چند معنا از طریق فرآیند ابهام‌زدایی حس کلمه». سیستم های خبره با برنامه های کاربردی 136 : 288-303. arXiv : 2101.08700 . doi :10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . S2CID  52225306.
  39. Gliozzo, Magnini & Strapparava 2004, pp. 380-387.
  40. ^ Buitelaar و همکاران. 2006، صفحات 275-298.
  41. ^ مک کارتی و همکاران 2007، صفحات 553-590.
  42. محمد و هرست 2006، صص 121-128.
  43. لاپاتا و کلر 2007، صفحات 348-355.
  44. Ide, Erjavec & Tufis 2002, pp. 54-60.
  45. ^ Chan & Ng 2005، صفحات 1037-1042.
  46. شیبر، استوارت ام. (1992). فرمالیسم های گرامر مبتنی بر محدودیت: تجزیه و استنتاج نوع برای زبان های طبیعی و کامپیوتری. ماساچوست: MIT Press. شابک 978-0-262-19324-5. بایگانی شده از نسخه اصلی در 2023-07-15 . بازیابی شده در 2018-12-23 .
  47. بهتاچاریا، ایندراجیت، لیز گتور و یوشوا بنجیو. ابهام‌زدایی حسی بدون نظارت با استفاده از مدل‌های احتمالی دوزبانه بایگانی‌شده 09/01/2016 در ماشین راه‌اندازی . مجموعه مقالات چهل و دومین نشست سالانه انجمن زبانشناسی محاسباتی. انجمن زبانشناسی محاسباتی، 2004.
  48. دیاب، مونا و فیلیپ رسنیک. روشی بدون نظارت برای برچسب‌گذاری معنی کلمه با استفاده از پیکره‌های موازی . مجموعه مقالات چهلمین نشست سالانه انجمن زبانشناسی محاسباتی. انجمن زبانشناسی محاسباتی، 2002.
  49. مانیش سینها، ماهش کومار، پرابهاکار پانده، لاکسمی کاشیاپ و پوشپاک باتاچاریا. ابهام‌زدایی معنی کلمه هندی ذخیره شده در 04/03/2016 در ماشین راه‌اندازی . در سمپوزیوم بین المللی ترجمه ماشینی، پردازش زبان طبیعی و سیستم های پشتیبانی ترجمه، دهلی، هند، 2004.
  50. Kilgarrif & Grefenstette 2003، صفحات 333-347.
  51. Litkowski 2005، صفحات 753-761.
  52. آگیر و استیونسون 2007، صفحات 217–251.
  53. Magnini & Cavaglià 2000، صفحات 1413-1418.
  54. لوسیا اسپشیا، ماریا داس گراکاس ولپ نونس، گابریلا کاستلو برانکو ریبیرو و مارک استیونسون. چند زبانه در مقابل تک زبانه WSD بایگانی شده در 10-04-2012 در Wayback Machine . در کارگاه آموزشی EACL-2006 درباره ایجاد حس معنا: پیوند روانشناسی و زبانشناسی محاسباتی، صفحات 33 تا 40، ترنتو، ایتالیا، آوریل 2006.
  55. ^ الز لفور و ورونیک هاست. وظیفه 3 SemEval-2010: ابهام‌زدایی معنی کلمه بین زبانی ذخیره‌شده در ۱۶/۰۶/۲۰۱۰ در Wayback Machine . مجموعه مقالات کارگاه ارزیابی معنایی: دستاوردهای اخیر و جهت گیری های آینده. 04-04 ژوئن 2009، بولدر، کلرادو.
  56. R. Navigli، DA Jurgens، D. Vannella. SemEval-2013 وظیفه 12: ابهام‌زدایی حس چند زبانه کلمه بایگانی شده در 08-08-2014 در Wayback Machine . Proc. هفتمین کارگاه بین المللی ارزیابی معنایی (SemEval)، در دومین کنفرانس مشترک معناشناسی واژگانی و محاسباتی (*SEM 2013)، آتلانتا، ایالات متحده آمریکا، 14 تا 15 ژوئن 2013، صفحات 222-231.
  57. لوسیا اسپشیا، ماریا داس گراکاس ولپ نونس، گابریلا کاستلو برانکو ریبیرو و مارک استیونسون. چند زبانه در مقابل تک زبانه WSD بایگانی شده در 10-04-2012 در Wayback Machine . در کارگاه آموزشی EACL-2006 درباره ایجاد حس معنا: پیوند روانشناسی و زبانشناسی محاسباتی، صفحات 33 تا 40، ترنتو، ایتالیا، آوریل 2006.
  58. انکو آگیره و آیتور سوروآ. Semeval-2007 task 02: ارزیابی سیستم های القاء و تمایز حس واژه ها ذخیره شده 28/02/2013 در ماشین راه یابی . مجموعه مقالات چهارمین کارگاه بین المللی ارزیابی های معنایی، صفحات 7-12، 23-24 ژوئن 2007، پراگ، جمهوری چک.
  59. «بابلفی». بابلفی. بایگانی شده از نسخه اصلی در 2014-08-08 . بازیابی شده در 2018-03-22 .
  60. «BabelNet API». Babelnet.org. بایگانی شده از نسخه اصلی در 2018-03-22 . بازیابی شده در 2018-03-22 .
  61. «WordNet::SenseRelate». Senserelate.sourceforge.net. بایگانی شده از نسخه اصلی در 2018-03-21 . بازیابی شده در 2018-03-22 .
  62. «UKB: Graph Base WSD». Ixa2.si.ehu.es. بایگانی شده از نسخه اصلی در 2018-03-12 . بازیابی شده در 2018-03-22 .
  63. «پایگاه دانش واژگانی (LKB)». معین.delph-in.net. 05/02/2018. بایگانی شده از نسخه اصلی در 2018-03-09 . بازیابی شده در 2018-03-22 .
  64. ^ ارتفاعات "pyWSD". Github.com. بایگانی شده از نسخه اصلی در 2018-06-11 . بازیابی شده در 2018-03-22 .

آثار ذکر شده

در ادامه مطلب

لینک های خارجی