ابهامزدایی با معنای کلمه فرآیندی است برای شناسایی معنای یک کلمه در یک جمله یا بخش دیگری از بافت . درو شناخت زبان انسان ، معمولاً ناخودآگاه است.
با توجه به اینکه زبان طبیعی نیازمند انعکاس واقعیت عصبی است، همانطور که توسط توانایی های ارائه شده توسط شبکه های عصبی مغز شکل می گیرد ، علم کامپیوتر در توسعه توانایی کامپیوترها برای انجام پردازش زبان طبیعی و یادگیری ماشین با چالش طولانی مدت روبرو بوده است .
تکنیکهای زیادی مورد تحقیق قرار گرفتهاند، از جمله روشهای مبتنی بر فرهنگ لغت که از دانش رمزگذاریشده در منابع واژگانی استفاده میکنند، روشهای یادگیری ماشینی نظارتشده که در آن یک طبقهبندی برای هر کلمه متمایز در مجموعهای از مثالهای مشروح با حس دستی آموزش داده میشود، و روشهای کاملاً بدون نظارت که خوشهبندی میشوند. وقوع کلمات، در نتیجه القای حس کلمه. در این میان، رویکردهای یادگیری تحت نظارت موفقترین الگوریتمها تا به امروز بودهاند .
صحت الگوریتم های فعلی بدون انبوهی از هشدارها دشوار است. در زبان انگلیسی، دقت در سطح درشت دانه ( هموگراف ) معمولاً بالای 90٪ (از سال 2009) است، با برخی از روش ها در هموگرافی های خاص بیش از 96٪ به دست می آید. در تمایزات حسی دقیقتر، دقتهای برتر از 59.1% تا 69.0% در تمرینهای ارزیابی گزارش شده است (SemEval-2007، Senseval-2)، که در آن دقت خط پایه سادهترین الگوریتم ممکن برای همیشه انتخاب متداولترین حس 51.4% بود. و به ترتیب 57 درصد.
ابهامزدایی به دو ورودی سختگیرانه نیاز دارد: یک فرهنگ لغت برای مشخص کردن حسهایی که باید ابهامزدایی شوند و مجموعهای از دادههای زبانی که باید ابهامزدایی شوند (در برخی روشها، مجموعه آموزشی از مثالهای زبان نیز مورد نیاز است). کار WSD دو نوع دارد: "نمونه واژگانی" (ابهامزدایی از وقوع نمونه کوچکی از کلمات هدف که قبلاً انتخاب شدهاند) و کار "همه کلمات" (ابهامزدایی از همه کلمات در یک متن در حال اجرا). کار "همه کلمات" به طور کلی شکل واقعیتری از ارزیابی در نظر گرفته میشود، اما تولید مجموعه گرانتر است، زیرا حاشیهنویسهای انسانی باید هر بار که نیاز به قضاوت برچسبگذاری دارند، تعاریف هر کلمه را در دنباله بخوانند، نه یک بار. برای بلوکی از نمونهها برای همان کلمه هدف.
WSD اولین بار به عنوان یک کار محاسباتی متمایز در طی روزهای اولیه ترجمه ماشینی در دهه 1940 فرموله شد و آن را به یکی از قدیمی ترین مشکلات در زبان شناسی محاسباتی تبدیل کرد. وارن ویور برای اولین بار این مسئله را در زمینه محاسباتی در یادداشت خود در مورد ترجمه در سال 1949 مطرح کرد. [1] بعداً، بار-هیلل (1960) استدلال کرد [2] که WSD را نمی توان با "کامپیوتر الکترونیکی" حل کرد، زیرا به طور کلی نیاز به مدل سازی کل دانش جهان است.
در دهه 1970، WSD یک وظیفه فرعی از سیستمهای تفسیر معنایی بود که در حوزه هوش مصنوعی توسعه یافت و با معنای شناسی ترجیحی ویلکس شروع شد. با این حال، از آنجایی که سیستمهای WSD در آن زمان عمدتاً مبتنی بر قوانین و کدگذاری دستی بودند، مستعد گلوگاه کسب دانش بودند.
در دهه 1980 منابع واژگانی در مقیاس بزرگ، مانند فرهنگ لغت زبان انگلیسی کنونی یادگیرنده پیشرفته آکسفورد (OALD) در دسترس قرار گرفت: کدگذاری دستی با دانش استخراج شده به طور خودکار از این منابع جایگزین شد، اما ابهامزدایی همچنان مبتنی بر دانش یا مبتنی بر فرهنگ لغت بود. .
در دهه 1990، انقلاب آماری زبانشناسی محاسباتی را پیشرفته کرد و WSD به یک مسئله پارادایم تبدیل شد که تکنیکهای یادگیری ماشین نظارت شده را بر روی آن اعمال میکرد.
در دهه 2000، تکنیکهای نظارتشده در دقت به سطح بالایی رسیدند، و بنابراین توجه به حواس درشتتر، تطبیق دامنه ، سیستمهای مبتنی بر پیکره نیمهنظارتشده و بدون نظارت، ترکیبی از روشهای مختلف، و بازگشت سیستمهای مبتنی بر دانش از طریق نمودار معطوف شد. روش های مبتنی بر با این حال، سیستم های نظارت شده همچنان بهترین عملکرد را دارند.
یکی از مشکلات ابهامزدایی از معنای کلمه، تصمیمگیری درباره چیستی حواس است، زیرا فرهنگهای لغت و اصطلاحنامههای مختلف تقسیمبندیهای متفاوتی از کلمات را به حس ارائه میکنند. برخی از محققان انتخاب یک فرهنگ لغت خاص و استفاده از مجموعه حواس آن را برای مقابله با این موضوع پیشنهاد کرده اند. با این حال، به طور کلی، نتایج تحقیقات با استفاده از تمایزات گسترده در حواس، بسیار بهتر از نتایج با استفاده از تمایزهای محدود بوده است. [3] [4] بیشتر محققان به کار بر روی WSD ریز دانه ادامه می دهند .
بیشتر تحقیقات در زمینه WSD با استفاده از WordNet به عنوان فهرستی از حس مرجع برای زبان انگلیسی انجام می شود. WordNet یک واژگان محاسباتی است که مفاهیم را به عنوان مجموعههای مترادف رمزگذاری میکند (مثلاً مفهوم ماشین به صورت { car, auto, automobile, machine, motorcar } کدگذاری میشود). منابع دیگری که برای اهداف ابهامزدایی مورد استفاده قرار میگیرند عبارتند از: اصطلاحنامه روگت [5] و ویکیپدیا . [6] اخیراً، BabelNet ، یک فرهنگ لغت دایره المعارف چند زبانه، برای WSD چند زبانه استفاده شده است. [7]
در هر آزمون واقعی، نشانگذاری بخشی از گفتار و برچسبگذاری حسی ثابت شده است که ارتباط بسیار نزدیکی با هم دارند و هر یک به طور بالقوه محدودیتهایی را بر دیگری تحمیل میکنند. این سؤال که آیا این وظایف باید با هم نگه داشته شوند یا از هم جدا شوند، هنوز به اتفاق آرا حل نشده است، اما اخیراً دانشمندان تمایل دارند این موارد را جداگانه آزمایش کنند (مثلاً در مسابقات Senseval/ SemEval بخشهایی از گفتار به عنوان ورودی برای ابهامزدایی متن ارائه میشود).
هر دو برچسب گذاری WSD و بخشی از گفتار شامل ابهام زدایی یا برچسب زدن با کلمات است. با این حال، الگوریتمهایی که برای یکی استفاده میشوند، برای دیگری به خوبی کار نمیکنند، عمدتاً به این دلیل که بخش گفتار یک کلمه عمدتاً توسط یک تا سه کلمه بلافاصله مجاور تعیین میشود، در حالی که معنای یک کلمه ممکن است با کلمات دورتر تعیین شود. . میزان موفقیت الگوریتمهای برچسبگذاری بخشی از گفتار در حال حاضر بسیار بیشتر از WSD است، دقت پیشرفتهتر در حدود 96% [8] یا بهتر، در مقایسه با دقت کمتر از 75% [ نیاز به منبع ] در معنای کلمه ابهام زدایی با یادگیری نظارت شده . این ارقام برای زبان انگلیسی معمولی است و ممکن است با ارقام سایر زبان ها بسیار متفاوت باشد.
مشکل دیگر واریانس بین داوری است . سیستمهای WSD معمولاً با مقایسه نتایج آنها در یک کار با نتایج یک انسان آزمایش میشوند. با این حال، در حالی که اختصاص بخشی از گفتار به متن نسبتاً آسان است، ثابت شده است که آموزش افراد برای برچسب زدن حواس بسیار دشوارتر است. [9] در حالی که کاربران میتوانند تمام قسمتهای ممکن گفتار را که یک کلمه میتواند بگیرد، حفظ کنند، اغلب برای افراد غیرممکن است که تمام حواس یک کلمه را به خاطر بسپارند. علاوه بر این، انسان ها بر سر کار مورد نظر توافق ندارند - فهرستی از حواس و جملات ارائه دهید، و انسان ها همیشه در مورد اینکه کدام کلمه به کدام معنا تعلق دارد، توافق نمی کنند. [10]
از آنجایی که عملکرد انسان به عنوان استاندارد عمل می کند، یک حد بالایی برای عملکرد رایانه است. با این حال، عملکرد انسان در تمایزات درشت دانه بسیار بهتر از تمایزات دانه ریز است ، بنابراین دوباره به همین دلیل است که تحقیقات در مورد تمایزات دانه درشت [11] [12] در تمرینات ارزیابی اخیر WSD مورد آزمایش قرار گرفته است. [3] [4]
فهرست حسی مستقل از کار، مفهومی منسجم نیست: [13] هر کار مستلزم تقسیم خاص خود از معنای کلمه به حواس مرتبط با کار است. علاوه بر این، الگوریتم های کاملا متفاوت ممکن است برای برنامه های مختلف مورد نیاز باشد. در ترجمه ماشینی، مشکل به شکل انتخاب کلمه هدف است. «حواس» کلماتی در زبان مقصد هستند که اغلب با تمایزات معنیداری در زبان مبدأ مطابقت دارند («بانک» میتواند به زبان فرانسوی banque - یعنی «بانک مالی» یا رودخانه - یعنی «لبه رودخانه» ترجمه شود. '). در بازیابی اطلاعات، لزوماً نیازی به فهرست معنا نیست، زیرا کافی است بدانیم که یک کلمه در پرس و جو و سند بازیابی شده به یک معنا به کار رفته است. معنای آن بی اهمیت است.
در نهایت، خود مفهوم " حس کلمه " لغزنده و بحث برانگیز است. اکثر مردم می توانند در تمایزات در سطح هموگرافی درشت دانه توافق کنند (مثلاً قلم به عنوان ابزار نوشتن یا محفظه)، اما یک سطح به چند معنایی ریزدانه پایین می آیند ، و اختلاف نظرهایی ایجاد می شود. به عنوان مثال، در Senseval-2، که از تمایزات حسی دقیق استفاده میکرد، حاشیهنویسان انسانی تنها در 85 درصد از وقوع کلمات موافق بودند. [14] معنای کلمه در اصل بی نهایت متغیر و حساس به متن است. به آسانی به معانی فرعی مجزا یا مجزا تقسیم نمی شود. [15] لغت شناسان اغلب معانی کلمات سست و متداخل را در پیکره ها کشف می کنند، و معانی استاندارد یا متعارف را به طرق مختلف گیج کننده گسترش، تعدیل و مورد بهره برداری قرار می دهند. هنر واژگان شناسی عبارت است از تعمیم از مجموعه به تعاریفی که دامنه کامل معنای یک کلمه را برمی انگیزد و توضیح می دهد و به نظر می رسد که کلمات از نظر معنایی به خوبی رفتار می کنند. با این حال، به هیچ وجه مشخص نیست که آیا این تمایزات معنی مشابه در کاربردهای محاسباتی قابل اجرا هستند ، زیرا تصمیمات فرهنگ نویسان معمولاً توسط ملاحظات دیگری هدایت می شود. در سال 2009، یک کار - به نام جایگزینی واژگانی - به عنوان راه حل ممکن برای مشکل گسست حسی پیشنهاد شد. [16] وظیفه شامل ارائه جایگزینی برای یک کلمه در زمینه است که معنای کلمه اصلی را حفظ می کند (به طور بالقوه، می توان جایگزین ها را از واژگان کامل زبان مقصد انتخاب کرد، بنابراین بر گسستگی غلبه کرد).
دو رویکرد اصلی برای WSD وجود دارد - رویکردهای عمیق و رویکردهای کم عمق.
رویکردهای عمیق دسترسی به مجموعه جامعی از دانش جهانی را فرض می کند . این رویکردها معمولاً در عمل چندان موفق تلقی نمی شوند، عمدتاً به این دلیل که چنین مجموعه ای از دانش در قالبی قابل خواندن توسط رایانه، خارج از حوزه های بسیار محدود وجود ندارد. [17] علاوه بر این، به دلیل سنت طولانی در زبانشناسی محاسباتی ، استفاده از چنین رویکردهایی از نظر دانش رمزگذاریشده و در برخی موارد، تشخیص دانش مربوط به دانش زبانی یا جهانی دشوار است. اولین تلاش مارگارت مسترمن و همکارانش در واحد تحقیقات زبان کمبریج در انگلستان در دهه 1950 بود . این تلاش به عنوان داده از نسخه کارت پانچ شده اصطلاحنامه Roget و "سرهای" شماره گذاری شده آن به عنوان نشانگر موضوعات استفاده کرد و با استفاده از یک الگوریتم تقاطع مجموعه ای به دنبال تکرار در متن گشت. این خیلی موفق نبود، [18] اما روابط قوی با کارهای بعدی، به ویژه بهینه سازی یادگیری ماشینی یارووسکی از روش اصطلاحنامه در دهه 1990 داشت.
رویکردهای سطحی سعی در درک متن ندارند، بلکه کلمات اطراف را در نظر می گیرند. این قوانین را می توان به طور خودکار توسط کامپیوتر، با استفاده از مجموعه آموزشی از کلمات برچسب گذاری شده با حواس کلمات آنها استخراج کرد. این رویکرد، در حالی که از نظر تئوری به اندازه رویکردهای عمیق قدرتمند نیست، به دلیل دانش محدود کامپیوتر در جهان، در عمل نتایج برتری به همراه دارد.
چهار رویکرد مرسوم برای WSD وجود دارد:
تقریباً همه این رویکردها با تعریف پنجره ای از n کلمه محتوایی در اطراف هر کلمه به منظور رفع ابهام در مجموعه، و تجزیه و تحلیل آماری آن n کلمه اطراف کار می کنند. دو رویکرد سطحی که برای آموزش و سپس رفع ابهام استفاده می شود، طبقه بندی کننده های ساده بیز و درخت های تصمیم هستند . در تحقیقات اخیر، روشهای مبتنی بر هسته مانند ماشینهای بردار پشتیبان عملکرد برتری را در یادگیری نظارت شده نشان دادهاند . رویکردهای مبتنی بر نمودار نیز توجه زیادی را از سوی جامعه پژوهشی به خود جلب کردهاند و در حال حاضر عملکردی نزدیک به وضعیت هنر دارند.
الگوریتم Lesk [19] روشی مبتنی بر فرهنگ لغت است. بر این فرض استوار است که کلماتی که با هم در متن به کار رفته اند با یکدیگر مرتبط هستند و می توان این رابطه را در تعاریف کلمات و معانی آنها مشاهده کرد. دو (یا بیشتر) کلمه با یافتن جفت حس فرهنگ لغت با بیشترین همپوشانی کلمه در تعاریف فرهنگ لغتشان رفع ابهام میشوند. به عنوان مثال، هنگام رفع ابهام کلمات در "مخروط کاج"، تعاریف حواس مناسب هر دو شامل کلمات همیشه سبز و درخت (حداقل در یک فرهنگ لغت) می شود. رویکرد مشابهی [20] کوتاه ترین مسیر را بین دو کلمه جستجو می کند: کلمه دوم به طور مکرر در میان تعاریف هر گونه معنایی کلمه اول جستجو می شود، سپس در میان تعاریف هر گونه معنایی هر کلمه در تعاریف قبلی و غیره. در در نهایت، کلمه اول با انتخاب نوع معنایی که فاصله کلمه اول تا دوم را به حداقل می رساند، ابهام می یابد.
جایگزینی برای استفاده از تعاریف، در نظر گرفتن ارتباط کلی کلمه-معنا و محاسبه شباهت معنایی هر جفت حس کلمه بر اساس یک پایگاه دانش واژگانی معین مانند WordNet است . روشهای مبتنی بر نمودار که یادآور گسترش تحقیقات فعالسازی در روزهای اولیه تحقیقات هوش مصنوعی هستند، با موفقیت به کار گرفته شدهاند. نشان داده شده است که رویکردهای پیچیدهتر مبتنی بر نمودار تقریباً به خوبی روشهای نظارت شده [21] عمل میکنند یا حتی از آنها در حوزههای خاص بهتر عمل میکنند. [3] [22] اخیراً گزارش شده است که معیارهای اتصال گراف ساده ، مانند درجه ، WSD پیشرفتهای را در حضور پایگاه دانش واژگانی به اندازه کافی غنی انجام میدهند. [23] همچنین، انتقال خودکار دانش در قالب روابط معنایی از ویکیپدیا به ورد نت نشان داده شده است که روشهای ساده مبتنی بر دانش را تقویت میکند، و آنها را قادر میسازد تا با بهترین سیستمهای نظارت شده رقابت کنند و حتی در یک محیط خاص از آنها بهتر عمل کنند. [24]
استفاده از اولویتهای انتخابی (یا محدودیتهای انتخابی) نیز مفید است، برای مثال، با علم به اینکه شخص معمولاً غذا میپزد، میتوان کلمه باس را در «من در حال پختن باسها هستم» (یعنی این یک آلات موسیقی نیست) ابهام زد.
روشهای نظارت شده بر این فرض استوارند که زمینه میتواند به تنهایی شواهد کافی برای ابهامزدایی کلمات ارائه دهد (از این رو، عقل سلیم و استدلال غیرضروری تلقی میشوند). احتمالاً هر الگوریتم یادگیری ماشینی در WSD اعمال شده است، از جمله تکنیکهای مرتبط مانند انتخاب ویژگی ، بهینهسازی پارامتر، و یادگیری گروهی . ماشینهای بردار پشتیبانی و یادگیری مبتنی بر حافظه تا به امروز موفقترین رویکردها هستند، احتمالاً به این دلیل که میتوانند با ابعاد بالای فضای ویژگی کنار بیایند. با این حال، این روشهای نظارت شده در معرض تنگنای کسب دانش جدید قرار دارند، زیرا برای آموزش به مقادیر قابلتوجهی از مجموعههای دارای برچسب حسی دستی، که ایجاد آنها پر زحمت و پرهزینه است، متکی هستند.
به دلیل کمبود دادههای آموزشی، بسیاری از الگوریتمهای ابهامزدایی حس کلمه از یادگیری نیمه نظارتی استفاده میکنند که به دادههای برچسبدار و بدون برچسب اجازه میدهد. الگوریتم یارووسکی نمونه اولیه چنین الگوریتمی بود. [25] این زبان از ویژگیهای «یک حس در هر همنشینی» و «یک حس در هر گفتمان» در زبانهای انسانی برای ابهامزدایی معنای کلمه استفاده میکند. از مشاهده، کلمات تمایل دارند در اکثر گفتمانهای داده شده و در یک ترکیب معین فقط یک معنا را نشان دهند. [26]
رویکرد راهاندازی از مقدار کمی داده اولیه برای هر کلمه شروع میشود: یا نمونههای آموزشی برچسبگذاری شده دستی یا تعداد کمی از قوانین تصمیمگیری مطمئن (مثلاً «بازی» در زمینه «باس» تقریباً همیشه ابزار موسیقی را نشان میدهد). دانه ها برای آموزش یک طبقه بندی کننده اولیه با استفاده از هر روش نظارت شده استفاده می شوند. سپس این طبقهبندیکننده در قسمت بدون برچسب بدنه برای استخراج یک مجموعه آموزشی بزرگتر استفاده میشود که در آن فقط مطمئنترین طبقهبندیها گنجانده شده است. این فرآیند تکرار میشود، هر طبقهبندیکننده جدید روی یک مجموعه آموزشی بزرگتر آموزش داده میشود، تا زمانی که کل پیکره مصرف شود، یا تا زمانی که به حداکثر تعداد تکرار معینی برسد.
سایر تکنیکهای نیمهنظارتشده از مقادیر زیادی از پیکرههای بدون برچسب برای ارائه اطلاعات همزمانی استفاده میکنند که مکمل پیکرههای برچسبگذاری شده است. این تکنیکها پتانسیل کمک به انطباق مدلهای تحت نظارت را با حوزههای مختلف دارند.
همچنین، یک کلمه مبهم در یک زبان اغلب بسته به معنای کلمه به کلمات مختلف در زبان دوم ترجمه می شود. اجسام دوزبانه تراز واژهای برای استنتاج تمایزات حسی بین زبانی، نوعی سیستم نیمه نظارت شده، استفاده شدهاند. [ نیازمند منبع ]
یادگیری بدون نظارت بزرگترین چالش برای محققان WSD است. فرض اساسی این است که حواس مشابه در زمینههای مشابه رخ میدهند، و بنابراین میتوان با خوشهبندی رخدادهای واژهای با استفاده از برخی معیارهای تشابه بافت، [27]، حواس را از متن القا کرد . سپس، رخدادهای جدید کلمه را می توان به نزدیکترین خوشه ها/حواس القایی طبقه بندی کرد. عملکرد کمتر از روش های دیگر توصیف شده در بالا بوده است، اما مقایسه دشوار است زیرا حواس القا شده باید به فرهنگ لغت شناخته شده حواس کلمات نگاشت شوند. اگر نگاشت به مجموعه ای از حواس فرهنگ لغت مورد نظر نباشد، ارزیابی های مبتنی بر خوشه (شامل اندازه گیری های آنتروپی و خلوص) می تواند انجام شود. روش دیگر، روش های القای حس کلمه را می توان در یک برنامه آزمایش و مقایسه کرد. به عنوان مثال، نشان داده شده است که القای حس کلمه، خوشه بندی نتایج جستجوی وب را با افزایش کیفیت خوشه های نتایج و درجه تنوع فهرست های نتایج، بهبود می بخشد. [28] [29] امید است که یادگیری بدون نظارت بر تنگنای کسب دانش غلبه کند زیرا آنها به تلاش دستی وابسته نیستند.
نمایش کلمات با در نظر گرفتن بافت آنها از طریق بردارهای متراکم با اندازه ثابت ( جاسازی کلمه ) به یکی از اساسی ترین بلوک ها در چندین سیستم NLP تبدیل شده است. [30] [31] [32] حتی اگر بیشتر تکنیکهای سنتی جاسازی کلمه، کلمات را با چندین معانی در یک نمایش برداری واحد ترکیب میکنند، هنوز هم میتوان از آنها برای بهبود WSD استفاده کرد. [33] یک رویکرد ساده برای استفاده از جاسازیهای کلمات از پیش محاسبهشده برای نشان دادن حواس کلمات، محاسبه مرکز خوشههای حسی است. [34] [35] علاوه بر تکنیکهای جاسازی کلمه، پایگاههای داده واژگانی (مانند WordNet ، ConceptNet ، BabelNet ) همچنین میتوانند به سیستمهای بدون نظارت در نقشهبرداری کلمات و حواس آنها به عنوان فرهنگ لغت کمک کنند. برخی از تکنیکهایی که پایگاههای داده واژگانی و جاسازیهای کلمه را ترکیب میکنند در AutoExtend [36] [37] و Most Suitable Sense Annotation (MSSA) ارائه شدهاند. [38] در AutoExtend، [37] آنها روشی را ارائه میکنند که نمایش ورودی شی را از ویژگیهای آن جدا میکند، مانند کلمات و حواس کلمه آنها. AutoExtend از ساختار گراف برای ترسیم اشیاء کلمات (مثلا متن) و غیر کلمه (مثلا synsets در WordNet ) به عنوان گره و رابطه بین گره ها به عنوان یال استفاده می کند. روابط (لبه ها) در AutoExtend می تواند اضافه یا شباهت بین گره های آن را بیان کند. اولی شهود پشت حساب افست را به تصویر می کشد، [30] در حالی که دومی شباهت بین دو گره را تعریف می کند. در MSSA، [38] یک سیستم ابهامزدایی بدون نظارت از شباهت بین حسهای کلمه در یک پنجره زمینه ثابت استفاده میکند تا مناسبترین معنای کلمه را با استفاده از یک مدل تعبیه کلمه از پیش آموزشدیده و WordNet انتخاب کند . برای هر پنجره زمینه، MSSA مرکز هر تعریف معنی کلمه را با میانگین بردارهای کلمه کلمات آن در براقهای WordNet محاسبه میکند (یعنی براقیت تعریف کوتاه و یک یا چند مثال کاربردی) با استفاده از یک مدل تعبیه کلمه از قبل آموزشدیده شده. این مرکزها بعداً برای انتخاب کلمه حس با بیشترین شباهت یک کلمه هدف به همسایگان بلافاصله مجاور آن (یعنی کلمات پیشین و جانشین) استفاده می شوند. پس از حاشیه نویسی و رفع ابهام همه کلمات، می توان از آنها به عنوان یک مجموعه آموزشی در هر تکنیک استاندارد جاسازی کلمه استفاده کرد. در نسخه بهبودیافته خود، MSSA میتواند از تعبیههای معنی کلمه برای تکرار فرآیند ابهامزدایی خود به صورت مکرر استفاده کند.
سایر رویکردها ممکن است در روش های خود متفاوت باشند:
گلوگاه کسب دانش شاید مانع اصلی برای حل مشکل WSD باشد. روشهای نظارتنشده بر دانش مربوط به حواس کلمات تکیه میکنند، که فقط در فرهنگهای لغت و پایگاههای واژگانی فرمولبندی شده است. روش های نظارت شده به طور اساسی به وجود مثال های حاشیه نویسی دستی برای هر معنای کلمه بستگی دارد، شرطی که می تواند تا کنون [ چه زمانی؟ همانطور که در تمرینات Senseval انجام می شود ، فقط برای چند کلمه برای اهداف آزمایشی استفاده می شود .
یکی از امیدوارکنندهترین گرایشها در تحقیقات WSD، استفاده از بزرگترین مجموعهای است که تا به حال در دسترس بوده است، وب جهانی ، برای به دست آوردن خودکار اطلاعات لغوی. [50] WSD به طور سنتی به عنوان یک فناوری مهندسی زبان میانی شناخته میشود که میتواند کاربردهایی مانند بازیابی اطلاعات (IR) را بهبود بخشد. با این حال، در این مورد، عکس آن نیز صادق است: موتورهای جستجوی وب تکنیکهای IR ساده و قوی را پیادهسازی میکنند که میتوانند با موفقیت وب را برای اطلاعات مورد استفاده در WSD استخراج کنند. فقدان تاریخی دادههای آموزشی باعث ظهور برخی الگوریتمها و تکنیکهای جدید شده است، همانطور که در دستیابی خودکار بدنههای دارای برچسب حسی توضیح داده شده است .
دانش جزء اساسی WSD است. منابع دانش داده هایی را ارائه می دهند که برای ارتباط حواس با کلمات ضروری است. آنها می توانند از مجموعه ای از متون، بدون برچسب یا حاشیه نویسی شده با حواس کلمات، تا فرهنگ لغت های قابل خواندن ماشینی، اصطلاحنامه ها، واژه نامه ها، هستی شناسی ها و غیره متفاوت باشند .
ساختار یافته:
بدون ساختار:
مقایسه و ارزیابی سیستمهای مختلف WSD به دلیل مجموعههای آزمایشی مختلف، موجودیهای حسی و منابع دانش اتخاذ شده بسیار دشوار است. قبل از سازماندهی کمپین های ارزیابی خاص، اکثر سیستم ها بر روی مجموعه داده های داخلی، اغلب در مقیاس کوچک، ارزیابی می شدند . به منظور آزمایش الگوریتم، توسعه دهندگان باید زمان خود را صرف حاشیه نویسی همه موارد تکرار کنند. و مقایسه روشها حتی در یک مجموعه مشابه در صورت وجود موجودیهای حسی متفاوت، واجد شرایط نیست.
به منظور تعریف مجموعه داده ها و روش های ارزیابی مشترک، کمپین های ارزیابی عمومی سازماندهی شده است. Senseval (در حال حاضر به SemEval تغییر نام داده است ) یک مسابقه بین المللی ابهام زدایی از واژه است که از سال 1998 هر سه سال یکبار برگزار می شود: Senseval-1 (1998)، Senseval-2 (2001)، Senseval-3 [غصب شده] (2004)، و جانشین آن، SemEval. (2007). هدف این مسابقه سازماندهی سخنرانیهای مختلف، آمادهسازی و حاشیهنویسی دستی برای سیستمهای آزمایشی، انجام ارزیابی مقایسهای سیستمهای WSD در چندین نوع کار، از جمله تمام کلمات و نمونه واژگانی WSD برای زبانهای مختلف، و اخیراً ، وظایف جدید مانند برچسب گذاری نقش معنایی ، WSD براق، جایگزینی واژگانی و غیره. سیستم های ارائه شده برای ارزیابی به این مسابقات معمولاً تکنیک های مختلفی را ادغام می کنند و اغلب روش های نظارت شده و مبتنی بر دانش را ترکیب می کنند (به ویژه برای جلوگیری از عملکرد بد در فقدان نمونه های آموزشی) .
در سال های اخیر 2007-2012 ، انتخاب های کار ارزیابی WSD رشد کرده است و معیار ارزیابی WSD بسته به نوع کار ارزیابی WSD به شدت تغییر کرده است. در زیر انواع وظایف WSD را برشمرده است:
همانطور که تکنولوژی تکامل می یابد، وظایف Word Sense ابهام زدایی (WSD) در اشکال مختلف به سمت جهت های مختلف تحقیقاتی و برای زبان های بیشتر رشد می کند:
{{cite book}}
: CS1 maint: مکان ناشر موجود نیست ( پیوند )