ورد نت

WordNet یک پایگاه واژگانی از روابط معنایی بین کلمات است که کلمات را به روابط معنایی از جمله مترادف ها ، مترادف ها، مترادف ها و مترادف ها پیوند می دهد . مترادف ها با تعاریف کوتاه و مثال های استفاده در synsets گروه بندی می شوند. بنابراین می توان آن را ترکیبی از فرهنگ لغت و اصطلاحنامه دانست . در حالی که از طریق یک مرورگر وب برای کاربران انسانی قابل دسترسی است ، ^[2] استفاده اصلی آن در تجزیه و تحلیل متن خودکار و برنامه های کاربردی هوش مصنوعی است . ابتدا به زبان انگلیسی ^[3] ایجاد شد و پایگاه داده انگلیسی WordNet و ابزارهای نرم افزاری تحت مجوز سبک BSD منتشر شده است و به صورت رایگان برای دانلود از آن وب سایت WordNet در دسترس است. اکنون WordNets به بیش از 200 زبان وجود دارد. ^[4]

تاریخچه و اعضای تیم

ورد نت برای اولین بار در سال 1985، فقط به زبان انگلیسی، در آزمایشگاه علوم شناختی دانشگاه پرینستون تحت مدیریت پروفسور روانشناسی جورج آرمیتاژ میلر ایجاد شد . بعدها توسط کریستین فلبام کارگردانی شد . این پروژه در ابتدا توسط دفتر تحقیقات نیروی دریایی ایالات متحده و بعداً توسط سایر سازمان های دولتی ایالات متحده از جمله دارپا ، بنیاد ملی علوم ، دفتر فناوری مخرب (فعالیت تحقیق و توسعه پیشرفته سابق) و REFLEX تامین مالی شد. جورج میلر و کریستین فلبام در سال 2006 جایزه آنتونیو زامپولی را برای همکاری با WordNet دریافت کردند.

انجمن جهانی ورد نت یک سازمان غیرتجاری است که بستری را برای بحث، اشتراک گذاری و اتصال ورد نت ها برای همه زبان های جهان فراهم می کند. کریستین فلبام و پیک تی جی ام ووسن رؤسای مشترک آن هستند. ^[5]

محتویات پایگاه داده

پایگاه داده شامل 155,327 کلمه سازماندهی شده در 175,979 synsets برای مجموع 207,016 جفت کلمه-حس. به صورت فشرده حدود 12 مگابایت حجم دارد. ^[6]

این شامل دسته بندی های واژگانی اسم ها ، افعال ، صفت ها و قیدها است اما حروف اضافه ، تعیین کننده ها و سایر کلمات تابع را نادیده می گیرد.

کلماتی از همان دسته واژگانی که تقریباً مترادف هستند در مجموعه‌های ترکیبی گروه‌بندی می‌شوند که شامل کلمات ساده و همچنین ترکیب‌هایی مانند "غذا بیرون" و "استخر ماشین" است. معانی مختلف یک شکل کلمه چند معنایی به synset های مختلف نسبت داده می شود. معنای synset با یک براقیت تعریف کوتاه و یک یا چند مثال استفاده بیشتر روشن می شود. یک synset صفت مثالی است:

خوب، درست، رسیده – (مناسب ترین یا مناسب ترین برای یک هدف خاص؛ «زمان مناسب برای کاشت گوجه فرنگی»؛ «زمان مناسب برای اقدام»؛ «زمان برای تغییرات بزرگ جامعه شناختی فرا رسیده است»)

همه synset ها با استفاده از روابط معنایی به هم متصل می شوند. این روابط، که همه با همه مقولات واژگانی مشترک نیستند، عبارتند از:

اسم ها
- هایپرنیم : اگر هر X یک (نوعی)Y باشد ، Y ابرنام X است .
- هیپونیم :اگر هر Y یک (نوعی) X باشد ( سگ یک مترادف از سگ است) Y یک نام مستعار X است
- عبارت مختصات : Y یک جمله مختصات X است اگر X و Y یک ابرنام مشترک داشته باشند ( گرگ یک عبارت مختص سگ است و سگ یک جمله مختصات گرگ است )
- هولونیم :اگر X جزئی ازY باشد ، Y تکنامی از X است
- مزین : Y مخفف X است اگر Y بخشی از X باشد ( پنجره مزین به ساختمان است )
افعال
- Hypernym : فعل Y ابرنیمی از فعل X است اگر فعالیت X یک (نوعی از) Y باشد ( درک کردن یک ابرنیمی از گوش دادن است )
- تروپونیم : فعل Y مخفف فعل X است اگر فعالیت Y به نحوی X را انجام می دهد ( lisp مخفف صحبت کردن است )
- دلبستگی : فعل Y توسط فعل X وارد می شود اگر با انجام X باید Y را انجام دهید ( خوابیدن مستلزم خروپف کردن است )
- اصطلاح مختصات : فعل Y یک جمله مختصات از فعل X است اگر X و Y یک ابرنام مشترک داشته باشند ( to lisp یک جمله مختص به فریاد زدن است و to yell یک جمله مختص به lisp است )

این روابط معنایی در بین همه اعضای synset های مرتبط برقرار است. اعضای منفرد synset (کلمات) نیز می توانند با روابط واژگانی مرتبط شوند. به عنوان مثال، (یک معنی) اسم «مدیر» به (یک معنی) فعل «مستقیم» که از طریق پیوند «مورفوسمانتیک» از آن مشتق شده است، مرتبط است.

توابع مورفولوژی نرم افزار توزیع شده با پایگاه داده سعی می کند تا شکل لم یا ریشه یک کلمه را از ورودی کاربر استنتاج کند. فرم‌های نامنظم در یک لیست ذخیره می‌شوند، و برای مثال به دنبال «ate» به «eat» برمی‌گردد.

ساختار دانش

اسم ها و افعال هر دو در سلسله مراتبی سازماندهی می شوند که با روابط hypernym یا IS A تعریف می شوند. به عنوان مثال، یک معنای کلمه سگ در زیر سلسله مراتب ابرنیمی یافت می شود. کلمات در یک سطح نشان دهنده اعضای synset هستند. هر مجموعه ای از مترادف ها دارای یک شاخص منحصر به فرد است.

سگ، سگ خانگی، Canis familiaris
- سگ سگ، سگ سگ
  - گوشتخوار
    - جفت، پستاندار جفتی، پستاندار اتری، اتری
      - پستاندار
        مهره داران، جمجمه دار
        وتر
        حیوان، موجود جاندار، جانور، بی رحم، موجود، جانوران
        ...

در سطح بالا، این سلسله مراتب به 25 "درخت" مبتدی برای اسم ها و 15 "درخت" برای افعال سازماندهی شده اند (به نام فایل های واژگانی در سطح نگهداری). همه به یک synset مبتدی منحصر به فرد، "موجود" مرتبط هستند. سلسله مراتب اسم بسیار عمیق تر از سلسله مراتب افعال است.

صفت ها در درخت های سلسله مراتبی سازماندهی نمی شوند. در عوض، دو متضاد "مرکزی" مانند "گرم" و "سرد" قطب های دوتایی را تشکیل می دهند، در حالی که مترادف های "ماهواره" مانند "بخار" و "سرد" از طریق روابط "شباهت" به قطب های مربوطه خود متصل می شوند. صفت ها را می توان از این طریق به عنوان "دمبل" به جای "درخت" تجسم کرد.

جنبه های روانشناختی

هدف اولیه پروژه WordNet ساخت یک پایگاه داده واژگانی بود که با تئوری های حافظه معنایی انسان که در اواخر دهه 1960 توسعه یافته بود، سازگار باشد. آزمایش‌های روان‌شناختی نشان داد که سخنرانان دانش خود را از مفاهیم به شیوه‌ای اقتصادی و سلسله مراتبی سازماندهی می‌کنند. به نظر می رسید زمان بازیابی مورد نیاز برای دسترسی به دانش مفهومی مستقیماً با تعداد سلسله مراتبی که گوینده برای دستیابی به دانش باید «پیمایش» کند، مرتبط باشد. بنابراین، گویندگان می‌توانند سریع‌تر تأیید کنند که قناری‌ها می‌توانند آواز بخوانند، زیرا قناری یک پرنده آوازخوان است، اما برای تأیید اینکه آیا قناری‌ها می‌توانند پرواز کنند (جایی که مجبور بودند به مفهوم «پرنده» در سطح فوق‌العاده دسترسی داشته باشند، به زمان بیشتری نیاز داشتند. تأیید کنید که قناری ها دارای پوست هستند (که نیاز به بررسی در سطوح مختلف هیپونیمی، تا "حیوان" دارد). ^[7] در حالی که چنین آزمایش‌های روان‌زبانی و نظریه‌های زیربنایی مورد انتقاد قرار گرفته‌اند، برخی از سازمان‌دهی WordNet با شواهد تجربی سازگار است. به عنوان مثال، آفازی آنومیک به طور انتخابی بر توانایی گویندگان برای تولید کلمات از یک دسته معنایی خاص، یک سلسله مراتب WordNet تأثیر می گذارد. صفت‌های متضاد (صفت‌های مرکزی WordNet در ساختار دمبل) به مراتب بیشتر از شانس اتفاق می‌افتند، واقعیتی که برای بسیاری از زبان‌ها صادق است.

به عنوان هستی شناسی واژگانی

WordNet گاهی اوقات یک هستی شناسی نامیده می شود، ادعایی مداوم که سازندگان آن انجام نمی دهند. روابط ابرنام/همنام در میان مجموعه اسمی را می توان به عنوان روابط تخصصی در میان مقوله های مفهومی تفسیر کرد. به عبارت دیگر، WordNet را می توان به عنوان یک هستی شناسی واژگانی در معنای علوم کامپیوتر تفسیر و استفاده کرد . با این حال، چنین هستی شناسی باید قبل از استفاده تصحیح شود، زیرا حاوی صدها تناقض معنایی اساسی است. برای مثال، (1) تخصص های رایج برای دسته های انحصاری و (2) افزونگی ها در سلسله مراتب تخصص وجود دارد. علاوه بر این، تبدیل WordNet به یک هستی شناسی واژگانی قابل استفاده برای بازنمایی دانش معمولاً باید شامل (1) تمایز روابط تخصصی به روابط فرعی و instanceOf ، و (ii) مرتبط کردن شناسه های منحصر به فرد بصری برای هر دسته باشد. اگرچه چنین اصلاحات و تغییراتی به عنوان بخشی از ادغام WordNet 1.7 در پایگاه دانش قابل به روز رسانی مشترک WebKB-2 انجام شده و مستند شده است، ^[8] اکثر پروژه ها ادعا می کنند که از WordNet برای برنامه های کاربردی مبتنی بر دانش (معمولاً اطلاعات دانش محور) استفاده مجدد می کنند. بازیابی) به سادگی مستقیماً از آن استفاده مجدد کنید.

WordNet همچنین با استفاده از روش ترکیبی از پایین به بالا از بالا به پایین به یک مشخصات رسمی تبدیل شده است تا به طور خودکار روابط ارتباطی را از آن استخراج کند و این ارتباطات را در قالب مجموعه ای از روابط مفهومی تفسیر کند که به طور رسمی در هستی شناسی بنیادی DOLCE تعریف شده است . ^[9]

در بیشتر آثاری که ادعا می‌کنند WordNet را در هستی‌شناسی‌ها ادغام کرده‌اند، محتوای WordNet به سادگی در مواقعی که ضروری به نظر می‌رسد اصلاح نشده است. در عوض، به شدت تفسیر شده و هر زمان که مناسب باشد به روز شده است. این مورد زمانی بود که، برای مثال، هستی‌شناسی سطح بالای WordNet بر اساس رویکرد مبتنی بر OntoClean بازسازی شد ^[10] ، یا زمانی که از آن به عنوان منبع اولیه برای ساخت کلاس‌های پایین‌تر هستی‌شناسی SENSUS استفاده شد.

محدودیت ها

گسترده ترین محدودیت WordNet (و منابع مرتبط مانند ImageNet ) این است که برخی از روابط معنایی بیشتر برای مفاهیم عینی مناسب هستند تا مفاهیم انتزاعی. ^[11] به عنوان مثال، به راحتی می توان روابط هیپونیمی/هیپرنیم ایجاد کرد تا بفهمیم که " مخروطی " نوعی " درخت " است، "درخت" نوعی " گیاه " است، و "گیاه" یک نوع است. از " ارگانیسم " است، اما طبقه بندی احساساتی مانند "ترس" یا "خوشبختی" به روابط ناهمنام/اغلب به همان اندازه عمیق و کاملاً تعریف شده دشوار است.

بسیاری از مفاهیم در WordNet مختص زبان های خاصی هستند و دقیق ترین نگاشت گزارش شده بین زبان ها 94 درصد است. ^[12] مترادف‌ها، مترادف‌ها، متضادها و متضادها در همه زبان‌های دارای WordNet تا کنون دیده می‌شوند، اما سایر روابط معنایی مختص زبان هستند. ^[13] این قابلیت همکاری بین زبان ها را محدود می کند. با این حال، WordNet را نیز به منبعی برای برجسته کردن و مطالعه تفاوت‌های بین زبان‌ها تبدیل می‌کند، بنابراین لزوماً محدودیتی برای همه موارد استفاده نیست.

WordNet شامل اطلاعاتی در مورد ریشه یا تلفظ کلمات نیست و فقط حاوی اطلاعات محدودی در مورد استفاده است. WordNet قصد دارد بیشتر کلمات روزمره را پوشش دهد و اصطلاحات خاص دامنه را شامل نمی شود.

WordNet رایج‌ترین واژگان محاسباتی انگلیسی برای ابهام‌زدایی با حس کلمه (WSD) است، وظیفه‌ای با هدف تخصیص معانی متناسب با زمینه (یعنی اعضای synset) به کلمات در یک متن. ^[14] با این حال، استدلال شده است که WordNet تمایزات حسی را رمزگذاری می کند که خیلی دقیق هستند. این مسئله مانع از دستیابی سیستم‌های WSD به سطحی از عملکرد قابل مقایسه با انسان‌ها می‌شود، افرادی که همیشه هنگام مواجهه با انتخاب حسی از فرهنگ لغت که با یک کلمه در یک زمینه مطابقت دارد، موافق نیستند. مسئله دانه بندی با پیشنهاد روش های خوشه بندی که به طور خودکار معانی مشابه یک کلمه را با هم جمع می کنند، حل شده است. ^[15]^[16]^[17]

محتوای توهین آمیز

WordNet شامل کلماتی است که می توانند به عنوان تحقیر آمیز یا توهین آمیز تلقی شوند. ^[18] تفسیر یک کلمه می‌تواند در طول زمان و بین گروه‌های اجتماعی تغییر کند ، بنابراین همیشه برای WordNet امکان ندارد که یک کلمه را به‌عنوان " تقیرآمیز " یا "توهین آمیز" به تنهایی تعریف کند. بنابراین، افرادی که از WordNet استفاده می کنند باید از روش های خاص خود برای شناسایی کلمات توهین آمیز یا تحقیرآمیز استفاده کنند.

با این حال، این محدودیت در مورد سایر منابع واژگانی مانند لغت نامه ها و اصطلاحنامه ها که حاوی کلمات توهین آمیز و توهین آمیز نیز هستند صادق است. برخی از لغت نامه ها کلماتی را نشان می دهند که تحقیرآمیز هستند ، اما همه زمینه هایی را که در آن کلمات ممکن است برای گروه های مختلف اجتماعی قابل قبول یا توهین آمیز باشد را شامل نمی شوند. بنابراین، افرادی که از فرهنگ لغت استفاده می کنند باید از روش های خاص خود برای شناسایی همه کلمات توهین آمیز استفاده کنند.

دارای مجوز در مقابل WordNets باز

برخی از wordnet ها متعاقبا برای زبان های دیگر ایجاد شدند. یک نظرسنجی در سال 2012 ورد نت ها و در دسترس بودن آنها را فهرست می کند. ^[19] در تلاشی برای انتشار استفاده از WordNets، جامعه جهانی WordNet به آرامی مجدداً مجوز WordNet های خود را به یک دامنه باز داده بود که در آن محققان و توسعه دهندگان می توانند به راحتی به WordNets به عنوان منابع زبانی برای ارائه دانش هستی شناختی و واژگانی در طبیعت دسترسی داشته باشند و از آن استفاده کنند. وظایف پردازش زبان (NLP).

ورد نت چند زبانه باز ^[20] دسترسی به ورد نت های دارای مجوز باز را به زبان های مختلف فراهم می کند که همگی به ورد نت انگلیسی پرینستون (PWN) مرتبط هستند. هدف این است که استفاده از wordnet ها در چندین زبان را آسان کنیم.

برنامه های کاربردی

WordNet برای اهداف متعددی در سیستم‌های اطلاعاتی استفاده شده است، از جمله ابهام‌زدایی با حس کلمه ، بازیابی اطلاعات ، طبقه‌بندی خودکار متن ، خلاصه‌سازی خودکار متن ، ترجمه ماشینی و حتی تولید جدول کلمات متقاطع خودکار.

یکی از کاربردهای رایج WordNet برای تعیین شباهت بین کلمات است. الگوریتم‌های مختلفی پیشنهاد شده‌اند، از جمله اندازه‌گیری فاصله بین کلمات و synsets در ساختار نمودار WordNet، مانند شمارش تعداد یال‌ها در میان مجموعه‌ها. شهود این است که هر چه دو کلمه یا ترکیب به هم نزدیکتر باشند، معنای آنها نزدیکتر است. تعدادی از الگوریتم‌های شباهت کلمه مبتنی بر WordNet در یک بسته Perl به نام WordNet::Similarity، ^[21] و در یک بسته Python به نام NLTK پیاده‌سازی شده‌اند . ^[22] دیگر تکنیک‌های تشابه پیچیده‌تر مبتنی بر WordNet عبارتند از ADW، ^{[23] که پیاده‌سازی آن در}جاوا موجود است . WordNet همچنین می تواند برای پیوند دادن واژگان دیگر استفاده شود. ^[24]

رابط ها

پرینستون فهرستی از پروژه های مرتبط ^[25] را حفظ می کند که شامل پیوندهایی به برخی از رابط های برنامه نویسی کاربردی کاربردی است که برای دسترسی به WordNet با استفاده از زبان ها و محیط های برنامه نویسی مختلف در دسترس هستند.

پروژه ها و الحاقات مرتبط

WordNet به چندین پایگاه داده از وب معنایی متصل است . WordNet همچنین معمولاً از طریق نگاشت بین synsets WordNet و دسته‌های هستی‌شناسی استفاده مجدد می‌شود. اغلب، تنها دسته‌های سطح بالای WordNet ترسیم می‌شوند.

انجمن جهانی ورد نت

انجمن جهانی ورد نت (GWA) ^[26] یک سازمان عمومی و غیرتجاری است که بستری را برای بحث، اشتراک گذاری و اتصال ورد نت ها برای همه زبان های جهان فراهم می کند. GWA همچنین استانداردسازی شبکه های کلمه را در بین زبان ها ترویج می کند تا از یکنواختی آن در شمارش synset ها در زبان های انسانی اطمینان حاصل کند. GWA فهرستی از ورد نت های توسعه یافته در سراسر جهان را نگه می دارد. ^[27]

زبان های دیگر

WordNet عربی : ^[28]^[29] WordNet برای زبان عربی.
هستی شناسی عربی ، هستی شناسی زبانی که ساختاری مشابه wordnet دارد و به آن نگاشت شده است.
پروژه BalkaNet ^[30] WordNets را برای شش زبان اروپایی (بلغاری، چک، یونانی، رومانیایی، ترکی و صربی) تولید کرده است. برای این پروژه، یک ویرایشگر WordNet مبتنی بر XML به صورت رایگان توسعه داده شد. این ویرایشگر - VisDic - دیگر در حال توسعه فعال نیست، اما همچنان برای ایجاد ورد نت های مختلف استفاده می شود. جانشین آن، DEBVisDic، یک برنامه مشتری-سرور است و در حال حاضر برای ویرایش چندین ورد نت (هلندی در پروژه کورنتو، لهستانی، مجارستانی، چندین زبان آفریقایی، چینی) استفاده می شود.
BulNet نسخه بلغاری WordNet است که در بخش زبانشناسی محاسباتی موسسه زبان بلغاری ، آکادمی علوم بلغارستان توسعه یافته است. ^[31]
CWN (Wordnet چینی یا 中文詞彙網路) پشتیبانی شده توسط دانشگاه ملی تایوان . ^[32]
پروژه EuroWordNet ^[33] WordNets را برای چندین زبان اروپایی تولید کرده و آنها را به هم مرتبط کرده است. با این حال، اینها به صورت رایگان در دسترس نیستند. پروژه جهانی ورد نت تلاش می کند تا تولید و پیوند "ورد نت" را برای همه زبان ها هماهنگ کند. ^[34] انتشارات دانشگاه آکسفورد ، ناشر فرهنگ لغت انگلیسی آکسفورد ، برنامه‌هایی برای تولید رقیب آنلاین خود برای WordNet ابراز کرده است. ^{[ نیازمند منبع ]}
FinnWordNet یک نسخه فنلاندی از WordNet است که در آن تمام ورودی های WordNet اصلی انگلیسی ترجمه شده است. ^[35]
GermaNet یک نسخه آلمانی WordNet است که توسط دانشگاه توبینگن توسعه یافته است. ^[36]
IndoWordNet ^[37] یک پایگاه دانش واژگانی پیوند خورده از ورد نت های 18 زبان برنامه ریزی شده هند است، یعنی، آسامی ، بنگلا ، بودو ، گجراتی ، هندی ، کانادا ، کشمیری ، کونکانی ، مالایالام ، میتی (مانیپوری)، مراتی ، اودیا ، نپال . پنجابی ، سانسکریت ، تامیل ، تلوگو و اردو .
JAWS (Just Another WordNet Subset)، نسخه فرانسوی دیگری از WordNet ^[38] که با استفاده از فضاهای ویکی‌واژه و معنایی ساخته شده است.
WordNet Bahasa: WordNet برای زبان مالایی و اندونزیایی که توسط دانشگاه فناوری نانیانگ توسعه یافته است .
ورد نت مالایالام که توسط دانشگاه علم و فناوری کوچین توسعه یافته است . ^[39]
مخزن مرکزی چندزبانه (MCR) در همان چارچوب EuroWordNet وردنت های اسپانیایی، کاتالانی، باسکی، گالیسیایی و پرتغالی را به انگلیسی ادغام می کند. ^[40]
پروژه MultiWordNet، ^[41] یک WordNet چند زبانه با هدف تولید یک WordNet ایتالیایی که به شدت با ورد نت پرینستون هماهنگ است.
OpenDutchWordNet، ^[42] یک پایگاه داده معنایی واژگانی هلندی است.
OpenWN-PT یک نسخه پرتغالی برزیل از WordNet اصلی است که به طور رایگان تحت مجوز CC-BY-SA برای دانلود در دسترس است. ^[43]
plWordNet ^[44] نسخه لهستانی WordNet است که توسط دانشگاه صنعتی Wrocław توسعه یافته است .
PolNet ^[45] یک نسخه لهستانی زبان WordNet است که توسط دانشگاه Adam Mickiewicz در پوزنان توسعه یافته است (توزیع شده تحت مجوز CC BY-NC-ND 3.0).

پروژه‌هایی مانند BalkaNet و EuroWordNet ایجاد شبکه‌های واژه‌ای مستقل و مرتبط با شبکه اصلی را امکان‌پذیر ساختند. دو پروژه از این قبیل عبارتند از WordNet روسی، که توسط دانشگاه دولتی ارتباطات پترزبورگ ^[46] و توسط SA Yablonsky، ^[47] و Russnet، ^[48] توسط دانشگاه ایالتی سن پترزبورگ رهبری می‌شد .

UWN یک پایگاه دانش واژگانی چند زبانه است که به طور خودکار ساخته شده است که WordNet را برای پوشش بیش از یک میلیون کلمه در بسیاری از زبان‌های مختلف گسترش می‌دهد. ^[49]
WOLF (WordNet Libre du Français)، نسخه فرانسوی WordNet. ^[50]

داده های مرتبط

BabelNet ، ^[51] یک شبکه معنایی چندزبانه بسیار بزرگ با میلیون ها مفهوم که با ادغام WordNet و Wikipedia با استفاده از یک الگوریتم نقشه برداری خودکار به دست آمده است.
هستی شناسی SUMO ^[52] دارای یک نگاشت کامل دستی [1] ^[53] بین همه مجموعه های WordNet و همه SUMO (از جمله هستی شناسی های دامنه آن، زمانی که WordNet دارای یک مفهوم کلمه برای یک اصطلاح SUMO معین است) است که قابل مرور در: به عنوان مثال [2].
OpenCyc ، ^[54] یک هستی شناسی و پایگاه دانش باز دانش عقل سلیم روزمره، دارای 12000 اصطلاح مرتبط با مجموعه های مترادف WordNet است.
DOLCE ، ^[55] اولین ماژول کتابخانه هستی شناسی بنیادی WonderWeb (WFOL) است. این هستی شناسی بالا در پرتو اصول هستی شناختی دقیق با الهام از سنت فلسفی، با جهت گیری روشن به سمت زبان و شناخت، توسعه یافته است. OntoWordNet ^[56] نتیجه یک تراز تجربی سطح بالای WordNet با DOLCE است. پیشنهاد می‌شود که چنین هم‌ترازی می‌تواند به یک WordNet «شیرین‌شده هستی‌شناختی» منجر شود که از نظر مفهومی دقیق‌تر، از نظر شناختی شفاف‌تر و به‌طور مؤثر در چندین برنامه قابل بهره‌برداری است.
DBpedia ، ^[57] پایگاه داده ای از اطلاعات ساختاریافته، به WordNet پیوند داده شده است.
WordNet توسعه یافته ^[58] پروژه ای در دانشگاه تگزاس در دالاس است که هدف آن بهبود ورد نت با تجزیه معنایی glosses است، بنابراین اطلاعات موجود در این تعاریف را برای سیستم های پردازش خودکار دانش در دسترس قرار می دهد. تحت مجوزی مشابه WordNet به صورت رایگان در دسترس است.
پروژه GCIDE یک فرهنگ لغت را با ترکیب یک فرهنگ لغت وبستر با مالکیت عمومی از سال 1913 با برخی از تعاریف WordNet و مطالب ارائه شده توسط داوطلبان تولید کرد. تحت مجوز کپی لفت GPL منتشر شد .
ImageNet یک پایگاه داده تصویری است که بر اساس سلسله مراتب WordNet (در حال حاضر فقط اسم ها) سازماندهی شده است، که در آن هر گره از سلسله مراتب توسط میلیون ها تصویر به تصویر کشیده می شود. ^[59] در حال حاضر، به طور متوسط بیش از 500 تصویر در هر گره دارد.
BioWordnet، یک توسعه زیست پزشکی wordnet به دلیل مشکلات مربوط به پایداری نسخه‌ها کنار گذاشته شد. ^[60]
WikiTax2WordNet، نقشه‌برداری بین مجموعه‌های WordNet و دسته‌های ویکی‌پدیا . ^[61]
WordNet++، منبعی شامل بیش از میلیون‌ها لبه معنایی برداشت‌شده از ویکی‌پدیا و اتصال جفت‌های WordNet synsets. ^[62]
SentiWordNet، منبعی برای پشتیبانی از برنامه‌های نظر کاوی که با برچسب‌گذاری تمام مجموعه‌های WordNet 3.0 بر اساس درجات تخمینی مثبت، منفی و بی‌طرفی آنها به دست می‌آید. ^[63]
ColorDict یک برنامه اندروید برای تلفن های همراه است که از پایگاه داده Wordnet و سایر موارد مانند ویکی پدیا استفاده می کنند.
UBY-LMF یک پایگاه داده از 10 منبع از جمله WordNet.

پروژه های مرتبط

FrameNet یک پایگاه داده واژگانی است که شباهت هایی با WordNet دارد و به آن اشاره می کند.
چارچوب نشانه گذاری واژگانی (LMF) یک استاندارد ISO است که در ISO/TC37 به منظور تعریف چارچوب استاندارد شده مشترک برای ساخت واژگان از جمله WordNet مشخص شده است. زیر مجموعه LMF برای Wordnet Wordnet-LMF نامیده می شود. نمونه ای در پروژه KYOTO ساخته شده است. ^[64]
برنامه UNL پروژه ای تحت نظارت UNO است که با هدف ادغام داده های معنایی واژگانی بسیاری از زبان ها برای استفاده در ترجمه ماشینی و سیستم های استخراج اطلاعات انجام می شود .
Meaning Monkey یک فرهنگ لغت آنلاین رایگان مبتنی بر پایگاه داده WordNet است.
Dictionary.video یک فرهنگ لغت ویدیویی است که بر تلفظ ها تمرکز دارد. بخش متن آن از WordNet توسعه یافته است.

توزیع ها

پایگاه داده WordNet به عنوان یک بسته فرهنگ لغت (معمولاً یک فایل) برای نرم افزار زیر توزیع می شود:

بابل ^[65]
GoldenDict ^[66]
Lingoes ^[67]
LexSemantic: بستر دیجیتال برای انتشار آثار مرجع (لغت نامه ها، دایره المعارف ها و غیره). شامل WordnetPlus است.

همچنین ببینید

مراجع

↑ «اخبار ورد نت».
↑ «جستجوی ورد نت - 3.1».
^ GA Miller، R. Beckwith، CD Fellbaum، D. Gross، K. Miller. 1990. WordNet: پایگاه داده واژگانی آنلاین. بین المللی J. Lexicograph. 3، 4، صص 235-244.
↑ «WordNets در جهان». انجمن جهانی WordNet . بازیابی شده در 19 ژانویه 2020 .
↑ «درباره انجمن جهانی ورد نت». ورد نت جهانی بازیابی شده در 19 ژانویه 2020 .
↑ «آمار ورد نت». Wordnet.princeton.edu . بازیابی 2018-06-22 .
↑ Collins A., Quillian MR 1972. آزمایش‌هایی روی حافظه معنایی و درک زبان. در شناخت در یادگیری و حافظه . وایلی، نیویورک
↑ «ادغام WordNet 1.7 در WebKB-2». Webkb.org بازیابی شده در 11-03-2014 .
↑ گنگمی، ع. ناویگلی، آر. ولاردی، ص (1382). پروژه OntoWordNet: بسط و بدیهی سازی روابط مفهومی در WordNet (PDF) . کاتانیا، سیسیل (ایتالیا). صص 820-838. {{cite book}}: |work=نادیده گرفته شد ( کمک )CS1 maint: مکان از دست رفته ناشر ( پیوند )
^ اولتراماری، ا. گنگمی، ع. گوارینو، ن. ماسولو، سی (2002). بازسازی سطح بالای WordNet: رویکرد OntoClean . کارگاه آموزشی OntoLex'2، هستی شناسی ها و پایگاه های دانش واژگانی (LREC 2002). لاس پالماس، اسپانیا صص 17-26. CiteSeerX 10.1.1.19.6574 .
^ رودنیکا، اوا؛ باند، فرانسیس؛ گرابوفسکی، لوکاس؛ پیاسکی، ماسیج؛ پیوتروسکی، تادئوش (2018). "دیدگاه لغوی در نقشه برداری ورد نت به ورد نت". مجموعه مقالات نهمین کنفرانس جهانی ورد نت (GWC 2018) : 210.
^ باند، فرانسیس؛ فاستر، رایان (2013). "پیوند و گسترش یک Wordnet چند زبانه باز" (PDF) . مجموعه مقالات پنجاه و یکمین اجلاس سالانه انجمن زبانشناسی محاسباتی : 1352–1362 . بازیابی شده در 20 ژانویه 2020 .
^ Fellbaum، Christiane; ووسن، پیک (2012). "چالش‌هایی برای یک شبکه چند زبانه". منابع زبان و ارزشیابی . 46 (2): 313-326. doi :10.1007/s10579-012-9186-z. S2CID 10117946.
^ R. Navigli. ابهام‌زدایی حس کلمه: نظرسنجی، بررسی‌های محاسباتی ACM ، 41(2)، 2009، صفحات 1-69
^ E. Agirre، O. Lopez. 2003. خوشه بندی WordNet Word Senses. در Proc. کنفرانس پیشرفت های اخیر در زبان طبیعی (RANLP'03) ، بورووتز، بلغارستان، صفحات 121-130.
^ R. Navigli. خوشه‌بندی معنی‌دار حواس به تقویت عملکرد ابهام‌زدایی حس کلمه کمک می‌کند، در Proc. از چهل و چهارمین نشست سالانه انجمن زبان شناسی محاسباتی مشترک با بیست و یکمین کنفرانس بین المللی زبان شناسی محاسباتی (COLING-ACL 2006) ، سیدنی، استرالیا، 17-21 ژوئیه، 2006، صفحات 105-112.
↑ R. Snow، S. Prakash، D. Jurafsky، AY Ng. 2007. Learning to Merge Word Senses, In Proc. کنفرانس مشترک 2007 در مورد روشهای تجربی در پردازش زبان طبیعی و یادگیری زبان طبیعی محاسباتی (EMNLP-CoNLL) ، پراگ، جمهوری چک، صفحات 1005-1014.
↑ وونگ، جولیا کری (18-09-2019). "برنامه عکس سلفی ویروسی ImageNet Roulette سرگرم کننده به نظر می رسید - تا زمانی که مرا یک توهین نژادپرستانه نامید". نگهبان . بازیابی 2022-10-14 .
↑ فرانسیس باند و کیونگهی پیک 2012a. بررسی ورد نت ها و مجوزهای آنها. در مجموعه مقالات ششمین کنفرانس جهانی ورد نت (GWC 2012). ماتسوه. 64-71
↑ «ورد نت چند زبانه باز کنید». compling.hss.ntu.edu.sg . بازبینی شده در 10 آوریل 2018 .
↑ «تد پدرسن - WordNet::Similarity». D.umn.edu. 16/06/2008 . بازیابی شده در 11-03-2014 .
^ NLP با استفاده از Python NLTK/
↑ ام تی پیله ور، دی. یورگنس و آر. ناویگلی. تراز کردن، ابهام زدایی و راه رفتن: رویکردی واحد برای اندازه گیری تشابه معنایی.. Proc. از پنجاه و یکمین نشست سالانه انجمن زبانشناسی محاسباتی (ACL 2013)، صوفیه، بلغارستان، 4 تا 9 اوت 2013، صفحات 1341-1351.
^ بالاتور A، و همکاران. (2014). "پیوند واژگان جغرافیایی از طریق WordNet". سالنامه GIS . 20 (2): 73-84. arXiv : 1404.5372 . Bibcode :2014AnGIS..20...73B. doi :10.1080/19475683.2014.904440. S2CID 9246582.
^ "پروژه های مرتبط - WordNet - پروژه های مرتبط". Wordnet.princeton.edu. 06/01/2014 . بازیابی 2018-06-22 .
↑ انجمن جهانی WordNet (04-02-2010). "globalwordnet.org". globalwordnet.org بازیابی 2014-03-11 .
↑ «Wordnets در جهان». بایگانی شده از نسخه اصلی در 2011-10-21.
↑ بلک دبلیو.، الکاتب اس.، رودریگز اچ.، الخالیفه ام.، ووسن پی.، پیز آ.، برتران ام.، فلباوم سی.، (2006) پروژه ورد نت عربی، مجموعه مقالات LREC 2006
↑ Lahsen Abouenour, Karim Bouzoubaa, Paolo Rosso (2013) در مورد ارزیابی و بهبود پوشش و قابلیت استفاده ورد نت عربی, منابع زبان و ارزیابی 47(3) pp 891-917
↑ D. Tufis، D. Cristea، S. Stamou. 2004. Balkanet: اهداف، روش ها، نتایج و دیدگاه ها. یک بررسی کلی رومانیایی J. Sci. فنی اطلاع رسانی کنید. (ویژه شماره بالکانیت) ، 7(1-2)، صص 9-43.
↑ «BulNet». dcl.bas.bg . بازیابی شده در 2015-05-07 .
^ صفحه رسمی Wordnet چینی (中文詞彙網路) در دانشگاه ملی تایوان
^ P. Vossen, Ed. 1998. EuroWordNet: پایگاه داده چند زبانه با شبکه های معنایی واژگانی. کلوور، دوردرخت، هلند.
↑ «انجمن جهانی ورد نت». Globalwordnet.org 04/02/2010 . بازیابی شده در 2014-01-05 .
↑ "FinnWordNet – ورد نت فنلاندی - بخش زبان شناسی عمومی". Ling.helsinki.fi . بازیابی شده در 2014-01-05 .
↑ «GermaNet». Sfs.uni-tuebingen.de . بازیابی شده در 11-03-2014 .
↑ Pushpak Bhattacharyya، IndoWordNet، کنفرانس مهندسی منابع واژگانی 2010 (LREC 2010)، مالت، می، 2010.
↑ سی. موتون، جی. دی چالندار. 2010.JAWS: فقط یکی دیگر از زیر مجموعه های WordNet. در Proc. از TALN 2010 .
^ وب سایت
↑ "MCR 3.0 | Adimen". Adimen.si.ehu.es . بازیابی شده در 2022-03-21 .
↑ E. Pianta، L. Bentivogli، C. Girardi. 2002. MultiWordNet: توسعه یک پایگاه داده چند زبانه تراز شده. در Proc. از اولین کنفرانس بین المللی در ورد نت جهانی ، میسور، هند، صفحات 21-25.
↑ «WordNet هلندی را باز کنید». Wordpress.let.vupr.nl. 2015-10-28 . بازیابی شده در 2022-03-21 .
↑ «arademaker/openWordnet-PT — GitHub». Github.com بازیابی شده در 2014-01-05 .
^ صفحه وب رسمی
^ صفحه وب رسمی
↑ «Русский WordNet». Pgups.ru . بازیابی شده در 2014-01-05 .
↑ بالکووا، والنتینا؛ سوخونوگوف، آندری؛ یابلونسکی، سرگئی (2003). "WordNet روسی از UML-notation تا پیاده سازی پایگاه داده بین شبکه/اینترانت" (PDF) . مجموعه مقالات GWC 2004 : 31-38 . بازبینی شده در 12 مارس 2017 .
↑ «RussNet: صفحه اصلی». Project.phil.spbu.ru . بازیابی شده در 11-03-2014 .
↑ "UWN: Towards a Universal Multilingual Wordnet - D5: Databases and Information Systems (Max-Planck-Institut für Informatik)". Mpi-inf.mpg.de. 2011-08-14 . بازیابی شده در 2014-01-05 .
↑ S. Benoît، F. Darja. 2008. ساخت یک wordnet فرانسوی رایگان از منابع چند زبانه. در Proc. Ontolex 2008 ، مراکش، Maroc.
^ R. Navigli، SP Ponzetto. BabelNet: ایجاد یک شبکه معنایی چند زبانه بسیار بزرگ. Proc. از چهل و هشتمین نشست سالانه انجمن زبانشناسی محاسباتی (ACL 2010)، اوپسالا، سوئد، 11-16 ژوئیه، 2010، صفحات 216-225.
^ I. Niles, A. Pease 2001. Toward a Upper Ontology: یک هستی شناسی بزرگ برای وب معنایی و کاربردهای آن. در مجموعه مقالات دومین کنفرانس بین المللی هستی شناسی رسمی در سیستم های اطلاعاتی (FOIS-2001) ،
^ I. Niles, A. Pease 2003. پیوند واژگان و هستی شناسی ها: نقشه برداری WordNet به هستی شناسی ادغام شده فوقانی پیشنهادی، در مجموعه مقالات کنفرانس بین المللی IEEE در زمینه مهندسی اطلاعات و دانش ، صفحات 412-416
^ S. Reed و D. Lenat. 2002. نقشه برداری هستی شناسی ها به Cyc. در Proc. کارگاه کنفرانس AAAI 2002 در مورد هستی شناسی ها برای وب معنایی ، ادمونتون، کانادا، 2002
^ Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, LS 2002. WonderWeb Deliverable D17. کتابخانه هستی شناسی های بنیادی WonderWeb و هستی شناسی DOLCE. گزارش (نسخه 2.0، 15-08-2002)
↑ Gangemi, A., Guarino, N., Masolo, C., Oltramari, A. 2003 شیرین کردن WordNet با DOLCE. در مجله AI 24(3): پاییز 2003، صفحات 13-24
↑ سی. بیزر، جی. لمان، جی. کوبیلاروف، اس. اوئر، سی. بکر، آر. سیگانیاک، اس. هلمان، DBpedia - نقطه تبلور برای وب داده ها. وب معناشناسی، 7 (3)، 2009، صفحات 154-165
↑ SM Harabagiu، GA Miller، DI مولداوی. 1999. WordNet 2 - یک منبع تقویت شده از نظر ریخت شناسی و معنایی. در Proc. از کارگاه ACL SIGLEX: استانداردسازی منابع واژگانی ، صفحات 1-8.
↑ جی. دنگ، دبلیو دانگ، آر. سوچر، ال. لی، کی. لی، ال. فی-فی. ImageNet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ. در Proc. کنفرانس IEEE 2009 در مورد بینایی کامپیوتری و تشخیص الگو
↑ M. Poprat، E. Beisswanger، U. Hahn. 2008. ساخت BIOWORDNET با استفاده از فرمت های داده WORDNET و زیرساخت نرم افزار WORDNET - یک داستان شکست. در Proc. از کارگاه مهندسی نرم افزار، تست و تضمین کیفیت برای پردازش زبان طبیعی ، صفحات 31-39.
↑ اس. پونزتو، آر. ناویگلی. نقشه برداری طبقه بندی در مقیاس بزرگ برای بازسازی و یکپارچه سازی ویکی پدیا، در Proc. بیست و یکمین کنفرانس بین المللی مشترک هوش مصنوعی (IJCAI 2009) ، پاسادنا، کالیفرنیا، 14-17 جولای، 2009، صفحات 2083-2088.
^ SP Ponzetto, R. Navigli. ابهام‌زدایی Word Sense غنی از دانش با سیستم‌های نظارت شده رقابت می‌کند. در Proc. از چهل و هشتمین نشست سالانه انجمن زبانشناسی محاسباتی (ACL)، 2010، صفحات 1522-1531.
↑ S. Baccianella، A. Esuli و F. Sebastiani. SentiWordNet 3.0: یک منبع واژگانی پیشرفته برای تحلیل احساسات و نظر کاوی. در مجموعه مقالات هفتمین کنفرانس منابع و ارزیابی زبان (LREC'10)، والتا، MT، 2010، صفحات 2200-2204.
↑ پیک ووسن، کلودیا سوریا، مونیکا موناکینی: Wordnet-LMF: یک نمایش استاندارد برای وردنت های چند زبانه، در چارچوب نشانه گذاری لغوی LMF ، ویرایش شده توسط گیل فرانکوپولو ISTE / ویلی 2013 ( ISBN 978-1-84821-4309 )
↑ «Babylon WordNet». Babylon.com بازیابی 2014-03-11 .
↑ «GoldenDict - در Sourceforge.net/Dictionaries را مرور کنید». Sourceforge.net. 01-12-2010 . بازیابی شده در 2014-01-05 .
↑ "Lingoes WordNet". Lingoes.net. 2007-11-16 . بازیابی شده در 11-03-2014 .

لینک های خارجی

وب سایت رسمی
"ورد نت مالایالام". علوم کامپیوتر . دانشگاه علم و صنعت کوچین
پیلاتو، ماریا. اصطلاحنامه صفت ها، تشدید کننده ها، نفی ها (AIN) . احساسات ایتالیایی