وردنت

وردنت یک پایگاه داده‌ی بزرگ انگلیسی است. اسم‌ها، فعل‌ها، صفت‌ها و قیدها در مجموعه‌های مترادف شناختی (مجموعه‌مترادف‌ها[۱]) دسته‌بندی شده‌اند که هر کدام یک فاصله‌ی مفهومی را بیان می‌کنند. مجموعه‌مترادف‌ها به استفاده از روابط مفهومی‌ـ‌معماشناختی و واژگانی به‌هم پیوند داده شده‌اند.

ساختار وردنت آن‌را وسیله‌ای مفید برای زبان‌شناسی رایانشی و پردازش زبان طبیعی می‌کند.

وردنت بر اساس یک قاموس[۲] (فرهنگ جامع) بنا شده است که در آن واژه‌ها بر اساس معنای‌شان با هم دسته‌بندی شده‌اند. با این حال، برخی تمایزات مهم وجود دارد؛ نخست، وردنت فقط صورت واژه‌ها – رشته‌ای از حروف – را به هم پیوند نمی‌زند بلکه معنای ویژه‌ی واژه را به هم پیوند می‌زند، در نتیجه واژه‌هایی که در شبکه در نزدیکی به هم دارند در شبکه از نظر معنایی ابهام‌زدایی دارند. دوم، برچسب‌های روابط معنایی میان واژه‌ها وردنت در حالی‌که دسته‌های واژه‌ها در یک قاموس از یک الگوی صریح به جز شباهت معنایی پیروی نمی‌کند.

قاموس راهی‌ست برای نشان دادن ساختار (واژگان) دانش. با روابط واژگانی ترادف، تضاد، مجاز (جز به کل، علاقه، شمول) به دست می‌آید.

تاریخچه:

در سال ۱۹۸۵ گروهی از روان‌شناسان و زبان‌شناسان در دانشگاه پرینستون بر اساس روان-زبان‌شناسی و روان-واژگان‌شناسی شروع به گسترش پایگاه داده‌های واژگان بر اساس این پرسش که «واژگان ذهنی چه ویژگی‌هایی دارد؟» کردند.

ساختار:

اصلی‌ترین رابطه‌ی میان واژه‌ها در وردنت ترادف[۳] است. واژه‌های مترادف که یک مفهوم مشابه را می‌رسانند و در بسیاری از بافت قابل جایگزینی با هم هستند، در مجموعه‌های بدون نظم (مجموعه‌مترادف‌ها) دسته‌بندی می‌شوند. هر کدام از ۱۱۷۰۰۰ مجموعه‌مترادف وردنت به مجموعه‌مترادف دیگری با استفاده از تعداد کمی روبط مفهومی پیوند داده می‌شود. به علاوه، یک مجموعه‌مترادف شامل یک تعریف واضح و شفاف (شرح[۴]) و در بسیاری از حالات یک یا چند جمله‌ی کوتاه نشان‌دهنده‌ی کاربرد اعضای مجموعه‌مترادف‌ها است. صورت‌واژه‌ها[۵] با چند فاصله‌ی معنایی در چند مجموعه‌مترادف نشان داده می‌شوند بنابراین هر جفت صورت-معنا در وردنت یکتا است.

روابط:

پربسامدترین رابطه‌ی کدشده میان مجموعه‌مترادف‌ها رابطه‌ی ابر-وابستگی (یا شمول[۶]، زیرشمول[۷] یا رابطه‌ی یک…هست[۸]) است. مجموعه‌مترادف‌های خیلی عمومی را مانند {مبلمان، قطعات مبلمان} تا مجموعه‌مترادف‌های بسیار ویژه‌تری مانند {تخت خواب} و {تخت خواب سفری} را به هم پیوند می‌زند. بنابراین وردنت تعیین می‌کند که مقوله‌ی مبلمان شامل تخت خواب که به نوبه‌ی خود شامل تخت خواب سفری می‌شود، است. بر عکس؛ مفاهیمی مانند تخت خواب و تخت خواب سفری مقوله‌ی مبلمان را می‌سازند. همه‌ی سلسله مراتب‌های اسم در نهایت به گره‌ی ریشه {ماهیت entity} می‌رسند. رابطه‌ی زیرشمول متعدی است: اگر صندلی دسته‌دار نوعی صندلی باشد و اگر صندلی نوعی مبلمان باشد آن‌گاه صندلی دسته‌دار نوعی مبلمان است. وردنت میان انواع (اسم‌های عمومی) و نمونه‌ها[۹] (اشخاص به‌خصوص، کشورها و ماهیت‌های جغرافیایی) تمایز قائل می‌شود. بنابراین صندلی دسته‌دار نوعی از صندلی است، باراک اوباما یک نمونه از رئیس‌جمهور است. نمونه‌ها همیشه گره‌های برگ (پایانه) در سلسله مراتب‌شان هستند.

جزءواژگی[۱۰] رابطه‌ی جزء-کل میان مجموعه‌مترادف‌ها را مانند {صندلی} و {پشتی}، {پایه} را نگه می‌دارد. اجزا از بالادستی‌شان ارث می‌برند؛ اگر یک صندلی پایه داشته باشد آنگاه یک صندلی دسته‌دار هم پایه دارد. اجزا ارث بالارونده ندارد یعنی ممکن است ویژگی‌ها فقط در انواع خاصی از اشیا به جای همه‌ی دسته وجود داشته باشد؛ صندلی‌ها و انواع صندلی‌ها پایه دارند اما همه‌ی انواع مبلمان پایه ندارند.

همچنین مجموعه‌مترادف‌های فعل هم به صورت سلسله مراتبی مرتب می‌شوند. افعال با توجه به شیوه‌ی خاصی که در توصیف یک رویداد دارند به سمت پایین رده‌بندی می‌شوند مثلاً {ارتباط برقرار کردن}، {صحبت کردن}، {نجوا کردن}. رفتار ویژه‌ی بیان‌شده بستگی به زمینه‌ی معنایی دارد؛ مثلاً در مثال فوق میزان بلندی صدا تنها یکی از ابعادی است که می‌توان افعال را با آن رده‌بندی کرد. مثلاً برای افعال {حرکت کردن، هروله رفتن، دویدن} سرعت و برای {علاقه داشتن، دوست داشتن، عاشق بودن، پرستیدن} میزان علاقه از عوامل رده‌بندی است. افعال بیانگر رویدادهایی را که ناگزیر و یک‌سویه در پی هم می‌آیند، هم به پیوند زده می‌شوند مثل {خریدن}-{پرداخت کردن}، {موفق شدن}-{تلاش کردن}، {نشان دادن}-{دیدن}

صفات هم  بر اساس تضاد سامان‌دهی می‌شوند. جفت‌های متضاد مستقیم مانند خشک-تر و جوان-پیر که بازتاباننده‌ی ارتباط قوی معنایی بین اعضای‌شان‌اند. هر کدام از این جفت‌های صفتی، به نوبه‌ی خود، با تعدادی مشابه‌های معنایی‌شان پیوند داده می‌شوند؛ خشک با پژمرده، بی‌آب، کویر، برهوت و … تر با خیس، نم‌دار، آب‌دار، آبکی و … . صفت‌های مشابه معنایی با مشابه‌های معنایی قطب مخالف در تضاد غیرمستقیم هستند. صفت‌های رابطه‌ای به اسم‌هایی که از آن مشتق شده‌اند اشاره می‌کنند، مانند مجرم، مجرمانه.

قیدهای کمی در وردنت هست مثل به‌سختی، واقعاً و .. به خاطر این‌که بیشتر قیدها با قواعد ساخت‌واژی از صفت‌ها ساخته می‌شوند.

  • اسم
    • ترادف ~ تضاد (مخالفِ)
    • زیرشمول ) نوعی از) ~ شمول)برای مثال)
    • همپایه (خواهر) : یک شمول را به اشتراک می‌گذارند
    • جزء (بخشی از) ~ کل (بخشی دارد)
  • فعل
    • تضاد ~ ترادف
    • شمول ~ همگونی (نجوا کردن- حرف زدن)
    • استلزام (خروپف کردن – خوابیدن)
    • همپایه (خواهر): یک شمول را به اشتراک می‌گذارند
  • صفت و قید (علاوه بر موارد بالا)
    • اسم‌های مرتبط
    • وجوه فعلی
    • اطلاعات اشتقاقی

روابط بین مقوله‌ای:

بخش اعظمی از روابط وردنت واژه‌های از یک مقوله‌ی واژگانی را به هم متصل می‌کند، بنابراین وردنت در واقع از چهار زیرشبکه تشکیل شده، اسم‌ها، فعل‌ها، صفت‌ها و قیدها با چند اشاره‌گر بین مقوله‌ای. روابط بین مقوله‌ای شامل پیوندهای ساخت‌واژه-معنایی است که واژه‌های مشابه معنایی که یک ریشه با معنی مشابه را به اشتراک می‌گذارند نگه می‌دارد، مثلاً دیدن (فعل)، ببینده، بینش (اسم)، بینا (صفت). در بسیاری از جفت‌های اسم-فعل نقش معنایی اسم با توجه با توجه به فعل مشخص شده است. {رفته، رفته_خانه} که «مکان[۱۱]» برای {رفتن} است و {نویسنده} «عامل[۱۲]» {نوشتن} است که {نوشته، نامه} «نتیجه[۱۳]» آن است.

کاربردها:

وردنت بیش از آن‌که به طور مستقل به کار گرفته شود، در سایر پروژه‌ها به عنوان یک ابزار استفاده می‌شود. یکی از دلایل استقبال از وردنت، ساختار پایگاه داده‌ی آن است، که باعث شده در محاسبات زبانی و هم‌چنین پردازش زبان طبیعی به عنوان یک ابزار سودمند استفاده شود. در اکثر پروژه‌ها می‌توان از وردنت به‌صورت مستقیم برای کاربردهای مبتنی بر دانش، مخصوصاً در پروژه‌های بازیابی اطلاعات دانش‌گرا استفاده‌کرد.

به عنوان مهم‌ترین کاربردهای وردنت می‌توان به موارد زیر اشاره نمود:

۱) تشخیص نقش لغات در متون.

۲) دسته‌بندی متون به‌صورت خودکار.

۳) خلاصه‌سازی متون به‌صورت خودکار.

۴) استفاده در پردازش‌های وب معنایی.

۵) در زمینه‌ی بازیابی اطلاعات، وردنت به عنوان یک فرهنگ لغت معنایی جامع برای گسترش پرس‌وجوها و بهبود کارایی موتورهای جستجوگر مورد استفاده قرار گرفته است.

۶) ابهام‌زدایی معنایی واژه‌ها.

 

http://wordnet.princeton.edu/

نمونه‌ای از وردنت

نمونه‌ای از وردنت


در زبان فارسی فارس‌‌نت نرم‌افزاری‌ست که مشابه وردنت در انگلیسی عرضه شده است. که از نشانی http://dadegan.ir/catalog/farsnet قابل دانلود است.

مثلاً برای {خشک} در فارس‌نت این اطلاعات نمایش داده می‌شود.

[ خشکی – بی آبی ]

مقوله نحوی: اسم

معنای ۱ : خشکی >> آوا: xoSki

اطلاعات نحوی:اسم عام , قابل شمارش

————————

معنای ۲ : بی آبی >> آوا: bi’Abi

اطلاعات نحوی:اسم عام

————————

تعریف: وضع و حالت نداشتن آب یا مایع  و یا پوشیده نشدن با آب

مثال: بی‌آبی به مزارع صدمات فراوانی وارد نموده است

روابط:

[Hypernym]:

12366:[ موقعیت ]

            ۱۲۷۴۵:[ وضعیت – وضع – قرار – حالت ]

                        ۱۲۷۵۶:[ مشخصه ]

                                    ۱۲۷۲۶:[ مفهوم کلی – هستینه انتزاعی – موجود انتزاعی ]

 

[ رسمی – خشک ]

مقوله نحوی: صفت

دسته معنایی: behavior

معنای ۱ : رسمی >> آوا: rasmi

اطلاعات نحوی:

————————

معنای ۲ : خشک >> آوا: xoSk

اطلاعات نحوی:

————————

تعریف: دارای حالت رسمی و غیردوستانه

مثال: برخورد خشک

روابط:

[Antonym]:5:[ نزدیک – خودمانی – همدل – شفیق – محبت‌آمیز,محبت آمیز – مهربان – گرم – دلسوز – صمیمی ]

[related-to]:20872:[ اسموکینگ ]

[related-to]:15382:[ لفظ قلم ]

[related-to]:15341:[ به‌طوررسمی,بطور رسمی – رسمی ]

[ خشک – بی آب – خشکیده ]

مقوله نحوی: صفت

دسته معنایی: material

معنای ۱ : خشک >> آوا: xoSk

اطلاعات نحوی:

————————

معنای ۲ : بی آب >> آوا: bi’Ab

اطلاعات نحوی:

————————

معنای ۳ : خشکیده >> آوا: xoSkide

اطلاعات نحوی:

————————

تعریف: فاقد آب

مثال: گلدان بی آب

روابط:

[Antonym]:59:[ نمور – نم – آب دیده,آبدیده – نمناک – نمدار – خیس – مرطوب ]

[Antonym]:67:[ شرجی ]

[related-to]:20572:[ خلنگ ]

[coordinate term]:878:[ بته مرده ]

[related-to]:24342:[ بر – بیابان ]


در سایت http://multiwordnet.fbk.eu/english/home.php یک وردنت چندزبانه معرفی شده است که شامل زبان‌های انگلیسی، ایتالیایی، اسپانیایی، پرتقالی، عبری، رومانیایی و لاتین است.

وردنت چندزبانه


هم‌چنین در پروژه‌ای در دانشگاه آمستردام وردنت چندزبانه‌ی دیگری معروف به یورو وردنت طراحی و تولید شده است که شامل زبان‌های هلندی، ایتالیایی، اسپانیایی، آلمانی، فرانسوی، چکی و استونیایی است. این وردنت در نشانی https://www.illc.uva.nl/EuroWordNet/data/sampleData.html  در دسترس است.


 

 

[1] . synsets

[2] . Thesaurus

[3] . synonymy

[4] . gloss

[5] . word forms

[6] . hyperonymy

[7] . hyponymy

[8] . ISA relation

[9] . Instances

[10] . Meronymy

[11] . LOCATION

[12] . AGENT

[13] . RESULT

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *