ابهام‌زدایی معنایی واژه

در زبان‌های طبیعی واژه‌های بسیاری وجود دارند که بسته به بافتاری که در آن قرار گرفته‌اند، تفاسیر مختلفی از معنی آن‌ها به عمل می‌آید. این دسته از واژه‌ها در متن، مبهم شناخته می‌شوند. از این رو عمل تعیین معنای صحیح واژه را با توجه به بافتار، ابهام‌زدایی معنایی واژه (WSD) می‌نامند. واژه‌ها اجزای اولیه‌ی ساختار زبان طبیعی هستند، بنابراین درک و فهم آن‌ها لازمه‌ی پردازش خودکار زبان طبیعی است. ابهام‌زدایی معنایی واژه اصطلاحی است که به استخراج معنی صحیح و مناسب از واژه‌هایی که چندمعنایی هستند، گفته می‌شود. در هر زبان واژه‌هایی مبهم وجود دارند که دارای معانی متفاوتی هستند. مسأله‌ی یافتن معنای صحیح واژه‌ی دارای معانی متعدد، از مسایل جاری در حوزه‌ی پردازش زبان‌های طبیعی محسوب می‌شود. ابهام‌زدایی معنایی واژه‌ها یک عملیات میانی ضروری برای کاربردهای مختلفی نظیر ترجمه‌ی ماشینی، بازیابی اطلاعات، پرسش و پاسخ و خلاصه‌سازی محسوب می‌شود. انتخاب معنی درست ممکن است برای انسان بسیار واضح و آسان باشد ولی تشخیص این‌که کدام یک از معانی موجود برای یک واژه بایستی در جمله‌ی خاص انتخاب شود برای ماشین دشوار است. چهار رویکرد متفاوت برای ابهام‌زدایی معنایی واژه‌واژه‌ها وجود دارد: رویکرد مبتنی بر دانش، رویکرد مبتنی بر پیکره باناظر، رویکرد رویکرد مبتنی بر پیکره بی‌ناظر و رویکرد ترکیبی.

الف) روش‌های مبتنی بر دانش

در این روش‌ها اطلاعات مورد نیاز درباره‌ی معانی مختلف واژه‌ها از منابع دانشی لغوی استخراج می‌شود و در آنها از پیکره‌های متنی استفاده‌ای نمی‌شود. فرهنگ واژگان، فرهنگ‌های جامع، هستان‌شناسی‌ها و غیره، منابع دانش لغوی می‌باشند که در این روش‌ها مورد استفاده قرار می‌گیرد. این منابع شامل اطلاعاتی هم‌چون تعاریف و طبقه‌بندی معنایی واژه‌ها در فرهنگ واژگان قابل خواندن توسط ماشین و فرهنگ جامع و یا روابط سلسله‌مراتبی واژه‌ها در هستان‌شناسی‌ها (شبکه‌ی واژگان) می‌باشند.

در این روش‌ها از اطلاعات موجود در فرهنگ‌های لغت استفاده می‌شود. در [۴] از هم‌پوشانی کلمات موجود در تعاریف فرهنگ لغت و کلمات مجاور کلمه‌ی مبهم در متن برای رفع ابهام استفاده شده است. در حالی که در [۵] از طبقه بندی معنایی کلمات و هم‌چنین فرهنگ جامع راجت ٩ برای ابهام‌زدایی استفاده شده است.

الف-۱) روش مبتنی بر فرهنگ لغت

اگر اطلاعاتی در مورد طبقه‌بندی معنایی یک کلمه وجود نداشته باشد، در این صورت می‌توان از مشخصات عمومی معنای یک کلمه در فرهنگ لغت استفاده نمود. در این روش، تاکنون از سه نوع اطلاعات استفاده شده است. نوع اول روش لسک است که مستقیماً از تعریف معنای کلمات در فرهنگ لغت استفاده می‌شود. نوع دوم که نشان می‌دهد چگونه از اطلاعات طبقه‌بندی‌شده‌ی موجود در فرهنگ لغت می‌توان طبقه‌بندی معنایی یک کلمه را با توجه به متنی که آن کلمه در آن وجود دارد، به دست آورد و سوم اطلاعاتی است که از ترجمه‌ی یک کلمه به کمک یک فرهنگ لغت دوزبانه به دست می‌آید و استفاده از معنای کلمه در زبان مقصد برای رفع ابهام از معنای کلمه.

اطلاعات موجود در فرهنگ لغات می‌تواند شاخص خوبی برای به‌دست آوردن معنی درست کلمه در متن باشد. تنها منبع دانش مورد نیاز در این روش تعریف موجود در فرهنگ لغت برای هر یک از معانی کلمات می‌باشد. ایده‌ی اولیه در این روش بر اساس تعداد هم‌پوشانی واژه‌های موجود در تعریف معانی کلمات در فرهنگ لغت بنا شده بود. به عنوان مثال برای دو کلمه ۱ و ۲، به ازای هر یک از جفت معانی مختلف آنها در فرهنگ لغت، تعداد هم‌پوشانی کلمات موجود در تعریف آنها محاسبه شده و در نهایت جفت معنی با هم‌پوشانی بیشتر به عنوان معانی درست انتخاب می‌شوند.

الف-۲) روش مبتنی بر فرهنگ جامع

ایده‌ی اساسی در این روش‌ها این است که با توجه به طبقه‌ی مفهومی کلمات یک متن می‌توان به طبقه‌ی مفهومی خود متن پی برد و از روی این اطلاعات معنی درست کلمات را پیدا کرد در نتیجه واژه‌ها در کلاس‌های مفهومی متفاوت، در متون متفاوت قرار می‌گیرند و کلمات موجود در متن و کلاس مفهومی آنها می‌تواند معیاری برای مشخص کردن کلاس مفهومی کل متن و در نتیجه کلمه‌ی مبهم داخل آن باشد.

استفاده از فرهنگ جامع و اطلاعات موجود در آن می‌تواند ابزار خوبی برای ابهام‌زدایی باشد. از جمله‌ی این اطلاعات می‌توان به طبقه‌بندی مفهومی اشاره کرد. ایده‌ی اساسی در این روش‌ها این است که با توجه به طبقه‌ی مفهومی کلمات یک متن می‌توان به طبقه‌ی مفهومی خود متن پی برد و از روی این اطلاعات معنی درست کلمات را پیدا کرد.

الف-۳) روش مبتنی بر تشابه معنایی

کلماتی که در یک متن و در کنار هم ظاهر می‌شوند معمولاً از لحاظ معنایی به یکدیگر وابسته می‌باشند و به همین دلیل یکی از ملاک‌های خوب برای به دست آوردن معنی درست کلمات، انتخاب معانی با فاصله‌ی معنایی کمتر است. با توجه به فاصله‌ی معنایی کلمه‌ی مبهم با کلمات مجاورش ابهام‌زدایی انجام می‌شود.

کلمات برای به‌وجود آوردن پیوستگی معنایی متن نیاز دارند که خود نیز از لحاظ معنایی دارای وابستگی باشند. کلماتی که در یک متن و در کنار هم ظاهر می‌شوند معمولاً از لحاظ معنایی به یکدیگر وابسته می‌باشند و به همین دلیل یکی از ملاک‌های خوب برای به‌دست آوردن معنی درست کلمات، انتخاب معانی با فاصله‌ی معنایی کمتر است.

الف-۴) روش مبتنی بر شبکه‌ی واژگان

شبکه‌ی واژگان برای تقویت الگوریتم Lesk به کار برده می شود و از روابط سلسله‌مراتبی شبکه‌ی واژگان برای محاسبه‌ی میزان تشابه معنایی کلمات استفاده می‌شود. این تشابه معنایی بین تمام معانی مختلف کلمات جمله محاسبه می‌شود و معنی مناسب، بر اساس معیارهای وزن‌دهی به معانی انتخاب می‌شود.

شبکه‌ی واژگان یک منبع دانش لغوی است که علاوه بر معانی مختلف کلمات و تعاریف آنها روابط معنایی مختلف بین کلمات را نیز بر اساس ساختار سلسله‌مراتبی فراهم آورده است. روابط سلسله‌مراتبی در شبکه‌ی واژگان می‌تواند به منظور محاسبه میزان تشابه معنایی کلمات مورد استفاده قرار گیرد.

ب) روش مبتنی بر پیکره

در این روش‌ها از متون و پیکره‌های متنی برای استخراج اطلاعات مورد نیاز برای عمل ابهام‌زدایی استفاده می‌شود.

ب-۱) روش مبتنی بر پیکره‌ی باناظر

در این روش یک مجموعه واژه‌های ابهام‌زدایی‌شده برای آموزش در دسترس است. این مجموعه، نمونه کلماتی است که هر کدام یک کلمه مبهم W می‌باشند و هر معنی آنها با یک برچسب معنایی متناسب با متنی که در آن قرار می گیرند تعریف شده‌اند (SK).

این کار باعث می شود که بتوان یک طبقه‌بندی آماری باناظر روی کلمات انجام داد. وظیفه‌ی اصلی این روش، ایجاد یک روال طبقه‌بندی‌کننده است که کلمات جدید را بر اساس متن‌هایی که قبلاً تعریف شده‌اند (CI) در طبقه‌ی مناسب خود قرار می‌دهد. رفع ابهام باناظر روش‌های مختلفی وجود دارد که از جمله‌ی آنها می‌توان از طبقه‌بندی بیس را نام برد و نیز نظریه اطلاعات که رفع ابهام بر مبنای آن نظریه صورت می‌گیرد.

ب-۱-۱) روش مبتنی بر نمونه[۱]

برای انجام رفع ابهام با استفاده از رویکرد مبتنی بر مثال به‌طور کلی مراحل زیر انجام می‌پذیرد:

۱ – برای هر کلمه‌ی مبهم به تعداد معانی آن، رده وجود دارد. تعدادی متون حاوی کلمه مبهم را که معنی درست آن کلمه در آن متن برچسب خورده باشد انتخاب می‌شود. در واقع برای هر کدام از معانی کلمه مبهم تعدادی از متون به عنوان نمونۀ دادۀ آموزشی آن رده ذخیره می‌شود.

۲ – استخراج ویژگی از متون نمونه و تبدیل هر متن نمونه به بردار ویژگی متناظر با آن متن. انتخاب مناسب این ویژگی‌ها بسیار مهم است و در کارایی این روش تأثیر بسزایی دارد. به همین جهت، انتخاب بهینه از ویژگی‌ها و خصوصیاتی که باید داشته باشند یکی از کارهای اساسی این روش است.

۳ – انتخاب معیار شباهت برای اندازه‌گیری شباهت بین نمونۀ آزمون و نمونه‌های آموزشی.

۴ – استفاده از الگوریتم Knn جهت طبقه‌بندی دادۀ آزمون جدید در یکی از رده‌های داده‌شده و در نهایت دستیابی به معنای صحیح کلمه‌ی مبهم

۵ – ارزیابی کارایی این روش و بیان نتایج حاصل از روش. برای ارزیابی عملکرد این روش همانند بسیاری از

روش‌های به‌کار گرفته‌شده در یادگیری ماشینی و داده‌کاوی از روش اعتبارسنجی متقابل kتایی استفاده

می‌شود. مثلاً k را در اینجا ۱۰ در نظر می‌گیریم که برای هر کلمه‌ی مبهم، تمام نمونه‌های مربوطه به ۱۰ قسمت مساوی تقسیم شده که ۹ قسمت برای آموزش و یک قسمت باقی‌مانده برای دادۀ آزمون مورد استفاده قرار می‌گیرد و با استفاده از معیارهای دقت و فراخوانی ارزیابی را انجام می‌شود.

در روش یادگیری مبتنی بر نمونه (IBL) مثال‌ها را ذخیره می‌کنیم و هر گونه تعمیم تا مشاهده‌ی مثال جدید به تعویق می‌افتد. به همین دلیل این روش گاهی روش تنبل یا LAZY نامیده می‌شود. یادگیرنده‌های مبتنی بر نمونه یک نمونه را با مقایسۀ آن با پایگاه دادۀ نمونه‌های از پیش طبقه‌بندی شده، طبقه‌بندی می‌کند. فرض اساسی آن این است که نمونه‌های مشابه، طبقه‌بندی مشابه خواهند داشت. [۱]

الگوریتم‌های IBL از دسته‌بندی‌کنندۀ الگوی (NN)[2] گرفته شده‌اند که در عین حال به ذخیره و استفاده از نمونه‌های منتخب برای پیش‌بینی دسته‌بندی می‌پردازد. روش یادگیری مبتنی بر نمونه دارای سه مشخصه‌ی اصلی است:

۱- انتخاب نمونه‌ها برای ذخیره: در این الگوریتم سعی می‌شود نمونه‌هایی ذخیره شوند که عمومی‌تر باشند. تشخیص این‌که آیا یک نمونه عمومیت دارد یا خیر، می‌تواند کار مشکلی باشد.

۲- تابع شباهت/فاصله: مشخص می‌کند که دو نمونه چقدر نزدیک به هم هستند. انتخاب این تابع می‌تواند بسیار مشکل باشد معیار شباهت یا فاصله میان دو نقطۀ داده، یک چالش و موضوع مهم در روش‌های داده‌کاوی و کشف دانشی که نیازمند محاسبه شباهت هستند، می‌باشد. میزان نزدیکی بر حسب یک معیار فاصله یا شباهت تعریف می‌گردد. موفقیت اغلب سامانه‌های یادگیری به یک تابع شباهت یا فاصله‌ی خوب بستگی دارد که آنها استفاده می‌کنند. مثلاً می‌توان از توابع فاصلۀ اقلیدوسی، منهتن، کانبرا، چبیشف استفاده کرد.

۳- تابع دسته‌بندی کننده: تابعی است که با مشاهده‌ی یک مثال، دسته‌بندی آن را تعیین می‌کند. برای این کار فاصله‌ی تا دیگر نمونه‌های آموزشی محاسبه می‌شود. K تا از نزدیک‌ترین همسایگان شناسایی می‌شود. از برچسب‌های ردۀ نزدیک‌ترین همسایگان برای تعیین برچسب ردۀ نمونه ناشناخته استفاده می‌کند (به‌عنوان مثال با گرفتن رأی اکثریت). مثلاً الگوریتم‌های دسته‌بندی‌کنندۀ مبتنی بر نمونه شامل الگوریتم‌های LWL7, ,KStar ,IBK IB1 می‌باشد [۲]. انتخاب مقدار K یکی از مراحل اصلی الگوریتم‌های IBL می‌باشد، اگر K خیلی کوچک باشد، نسبت به نوفه حساس خواهد بود و اگر K خیلی بزرگ باشد ممکن است یک همسایگی نقاطی از سایررده‌ها را نیز در برگیرد. مقادیر خوب برای K می‌تواند با اعتبارسنجی متقابل روی داده‌ی آموزشی پیدا شود [۳].

ب-۱-۲) روش مبتنی بر قواعد

ب-۱-۳) روش آماری

– محاسبه پارامترهای آماری بر اساس اطلاعات موجود در پیکره‌های متنی

›     – در اختیار داشتن متن‌هایی با مشخص بودن معنای درست کلمات مبهم

›    – ایده‌ی اصلی در این روش استفاده از تعداد زیادی کلمات مجاور کلمه‌ی مبهم

ب-۲) روش بی‌ناظر

در این روش بدون این که اطلاعاتی در زمینه‌ی معنای واژه‌های به کار رفته در متن موجود باشد، ‌ابتدا کلمات از نظر معنایی خوشه‌بندی و سپس بررسی می‌شود که هر کلمه‌ی جدید به کدام خوشه نزدیک‌تر است و به آن تعلق دارد و با توجه به این که به هر خوشه معنای خاصی اختصاص داده شده است، آن معنی برای آن لغت در نظر گرفته می‌شود و در ترجمه مورد استفاده قرار می‌گیرد. در روش باناظر، برای رفع ابهام به یک سری اطلاعات اولیه از معنای لغات نیاز بود، اما شرایطی، اگر چه نادر، پیش می‌آید که هیچ گونه اطلاعاتی از معنای کلمات در دسترس نیست؛ مثلاً در مورد اصطلاحات فنی و یا پزشکی که در فرهنگ‌های لغت عمومی پیدا نمی‌شود. در این حالات خاص است که روش رفع ابهام بی‌ناظر یا مربی مناسب است و در به دست آوردن معنای صحیح کلمه با توجه به متن کمک زیادی می‌نماید.

ج) روش‌های ترکیبی

نمونه‌ای از کارهای ترکیبی روشی است که دارای دو فاز است. در فاز اول با پیمایش سطوح مختلف روابط هم‌معنایی در وردنت، کلماتی استخراج شده و با توجه به ایده‌ی همپوشانی تعریف مفاهیم معنایی انتخاب می‌شود که بیشترین اشتراک را با کلمات موجود در متن داشته باشد. اما از آنجایی که با این روش همه‌ی نمونه‌ها برچسب نخورده و تعدادی از آنها ناشناخته باقی می‌مانند، فاز دومی نیز فراهم می‌شود.

به این ترتیب داده‌های برچسب‌خورده در فاز اول به عنوان داده‌های آموزشی و داده‌های برچسب‌نخورده به عنوان داده‌های تست در نظر گرفته شده و در فاز دوم مورد استفاده قرار می‌گیرند. این فاز به صورت نظارتی عمل کرده و به ازای هر یک از نمونه‌های موجود برداری از ویژگی‌ها استخراج می‌شود. این بردار شامل تعداد بارهای تکرار ۵ کلمه‌ی قبل و ۵ کلمه‌ی بعد از کلمه‌ی مبهم  و کلمات کلیدی است. جهت تعیین کلمات کلیدی در این الگوریتم از مفهوم تعداد بارهای تکرار کلمات  استفاده شده و فرکانس کلمات موجود در پیکره در نظر گرفته شده است. به این ترتیب که لیستی از فرکانس کلمات موجود در پیکره‌ فراهم کرده و نسبت فرکانس کلمات موجود در پیکره‌ی مورد نظر به فرکانس آنها در فهرست به‌دست‌آمده سنجیده می‌شود. در انتها نیز الگوریتم Naïve Bayes جهت طبقه‌بندی نمونه‌ها اعمال می‌شود. این الگوریتم بر روی پیکره‌ی TWA ارزیابی شده و دقت ۷۸.۲ درصد را به دست آورده است.

نمونه‌ی دیگر جهت رفع ابهام معنایی از ترکیبی از روش­های آماری و مبتنی بر مثال استفاده شده است. سیستم پیشنهادی دارای دو قسمت است. در قسمت اول با استفاده از یک پیکره‌ی موازی که در آن بین کلمات زبان مبدأ و زبان مقصد تطابق[۳] انجام شده است و با استفاده از الگوریتم FastARM، یک سری قوانین تجمعی[۴] استخراج می­شود. در این قوانین در هر سمت از قانون یک جفت کلمه و معنای آن را خواهیم داشت. سپس به هر قانون به صورت AàB بر اساس مقدار support و confidence در نظر گرفته شده با استفاده از رابطه‌ی زیر وزن داده می­شود:

(۳-۵)       W(A–>B) = Confidence (A→B) * Support(A→B)

به این ترتیب قوانین استخراج‌شده در سیستم به عنوان مبنای دانش[۵] در نظر گرفته می­شوند. در قسمت دوم این سیستم، به ازای هر جمله، فرآیند را با یک کلمه‌ی غیرمبهم و یا دارای ابهام کمتر آغاز کرده و آن را به همراه معنی‌اش در حافظه‌ی کاری[۶] قرار می­دهیم. سپس این جفت کلمه و معنی را با سمت چپ قوانین موجود مقایسه کرده و با هر کدام که یکسان بود، سمت راستش وارد حافظه می­شود. به این ترتیب قوانین را به صورت زنجیروار[۷] ادامه داده تا معنای همه‌ی کلمات مشخص شود. سپس به معناهای به‌دست‌آمده با ضرب کردن وزن قوانین استفاده شده، یک ارزش نسبت داده می­شود. در نهایت معنایی انتخاب می­شود که دارای بیشترین ارزش است. به این ترتیب با دنبال کردن زنجیره­ی قوانین، معانی کلمات را یکی­‌یکی مشخص کرده و کار را ادامه داده تا جایی که معنای همه کلمات مشخص شود.

منابع:

[۱] David W.Aha, Dennis Kibler, Marc K.Albert (1991). “Instance-Based Learning Algorithms.” Machine Learning, vol.6. pp. 37-66.

[2] Kambe, M, و J Han (2001). Data Mining: Concepts and Techniques. San Diego Academic Press.

[3] Seishi Okamoto, Nobuhiro Yugami (2003). “Effects of domain characteristics on IBL algorithms.” Theoretical Computer Science. pp.207-233.

[4] Lesk, M. (1986). “Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone.” In Proceedings of AGM SIGDOC Conference. pp. 24–۲۶.

[۵] Yarowsky, D. (1992).”Word sense disambiguation using statistical models of Roget’s categories trained on large corpora” , in procceding of coling.

[1] . Instance Base Learning

[2] . Neighbor Nearest

[3]. Alignment

[4]. Association Rules

[5]. Knowledge Base

[6]. Working Memory

[7]. Forward Chaining

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *