الگوریتم هم‌ردیف‌سازی نمونه‌های آوایی با نسخه‌های واجی کلمات در گفتار محاوره‌ای زبان فارسی بر اساس الگوریتم پایه لونشتاین

باید در نظر گرفته شود که می‌خواهیم نمونه‌ای که آوانویسی شده است با نمونه‌ی واج‌نویسی شده‌ی آن هم‌ردیف کنیم. در الگوریتم پایه‌ی طبق الگوریتم لون‌اشتاین می‌بایست سه عمل، حذف[۱]، درج[۲] و جایگزینی[۳] در نظر گرفته ‌شود که با توجه به این نمونه با اعمال این سه عمل و محاسبه‌ی هزینه‌هایی که این سه عمل دارند بتواند تشخیص دهد نمونه کمترین فاصله را با چه واژه‌ای دارد. معمولاً در الگوریتم پایه‌ی لون‌اشتاین نمونه و واژه‌هایی که قرار است فاصله‌ی نمونه با آنها سنجیده شود از یک نوع هستند و مثلاً هر دو به زبان معیار و نوشتاری تعلق دارند. اما در این فرض باید نمونه‌ی آوانویسی‌شده با نمونه‌ی واج‌نویسی‌شده هم‌ردیف‌سازی شود برای این کار باید ماتریس cost آواها به واج‌ها ساخته شود مثلاً در این ماتریس باید در نظر داشته باشیم که آواهای n, ɱ, ɳ, ŋ, ɴ و حتی در مواردی m با واج n باید هم‌ردیف شوند، چرا که واج n در بافت‌های مختلف آوایی هر کدام از آواهای n, ɱ, ɳ, ŋ, ɴ و m می‌تواند باشد.

مثلاً می‌خواهیم بدانیم واژه‌ی آوانویسی‌شده‌ی [eŋkʰɒr] با کدام یک از واژه‌های واج‌نویسی‌شده‌ی /enkār/ یا /inkehār/ یا /enkehāl/ کمترین فاصله‌ی ویرایشی را دارد و می‌تواند با آن هم‌ردیف‌سازی شود؟

e        ŋ         k         *          ʰ         ɒ         r

e              n             k              *              *              ā              r              یک حذف و دو جایگزینی

i               n             k              e              h             ā              r              یک درج و چهار جایگزینی

e              n             k              e              h             ā              l               یک درج و چهار جایگزینی

 برای محاسبه‌ی فاصله‌ی ویرایشی این واژه‌های واج‌نویسی‌شده با [eŋkʰɒr] باید بدانیم cost جایگزینی هر کدام از این آواها به واج‌های دیگر چقدر است هم‌چنین بنا بر قرارداد هزینه‌ی حذف و درج را برابر با ۱ در نظر می‌گیریم. بنابراین باید یک ماتریس cost برای آواها به واج‌ها با توجه به داده‌های آماری به‌دست‌آمده از پیکره‌ای آوایی ساخته شود که مثلاً مشخص شده باشد هزینه‌ی تبدیل هر کدام از آواهای n, ɱ, ɳ, ŋ, ɴ و m به n چقدر است و دیگر این‌که هزینه‌ی آواهای دیگر به n. البته برای ساخت این ماتریس باید داده‌های زیادی از پیش تحلیل شده باشند از آن‌جایی که فرصت این نوشته، مجال این کار نیست و باید در نظر داشت که حدود ۳۰ واج داریم و بیش از ۶۰ واج‌گونه (آواهایی که واج‌ها در بافت‌های مختلف دارند) بنابراین این ماتریس تقریباً ۳۰×۶۰ می‌شود و مجال این کار نیست پس به ارائه‌ی نمونه‌ای از این ماتریس در این نوشته بسنده می‌کنیم.

جدول شماره یک: بخشی از ماتریس cost آوا به واج

آواها

واج‌ها

a æ ɑ ɒ n ɳ ŋ ɴ ….
a 0 0 2 2 10 14 12 17
ā ۲ ۲ ۰ ۰ ۱۰ ۱۳ ۱۱ ۱۵
n 52 52 48 49 0 1 1 1

 

مثلاً برای محاسبه‌ی فاصله‌ی ویرایشی [eŋkʰɒr] با واج‌نویسی /enkār/ جدول شماره ۲ را باید براساس فرمول زیر محاسبه کنیم.

 

با توجه به این‌که آخرین خانه‌ی سمت راست بالا (خانه‌ی خاکستری پررنگ) عدد ۱ را نشان می‌دهد یعنی فاصله‌ی ویرایشی [eŋkʰɒr] با واج‌نویسی /enkār/ برابر با ۱ است و با توجه به فاصله‌های /inkehār/ و /enkehāl/ با [eŋkʰɒr] که بیشتر از ۱ است نتیجه می‌گیریم که /enkār/ کمترین فاصله‌ی ویرایشی را با [eŋkʰɒr] دارد و بنابراین این دو هم‌ردیف با هم هستند. دیگر خانه‌های خاکستری کم‌رنگ نشان‌دهنده‌ی فاصله‌ی ویرایشی این دو در مراحل مختلف افزودن واج‌ها هستند مثلاً فاصله‌ی ویرایشی [eŋk] با /enk/ با توجه به خانه‌های خاکستری کم‌رنگ صفر است.

 

 

 

[1] . Deletion

[2] . Insertion

[3] . Substitution

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *