گزارش برگزاری پنجمین همایش ملی زبان‌شناسی رایانشی

تاریخ انتشار: 1398/09/11

پنجمین همایش ملی زبان‌شناسی رایانشی از سوی انجمن زبان‌شناسی ایران، پنج‌شنبه ۳۰ آبان 1398 با حضور پژوهشگرانی در حوزه‌های زبان و رایانه، در پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد. دبیر علمی همایش، دکتر مسعود قیومی، عضو پژوهشکدۀ زبان‌شناسی پژوهشگاه علوم انسانی و دبیر اجرایی، بیتا قوچانی دانشجوی دکتری زبان‌شناسی این پژوهشگاه بودند. در این همایش که در ۴ نشست صبح و عصر برگزار شد، پژوهشگرانی از پژوهشگاه ارتباطات و فناوری اطلاعات(ایران‌داک)، دانشکده علوم و فنون نوین و دانشکدۀ ادبیات و علوم انسانی دانشگاه تهران، پژوهشگاه علوم انسانی و مطالعات فرهنگی، دانشگاه آزاد واحد تهران شمال و قم، دانشگاه گیلان، دانشگاه صنعتی شریف و دانشگاه الزهرا، به ارائه مقاله پرداختند.

در مراسم افتتاحیه، دکتر شهین نعمت‌زاده رئیس انجمن زبان‌شناسی ایران گفت: خوشحالیم که پنجمین همایش زبان‌شناسی رایانشی را به همت انجمن زبان‌شناسی ایران و همراهی پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار می‌کنیم. ایشان سپس خاطره‌ای از 15 سال پیش بیان کرد که نشان می‌داد در آن زمان نیز، زبان‌شناسی رایانشی و مسائل خط و زبان فارسی در رایانه در سطح کلان، مورد توجه مسئولان بوده است. سپس به پیشرفت حوزۀ زبان‌شناسی رایانشی از سطح طراحی صفحۀ کلید برای زبان‌ها تا تحلیل احساس اشاره کرد و در پایان، امکان تهیۀ مجموعه‌مقالات در روز برگزاری هر همایش انجمن را موهبتی دانست که به همت نشر نویسۀ پارسی و مدیر آن آقای امیر احمدی ممکن شده است.

سپس دکتر مسعود قیومی، دبیر علمی همایش با بیان این که بدون همت پژوهشگران این همایش برگزار نمی‌شد، گزارشی از مقالات رسیده به دبیرخانه همایش ارائه کرد. اولین فراخوان این همایش اول آذر 1397 بود که یک‌بار نیز تمدید شد. 20 مقاله به دبیرخانۀ همایش رسید که از آن میان 10 مقاله با موضوع‌های آواشناسی و صوت‌شناختی، صرف، معنی‌شناسی قالبی، مدل‌سازی خط و زبان فارسی، تحلیل احساس و دسته‌بندی و پردازش متن برای ارائه و چاپ برگزیده شد. دبیر همایش افزود همایش چهارم زبان‌شناسی رایانشی بر حوزۀ نحو و تا حدودی معنا متمرکز بود اما این همایش حوزۀ گسترده‌تری را پوشش می‌دهد. دکتر قیومی در پایان از پژوهشگران سپاسگزاری کرد که دانش خود را در این همایش به اشتراک گذاشتند.

پس از افتتاحیه و خیرمقدم، نشست نخست با 2 سخنرانی به ریاست دکتر علی رضا‌قلی‌فامیان تشکیل شد. سخنران نخست این نشست، دبیر علمی همایش بود. دکتر مسعود قیومی در مورد گذار از بن‌واژه‌سازی قاعده‌مند به آماری در فارسی سخن گفت. عضو هیات علمی پژوهشگاه علوم انسانی و مطالعات فرهنگی، در آغاز گفت در بن‌واژه‌سازی برعکس ریشه‌یابی، مقولۀ دستوریِ صورت ‌واژه در بافت زبانی، نقش کلیدی دارد و یکی از راه‌کارهای مشکل تُنُک بودن واژه‌ها، تهیۀ بن‌واژه‌ها و خوشۀ معنایی واژه است. در این پژوهش، الگوریتم قاعده‌مندی برای بن‌واژه‌سازی پیکرۀ بی‌جن‌خان که دارای برچسب مقولات دستوری است ارائه شده است. سپس با ویرایش جزئی، از این داده به‌عنوان دادۀ آموزش برای بن‌واژه‌ساز آماری مورفت و لمینگ استفاده شده و در پایان مقایسۀ عملکرد این دو شیوۀ با دادۀ آزمون دستی‌برچسب‌گذاری‌شده، تفاوت معنادار روش آماری «یادگیری ماشینی با نظارت» را نشان داد. در بخش پرسش و پاسخ نیز عنوان شد که در آنتولوژی با توجه به اهمیت محتوا، روش بن‌واژه‌سازی به نسبت ریشه‌یابی، کارآمد است. دومین سخنرانی با عنوان ارزیابی یادگیری ساختواژی زبان فارسی با استفاده از یک الگوریتم تخمین بِیزی، کار مشترکی بود از الهام سادات سِبط کارشناسی ارشد زبان‌شناسی دانشگاه تهران و مصطفی صالحی استادیار دانشکده علوم و فنون نوین دانشگاه تهران و دکتر مزدک انوشه عضو هیات علمی گروه زبان‌شناسی دانشگاه تهران. در رویکردهای یادگیری ماشین مبتنی‌بر الگوریتم‌های داده‌محور، الگوریتم با استفاده از واژگانی که برای آموزش در اختیار دارد ساخت‌واژۀ زبان را می‌آموزد و تک‌واژها را در واژ‌ه‌های جدید شناسایی می‌کند. این پژوهش بنا بر گفتۀ سخنران برای نخستین بار به ارزیابی یادگیری ساختواژی بی‌نظارت و نیمه‌نظارتی زبان فارسی با استفاده از تخمین بِیزی پرداخته است و ضمن آن، دادۀ استاندارد ساختواژی با ویژگی حذف نیم‌فاصله‌های نادرست و معرفی الگوی نیم‌فاصله به الگوریتم تقطیع، برای ارزیابی مدل‌ها و آموزش نیمه‌نظارتی برای زبان فارسی طراحی و تهیه شد که نتایج را در هر سه معیار صحت، فراخوانی و معیارF به‌طور قابل ملاحظه‌ای بهبود می‌دهد. به گفتۀ سخنران، نیم‌فاصله، نویسۀ‌ای غیرزبانی است که به عنوان نشانه‌ای زبانی به کار می‌رود.

پس از استراحت و پذیرایی، نشست دوم به ریاست دکتر محمود بی‌جن‌خان، با 3 سخنرانی در حوزه‌های متن‌کاوی، فارسی غیر رسمی و تحلیل احساس برگزار شد. نخست، مقاله‌ای با عنوان شناسایی و پوشش واحد‌های خارج از واژگان در فارسی غیررسمی توسط خانم روشن، هم‌کلاسی نویسندۀ نخست مقاله ارائه شد که نویسندگان آن داوود حیدرپور دانش‌آموختۀ زبان‌شناسی رایانشی از دانشکدۀ علوم و فنون نوین دانشگاه تهران و دکتر مصطفی صالحی و دکتر هادی ویسی استادیاران دانشکده علوم و فنون نوین دانشگاه تهران و دکتر وحید رنجبر دکتری فناوری اطلاعات از این دانشکده به همراه دکتر محمود بی‌جن‌خان استاد گروه زبان‌شناسی دانشکده ادبیات و علوم انسانی دانشگاه تهران بودند. پژوهشگران این مقاله با جمع‌آوری دادگانی از 19 زیرسیاق فارسی غیررسمی به روش پیکرۀ نمونه‌گیری حدود 50هزارقطعه‌ای، و بررسی تغییرات آوایی و خطاهای نگارشی رایج در آنها و استفاده از مبدل‌های «هم‌صدا»، «آوایی»، «تقطیع» و «بیانی» (حذف‌کنندۀ تکرار حروف)، قواعدی استخراج کرده‌اند که با به‌کارگیری آنها شناسائی این کلمات برای ابزارهای تحلیل‌گر بهبود یافته است. برای یک ابزار تحلیل‌‌گر تصریفی، این افزایش پوشش، افزایش فراخوانی به میزان 1.25% را سبب شده است. در دومین سخنرانی با عنوان معرفی سرویس‌های متن‌کاوی فارسی‌یار در دسته‌بندی متون فارسی غیررسمی، که حاصل پژوهشمهدی رهبر از دانشکدۀ مهندسی برق و کامپیوتر دانشگاه آزاد اسلامی واحد تهران شمال و جلال الدّین نصیری از آزمایشگاه متن‌کاوی و یادگیری ماشین پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) بود، با معرفی ابزار مهم تحلیل زبان‌های فارسی و غیرفارسی، عنوان شد که فارسی‌یار یک سرویس واسط برنامه‌نویسی کاربردی (API) رایگان است که متن‌باز نیست و امکاناتی شامل استانداردسازی متنِ ورودی، جداسازیِ توکن‌هایِ متن، تبدیل زبان محاوره به رسمی، شناسایی موجودیت‌های نامدار و ریشه‌یابی متن دارد. در پایان عنوان شد که دسته‌بندی داده‌های غیررسمی (یک میلیون نمونه و 17 ویژگی) سایت دیوار به کمک سرویس‌های پیش‌پردازش فارسی‌یار، نتایج بهتری نسبت به سرویس‌های مشابه (هضم) دارد. نویسندگان مقالۀ پایانی این نشست با عنوان ارائه یک سیستم تحلیل احساس در زبان فارسی با استفاده از مدل‌های یادگیری عمیق، جواد پورمصطفی روشن شارمی و پارسا عباسی سرابستانی دانشجویان کارشناسی ارشد و کارشناسی گروه پردازش زبان طبیعی دانشکدۀ فنی دانشگاه گیلان به همراه سید ابوالقاسم میرروشندل، دانشیار و عضو هیئت علمی گروه مهندسی کامپیوتر این دانشکده بودند. به گفتۀ سخنران، هدف تحلیل احساس، تعیین قطبیت متن‌هاست و دقت روش یادگیری عمیق و شبکه‌های عصبی به حجم بالای داده‌ها و پیکره‌های برچسب‌خوده وابسته است که با روش افزایش طبیعی و مصنوعی داده می‌توان به آن دست یافت. در این پژوهش، از «بِیز» ساده و «گرادیان کاهشی تصادفی» و «ماشین بردار پشتیبانی» به عنوان الگوریتم‌های یادگیری ماشین و حافظه طولانی کوتاه‌مدت دوطرفه و «شبکۀ عصبی پیچشی» به عنوان مدل‌های یادگیری عمیق استفاده شده است.

پس از زمان ناهار و نماز، نشست سوم به ریاست دکتر ملوک‌السادات بهشتی عضو پژوهشگاه ارتباطات و فناوری اطلاعات (ایران‌داک) با دو سخنرانی برگزار شد. نخست لیلا رحمتی‌نژاد از دانشگاه آزاد واحد قم مقاله‌ای با عنوان مقایسۀ قالب‌های معنایی فعل «گفتن» در دو زبان فارسی و انگلیسی بر مبنای نظریۀ شناختی فیلمور ارائه کرد. در این پژوهش که گزیده‌ای از رسالۀ دکتری سخنران با راهنمایی دکتر مصطفی عاصی استاد تمام پژوهشکاه علوم انسانی و مطالعات فرهنگی بود، هدف آماده کردن داده برای فاز دوم پایگاه «فریم‌نت» فارسی است. در پایگاه فریم‌نت هر «قالب معنایی» دارای پنج بخش «عنوان»، «تعریف»، «عناصر اصلی و فرعی»، «واحدهای واژگانی» و «متون نشانه‌گذاری‌شده» است. پژوهشگر با استفاده از پیکره‌‌های پایگاه فریم‌نت، پایگاه داده‌های زبان فارسی، فارس‌نت، سایت مرجع دادگان و منابع کتابخانه‌ای، به یک قالب اصلی «بر زبان آوردن و بیان کردن» و 43 قالب فرعی برای فعل «گرفتن» در فارسی دست یافت درحالی‌که در زبان انگلیسی دو قالب اصلی "say" و "telling" و 16 قالب فرعی برای بیان مفهوم «گفتن» وجود دارد. در ادامه، محمد ایزدی مقاله‌ای با عنوان تشخیص شباهت موضوعی جفت‌متن به کمک شبکۀ پیچشی ارائه کرد که حاصل همکاری با حسین کشاورز و شهره طباطبایی سیفی، هم‌دانشگاهی‌هایش از دانشکدۀ مهندسی دانشگاه صنعتی شریف بود. به گفتۀ سخنران، ورودی این سامانه، دو جمله است و خروجی آن، عددی است که میزان شباهت آنها به هم را نشان می‌دهد و یکی از کاربردهای آن، در شرایطی است که قرار است سامانه‌ای خودکار، خبرهایی مربوط به موضوعی خاص را در منبعی بیابد. داده‌های این پژوهش از ستون «عنوان» و «توضیحات» بخش آگهی‌های معرفی محصول در سایت «دیوار» به دست آمده است و از پیکرۀ متنی بی‌جن‌خان(گفتاری و نوشتاری) برای تولید بردارهای جایگذاری استفاده شده است. با ابزار «هضم» نرمال‌سازی صورت گرفته و ابزار word2vec (نگاشت هر واژه به یک بردار) بر روی پیکره‌ای که حاصل ترکیب پیکرۀ بی‌جن‌خان و پیکرۀ متنی است اعمال شده است. نتیجۀ یادگیری با شبکۀ عصبی پیچشی به دلیل حجم بالای داده‌ها، رسیدن به دقت حدود 98 درصد بوده است. در پایان نیز سخنران پیشنهاد کرد که می‌توان از الگوریتم شبکه‌های «مبتنی بر توجه» در پژوهش‌های این حوزه بهره برد.

نشست پایانی با سخنرانی‌هایی در حوزۀ آوا و واج و پژوهشگرانی از دانشگاه الزهرا، به ریاست دکتر مسعود قیومی برگزار شد. نخست مقاله‌ای با موضوع بررسی صوت‌شناختی جایگاه تولید هم‌خوان‌های انسدادی بدنه‌ای در زبان فارسی معیار ارائه شد که حاصل پژوهش فریبا اشرفزاده افشار دانش‌آموختۀ زبان‌شناسی و مریم شِکری دانشجوی دکتری زبان‌شناسی از دانشگاه الزهرا و ماندانا نوربخش عضو هیات علمی گروه زبان‌شناسی این دانشگاه بود. در اين مقاله برای تعیین جایگاه تولید همخوانهای انسدادی بدنهای(کامی و نرم‌کامی)، در زبان فارسی معیار ، از پارامترهای الگوی طیفی انفجار رهش، گذر سازه‌ای واکۀ مجاور و طولِ بست استفاده شده است. پژوهشگران مقاله پس از بررسی صوت‌شناختی 1080 نمونۀ آوایی از هر چهار واجگونة انسدای بدنهای واکدار و بی‌واک از 10 سخنگوی زن فارسیزبان، در هجاها و جایگاه‌های vc,cv,v.cv و تحلیل آماری آنها، نشان دادند صورت زیرساختی (واج) این همخوانها، جایگاه تولید کامی با نمادهای آوانگاری /c,Ɉ/ است و در بافت واکههای پسین جایگاه تولید آنها نرم‌کامی نیست بلکه مقداری پیشینتر در جایگاه پسکامی است و پیشنهاد می‌شود در این جایگاه‌ها، از نشانههای آوانگاری [c̲ , Ɉ̲] برای آنها استفاده شود. در پایان این همایش، اسما کریمی مقدم آرانی، دانشجوی دکتری زبان‌شناسی دانشگاه الزهرای تهران در مورد استخراج و استفاده از ویژگی‌های آکوستیکی موج صدا برای شناسایی واجهای زبان فارسی سخنرانی کرد. در این پژوهش که با هدف به دست آوردن «بُرد فرکانسی آواهای زبان فارسی» انجام شده است، با ضبط تظاهر آوایی 28 واج زبان فارسی از 52 سخنگوی فارسی معیار (26 زن و 26 مرد) در محیط آکوستیکی بهصورت استریو در محیط نرمافزار پرت، پایگاه داده‌‌ای با 260 تکرار از هر آوای منفرد با 6دسته شیوۀ تولید به دست آمد. پس از نرمال‌سازی دادهها با پنجرۀ همینگ و به کارگیری مدل لگاریتمی فوریه و صافیها با پهنای باریک، کلیدهای آکوستیکی از موج صوتی آواها در بخش زبانیِ پژوهش استخراج و کمّی شد و ماشین با الگوریتم هارمونی سرچ (HDHSA) برای بازشناسی واج فارسی آموزش داده شد. نرخ بازشناسی تظاهر آکوستیکی واج‌های فارسی در دستۀ سایشی 99.51 درصد ودر دیگر دسته‌ها 100% گزارش شده است. در بخش پرسش و پاسخ، رئیس نشست پیشنهاد کرد که پژوهشی مقایسه‌ای بر روی روش پیشنهادی این مقاله و روش‌های پیشین انجام شود.

در پایان، دبیر علمی همایش، حوزۀ زبان‌شناسی رایانشی را حوزه‌ای پویا دانست و با اشاره به پیشرفت و تغییر سریع روش‌های پردازش رایانه‌ای زبان، از پژوهشگران خواست ایده‌های خود را به صورت پژوهش مستند کنند. عضو هیات علمی گروه زبان‌شناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی پرداختن به هر سه جنبۀ نظری، عملی و کاربردی در پردازش زبان را ضروری برشمرد. دکتر قیومی با اشاره به برگزاری همایش ملی زبان‌شناسی رایانشی به صورت دوسالانه، سال آینده را فرصت خوبی برای انجام پژوهش‌ برای ارائه در همایش آینده در قرن جدید دانست.

روابط عمومی انجمن زبان‌شناسی ایران

ارسال مقاله برای مجله

گزارش برگزاری پنجمین همایش ملی زبان‌شناسی رایانشی

تاریخ انتشار: 1398/09/11