گزارش برگزاری پنجمین همایش ملی زبانشناسی رایانشی
تاریخ انتشار: 1398/09/11
پنجمین همایش ملی زبانشناسی رایانشی از سوی انجمن زبانشناسی ایران، پنجشنبه ۳۰ آبان 1398 با حضور پژوهشگرانی در حوزههای زبان و رایانه، در پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد. دبیر علمی همایش، دکتر مسعود قیومی، عضو پژوهشکدۀ زبانشناسی پژوهشگاه علوم انسانی و دبیر اجرایی، بیتا قوچانی دانشجوی دکتری زبانشناسی این پژوهشگاه بودند. در این همایش که در ۴ نشست صبح و عصر برگزار شد، پژوهشگرانی از پژوهشگاه ارتباطات و فناوری اطلاعات(ایرانداک)، دانشکده علوم و فنون نوین و دانشکدۀ ادبیات و علوم انسانی دانشگاه تهران، پژوهشگاه علوم انسانی و مطالعات فرهنگی، دانشگاه آزاد واحد تهران شمال و قم، دانشگاه گیلان، دانشگاه صنعتی شریف و دانشگاه الزهرا، به ارائه مقاله پرداختند.
در مراسم افتتاحیه، دکتر شهین نعمتزاده رئیس انجمن زبانشناسی ایران گفت: خوشحالیم که پنجمین همایش زبانشناسی رایانشی را به همت انجمن زبانشناسی ایران و همراهی پژوهشگاه علوم انسانی و مطالعات فرهنگی برگزار میکنیم. ایشان سپس خاطرهای از 15 سال پیش بیان کرد که نشان میداد در آن زمان نیز، زبانشناسی رایانشی و مسائل خط و زبان فارسی در رایانه در سطح کلان، مورد توجه مسئولان بوده است. سپس به پیشرفت حوزۀ زبانشناسی رایانشی از سطح طراحی صفحۀ کلید برای زبانها تا تحلیل احساس اشاره کرد و در پایان، امکان تهیۀ مجموعهمقالات در روز برگزاری هر همایش انجمن را موهبتی دانست که به همت نشر نویسۀ پارسی و مدیر آن آقای امیر احمدی ممکن شده است.
سپس دکتر مسعود قیومی، دبیر علمی همایش با بیان این که بدون همت پژوهشگران این همایش برگزار نمیشد، گزارشی از مقالات رسیده به دبیرخانه همایش ارائه کرد. اولین فراخوان این همایش اول آذر 1397 بود که یکبار نیز تمدید شد. 20 مقاله به دبیرخانۀ همایش رسید که از آن میان 10 مقاله با موضوعهای آواشناسی و صوتشناختی، صرف، معنیشناسی قالبی، مدلسازی خط و زبان فارسی، تحلیل احساس و دستهبندی و پردازش متن برای ارائه و چاپ برگزیده شد. دبیر همایش افزود همایش چهارم زبانشناسی رایانشی بر حوزۀ نحو و تا حدودی معنا متمرکز بود اما این همایش حوزۀ گستردهتری را پوشش میدهد. دکتر قیومی در پایان از پژوهشگران سپاسگزاری کرد که دانش خود را در این همایش به اشتراک گذاشتند.
پس از افتتاحیه و خیرمقدم، نشست نخست با 2 سخنرانی به ریاست دکتر علی رضاقلیفامیان تشکیل شد. سخنران نخست این نشست، دبیر علمی همایش بود. دکتر مسعود قیومی در مورد گذار از بنواژهسازی قاعدهمند به آماری در فارسی سخن گفت. عضو هیات علمی پژوهشگاه علوم انسانی و مطالعات فرهنگی، در آغاز گفت در بنواژهسازی برعکس ریشهیابی، مقولۀ دستوریِ صورت واژه در بافت زبانی، نقش کلیدی دارد و یکی از راهکارهای مشکل تُنُک بودن واژهها، تهیۀ بنواژهها و خوشۀ معنایی واژه است. در این پژوهش، الگوریتم قاعدهمندی برای بنواژهسازی پیکرۀ بیجنخان که دارای برچسب مقولات دستوری است ارائه شده است. سپس با ویرایش جزئی، از این داده بهعنوان دادۀ آموزش برای بنواژهساز آماری مورفت و لمینگ استفاده شده و در پایان مقایسۀ عملکرد این دو شیوۀ با دادۀ آزمون دستیبرچسبگذاریشده، تفاوت معنادار روش آماری «یادگیری ماشینی با نظارت» را نشان داد. در بخش پرسش و پاسخ نیز عنوان شد که در آنتولوژی با توجه به اهمیت محتوا، روش بنواژهسازی به نسبت ریشهیابی، کارآمد است. دومین سخنرانی با عنوان ارزیابی یادگیری ساختواژی زبان فارسی با استفاده از یک الگوریتم تخمین بِیزی، کار مشترکی بود از الهام سادات سِبط کارشناسی ارشد زبانشناسی دانشگاه تهران و مصطفی صالحی استادیار دانشکده علوم و فنون نوین دانشگاه تهران و دکتر مزدک انوشه عضو هیات علمی گروه زبانشناسی دانشگاه تهران. در رویکردهای یادگیری ماشین مبتنیبر الگوریتمهای دادهمحور، الگوریتم با استفاده از واژگانی که برای آموزش در اختیار دارد ساختواژۀ زبان را میآموزد و تکواژها را در واژههای جدید شناسایی میکند. این پژوهش بنا بر گفتۀ سخنران برای نخستین بار به ارزیابی یادگیری ساختواژی بینظارت و نیمهنظارتی زبان فارسی با استفاده از تخمین بِیزی پرداخته است و ضمن آن، دادۀ استاندارد ساختواژی با ویژگی حذف نیمفاصلههای نادرست و معرفی الگوی نیمفاصله به الگوریتم تقطیع، برای ارزیابی مدلها و آموزش نیمهنظارتی برای زبان فارسی طراحی و تهیه شد که نتایج را در هر سه معیار صحت، فراخوانی و معیارF بهطور قابل ملاحظهای بهبود میدهد. به گفتۀ سخنران، نیمفاصله، نویسۀای غیرزبانی است که به عنوان نشانهای زبانی به کار میرود.
پس از استراحت و پذیرایی، نشست دوم به ریاست دکتر محمود بیجنخان، با 3 سخنرانی در حوزههای متنکاوی، فارسی غیر رسمی و تحلیل احساس برگزار شد. نخست، مقالهای با عنوان شناسایی و پوشش واحدهای خارج از واژگان در فارسی غیررسمی توسط خانم روشن، همکلاسی نویسندۀ نخست مقاله ارائه شد که نویسندگان آن داوود حیدرپور دانشآموختۀ زبانشناسی رایانشی از دانشکدۀ علوم و فنون نوین دانشگاه تهران و دکتر مصطفی صالحی و دکتر هادی ویسی استادیاران دانشکده علوم و فنون نوین دانشگاه تهران و دکتر وحید رنجبر دکتری فناوری اطلاعات از این دانشکده به همراه دکتر محمود بیجنخان استاد گروه زبانشناسی دانشکده ادبیات و علوم انسانی دانشگاه تهران بودند. پژوهشگران این مقاله با جمعآوری دادگانی از 19 زیرسیاق فارسی غیررسمی به روش پیکرۀ نمونهگیری حدود 50هزارقطعهای، و بررسی تغییرات آوایی و خطاهای نگارشی رایج در آنها و استفاده از مبدلهای «همصدا»، «آوایی»، «تقطیع» و «بیانی» (حذفکنندۀ تکرار حروف)، قواعدی استخراج کردهاند که با بهکارگیری آنها شناسائی این کلمات برای ابزارهای تحلیلگر بهبود یافته است. برای یک ابزار تحلیلگر تصریفی، این افزایش پوشش، افزایش فراخوانی به میزان 1.25% را سبب شده است. در دومین سخنرانی با عنوان معرفی سرویسهای متنکاوی فارسییار در دستهبندی متون فارسی غیررسمی، که حاصل پژوهشمهدی رهبر از دانشکدۀ مهندسی برق و کامپیوتر دانشگاه آزاد اسلامی واحد تهران شمال و جلال الدّین نصیری از آزمایشگاه متنکاوی و یادگیری ماشین پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) بود، با معرفی ابزار مهم تحلیل زبانهای فارسی و غیرفارسی، عنوان شد که فارسییار یک سرویس واسط برنامهنویسی کاربردی (API) رایگان است که متنباز نیست و امکاناتی شامل استانداردسازی متنِ ورودی، جداسازیِ توکنهایِ متن، تبدیل زبان محاوره به رسمی، شناسایی موجودیتهای نامدار و ریشهیابی متن دارد. در پایان عنوان شد که دستهبندی دادههای غیررسمی (یک میلیون نمونه و 17 ویژگی) سایت دیوار به کمک سرویسهای پیشپردازش فارسییار، نتایج بهتری نسبت به سرویسهای مشابه (هضم) دارد. نویسندگان مقالۀ پایانی این نشست با عنوان ارائه یک سیستم تحلیل احساس در زبان فارسی با استفاده از مدلهای یادگیری عمیق، جواد پورمصطفی روشن شارمی و پارسا عباسی سرابستانی دانشجویان کارشناسی ارشد و کارشناسی گروه پردازش زبان طبیعی دانشکدۀ فنی دانشگاه گیلان به همراه سید ابوالقاسم میرروشندل، دانشیار و عضو هیئت علمی گروه مهندسی کامپیوتر این دانشکده بودند. به گفتۀ سخنران، هدف تحلیل احساس، تعیین قطبیت متنهاست و دقت روش یادگیری عمیق و شبکههای عصبی به حجم بالای دادهها و پیکرههای برچسبخوده وابسته است که با روش افزایش طبیعی و مصنوعی داده میتوان به آن دست یافت. در این پژوهش، از «بِیز» ساده و «گرادیان کاهشی تصادفی» و «ماشین بردار پشتیبانی» به عنوان الگوریتمهای یادگیری ماشین و حافظه طولانی کوتاهمدت دوطرفه و «شبکۀ عصبی پیچشی» به عنوان مدلهای یادگیری عمیق استفاده شده است.
پس از زمان ناهار و نماز، نشست سوم به ریاست دکتر ملوکالسادات بهشتی عضو پژوهشگاه ارتباطات و فناوری اطلاعات (ایرانداک) با دو سخنرانی برگزار شد. نخست لیلا رحمتینژاد از دانشگاه آزاد واحد قم مقالهای با عنوان مقایسۀ قالبهای معنایی فعل «گفتن» در دو زبان فارسی و انگلیسی بر مبنای نظریۀ شناختی فیلمور ارائه کرد. در این پژوهش که گزیدهای از رسالۀ دکتری سخنران با راهنمایی دکتر مصطفی عاصی استاد تمام پژوهشکاه علوم انسانی و مطالعات فرهنگی بود، هدف آماده کردن داده برای فاز دوم پایگاه «فریمنت» فارسی است. در پایگاه فریمنت هر «قالب معنایی» دارای پنج بخش «عنوان»، «تعریف»، «عناصر اصلی و فرعی»، «واحدهای واژگانی» و «متون نشانهگذاریشده» است. پژوهشگر با استفاده از پیکرههای پایگاه فریمنت، پایگاه دادههای زبان فارسی، فارسنت، سایت مرجع دادگان و منابع کتابخانهای، به یک قالب اصلی «بر زبان آوردن و بیان کردن» و 43 قالب فرعی برای فعل «گرفتن» در فارسی دست یافت درحالیکه در زبان انگلیسی دو قالب اصلی "say" و "telling" و 16 قالب فرعی برای بیان مفهوم «گفتن» وجود دارد. در ادامه، محمد ایزدی مقالهای با عنوان تشخیص شباهت موضوعی جفتمتن به کمک شبکۀ پیچشی ارائه کرد که حاصل همکاری با حسین کشاورز و شهره طباطبایی سیفی، همدانشگاهیهایش از دانشکدۀ مهندسی دانشگاه صنعتی شریف بود. به گفتۀ سخنران، ورودی این سامانه، دو جمله است و خروجی آن، عددی است که میزان شباهت آنها به هم را نشان میدهد و یکی از کاربردهای آن، در شرایطی است که قرار است سامانهای خودکار، خبرهایی مربوط به موضوعی خاص را در منبعی بیابد. دادههای این پژوهش از ستون «عنوان» و «توضیحات» بخش آگهیهای معرفی محصول در سایت «دیوار» به دست آمده است و از پیکرۀ متنی بیجنخان(گفتاری و نوشتاری) برای تولید بردارهای جایگذاری استفاده شده است. با ابزار «هضم» نرمالسازی صورت گرفته و ابزار word2vec (نگاشت هر واژه به یک بردار) بر روی پیکرهای که حاصل ترکیب پیکرۀ بیجنخان و پیکرۀ متنی است اعمال شده است. نتیجۀ یادگیری با شبکۀ عصبی پیچشی به دلیل حجم بالای دادهها، رسیدن به دقت حدود 98 درصد بوده است. در پایان نیز سخنران پیشنهاد کرد که میتوان از الگوریتم شبکههای «مبتنی بر توجه» در پژوهشهای این حوزه بهره برد.
نشست پایانی با سخنرانیهایی در حوزۀ آوا و واج و پژوهشگرانی از دانشگاه الزهرا، به ریاست دکتر مسعود قیومی برگزار شد. نخست مقالهای با موضوع بررسی صوتشناختی جایگاه تولید همخوانهای انسدادی بدنهای در زبان فارسی معیار ارائه شد که حاصل پژوهش فریبا اشرفزاده افشار دانشآموختۀ زبانشناسی و مریم شِکری دانشجوی دکتری زبانشناسی از دانشگاه الزهرا و ماندانا نوربخش عضو هیات علمی گروه زبانشناسی این دانشگاه بود. در اين مقاله برای تعیین جایگاه تولید همخوانهای انسدادی بدنهای(کامی و نرمکامی)، در زبان فارسی معیار ، از پارامترهای الگوی طیفی انفجار رهش، گذر سازهای واکۀ مجاور و طولِ بست استفاده شده است. پژوهشگران مقاله پس از بررسی صوتشناختی 1080 نمونۀ آوایی از هر چهار واجگونة انسدای بدنهای واکدار و بیواک از 10 سخنگوی زن فارسیزبان، در هجاها و جایگاههای vc,cv,v.cv و تحلیل آماری آنها، نشان دادند صورت زیرساختی (واج) این همخوانها، جایگاه تولید کامی با نمادهای آوانگاری /c,Ɉ/ است و در بافت واکههای پسین جایگاه تولید آنها نرمکامی نیست بلکه مقداری پیشینتر در جایگاه پسکامی است و پیشنهاد میشود در این جایگاهها، از نشانههای آوانگاری [c̲ , Ɉ̲] برای آنها استفاده شود. در پایان این همایش، اسما کریمی مقدم آرانی، دانشجوی دکتری زبانشناسی دانشگاه الزهرای تهران در مورد استخراج و استفاده از ویژگیهای آکوستیکی موج صدا برای شناسایی واجهای زبان فارسی سخنرانی کرد. در این پژوهش که با هدف به دست آوردن «بُرد فرکانسی آواهای زبان فارسی» انجام شده است، با ضبط تظاهر آوایی 28 واج زبان فارسی از 52 سخنگوی فارسی معیار (26 زن و 26 مرد) در محیط آکوستیکی بهصورت استریو در محیط نرمافزار پرت، پایگاه دادهای با 260 تکرار از هر آوای منفرد با 6دسته شیوۀ تولید به دست آمد. پس از نرمالسازی دادهها با پنجرۀ همینگ و به کارگیری مدل لگاریتمی فوریه و صافیها با پهنای باریک، کلیدهای آکوستیکی از موج صوتی آواها در بخش زبانیِ پژوهش استخراج و کمّی شد و ماشین با الگوریتم هارمونی سرچ (HDHSA) برای بازشناسی واج فارسی آموزش داده شد. نرخ بازشناسی تظاهر آکوستیکی واجهای فارسی در دستۀ سایشی 99.51 درصد ودر دیگر دستهها 100% گزارش شده است. در بخش پرسش و پاسخ، رئیس نشست پیشنهاد کرد که پژوهشی مقایسهای بر روی روش پیشنهادی این مقاله و روشهای پیشین انجام شود.
در پایان، دبیر علمی همایش، حوزۀ زبانشناسی رایانشی را حوزهای پویا دانست و با اشاره به پیشرفت و تغییر سریع روشهای پردازش رایانهای زبان، از پژوهشگران خواست ایدههای خود را به صورت پژوهش مستند کنند. عضو هیات علمی گروه زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی پرداختن به هر سه جنبۀ نظری، عملی و کاربردی در پردازش زبان را ضروری برشمرد. دکتر قیومی با اشاره به برگزاری همایش ملی زبانشناسی رایانشی به صورت دوسالانه، سال آینده را فرصت خوبی برای انجام پژوهش برای ارائه در همایش آینده در قرن جدید دانست.
روابط عمومی انجمن زبانشناسی ایران