گزارش سومین همایش ملی زبان‌شناسی پیکره‌ای

تاریخ انتشار: 1398/02/23

سومین همایش ملی زبان‌شناسی پیکره‌ای، پنج‌شنبه 12 اردیبهشت 1398 از سوی انجمن زبان‌شناسی ایران با همکاری پژوهشگاه علوم انسانی و مطالعات فرهنگی و پایگاه استنادی جهان اسلام و نشر نویسه پارسی با حضور علاقمندان از حوزه‌ها و رشته‌های گوناگون در سالن اندیشه پژهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد.

سخنرانیهای این همایش در دو نشست صبح و عصر ارائه شد؛ مقالات ارائه شده حوزه‌های مختلفی چون تولید خودکار قواعد واجی از پیکره، تولید خودکار پیکرۀ متنی با استفاده از داده‌های صوتی، تولید پیکره‌های کودک، پیکرۀ ترجمه‌آموز و تولید دادۀ معنایی طلایی برای پژوهشگران، سنجش الگوی یادگیری داده‌محور، طراحی و پیاده‌سازی نرم‌افزار تحلیل خطای نوشتاری دانش‌آموزان و کاربرد پیکره در زبانآموزی، تحلیل گفتمان، زبانشناسی نظری را پوشش میدادند.

دبیر علمی همایش، دکتر آزاده میرزائی و دبیر اجرایی زهرا ابراهیم‌بانکی بودند. نخست دبیر علمی هایش روز بزرگداشت مقام معلم را تبریک گفت و گزارشی از مقاله‌های رسیده به همایش ارائه داد. به گفتۀ این عضو گروه زبان‌شناسی دانشگاه علامه طباطبائی این همایش به همت انجمن زبان‌شناسی ایران با همکاری پژوهشگاه و پایگاه استنادی جهان اسلام برگزار می‌شود. آزاده میرزائی با اشاره به پیشرفت سطح مقاله‌ها نسبت به همایش‌های پیشین زبان‌شناسی پیکره‌ای گفت در نخستین همایش پیکره‌ای مقاله‌ها بیشتر از نوع مروری بودند اما در همایش امروز، از دانشگاه‌های مختلف سراسر ایران مقاله‌های تخصصی داریم و زبان‌شناسی پیکره‌ای امروزه در جامعۀ علمی ایران حوزه‌ای تخصصی شده که علاقمندان بسیاری دارد. به گفته دبیر علمی همایش، ۲۰ مقاله به دبیرخانه همایش ارسال شد که ۱۵ مورد برای چاپ در مجموعه‌مقالات انتخاب شد. پایان‌بخش سخنان دکتر میرزایی، تشکر از دکتر عاصی به عنوان پیش‌گام زبان‌شناسی پیکره‌ای در ایران بود.

ریاست نشست اول برعهده دکتر گلناز مدرسی قوامی عضو گروه زبان‌شناسی دانشگاه علامه طباطبائی بود. ایشان همچنین به نیابت از دکتر روشن رئیس انجمن زبان‌شناسی ایران در سخنرانی افتتاحیه سخن خود را با تبریک روز معلم آغاز کردند و در توضیح نخستین سخنرانی با عنوان «معرفی پیکره «کودک علامه» نخستین پیکرۀ زبان گفتاری و نوشتاری کودکان فارسی‌زبان» گفت: این سخنرانی برگرفته از رسالۀ دکتری سخنران به راهنمایی دکتر دبیرمقدم و مشاوره دکتر رقیب‌دوست در دانشگاه علامه طباطبائی است. الهه طاهری قلعه‌نو دانشجوی دکتری دانشگاه علامه طباطبائی، هدف از نگارش این مقاله را معرفی پیکرۀ «کودک علامه» و انگیزۀ این پژوهش را نیاز به پیکرۀ زبان کودک برای کار روی نقش‌نماها عنوان کرد. برای جمع‌آوری داده‌های این پیکره، ۲۰۰ کودک دختر و پسر ۷ تا ۹ ساله فارسی‌زبان تک‌زبانه در دو آزمون گفتاری( خلق و بازگویی داستان) و دو آزمون نوشتاری(خلق و بازنویسی داستان) بر پایه پرسش‌نامه Perls که آزمونی جهانی برای دانش‌اموزان پایه چهارم ابتدایی است شرکت کردند. پیکرۀ «کودک علامه» 94000 واژه‌ای است و می‌توان فهرست واژگان پایه را از آن به دست آورد. به گفتۀ سخنران این پیکره در آینده در دسترس سایر پژوهشگران قرار خواهد گرفت. همچنین در بخش پرسش و پاسخ عنوان شد که از برچسب‌زنی سایر بخشهای این پیکره توسط علاقمندان به این کار استقبال می‌شود همچنین عنوان شد که ظاهرا امکان دسترسی به داده‌های صوتی در این حوزه که در سال‌های پیشین گرداوری شده است وجود ندارد.

سخنرانی دوم با عنوان «تهیۀ دادگان‌های گفتاری و متنی برای سامانۀ بازشناسی خودکار مکالمات خلبان و واحدهای مراقبت پرواز» کار پژوهشی مشترکی بود از دکتر محمد بحرانی استادیار دانشکدۀ علوم ریاضی و رایانۀ دانشگاه علامه طباطبائی و مهسا آزادمنش دانش‌آموختۀ کارشناسی ارشد زبان‌شناسی رایانشی دانشگاه صنعتی شریف. به گفتۀ سخنران این سامانه برای تبدیل مکالمات صوتی هوانوردی به متن به صورت خودکار طراحی شده است. در حال حاضر هنگام بروز سانحۀ هوایی، این مکالمات با صرف زمان و زحمت بسیار به صورت دستی پیاده‌سازی می‌شود. برای این کار ابتدا مکالمات خام که شامل اصطلاحات هوانوردی با نحو ساده و دایرۀ واژگان محدود است، پالایش و به فرمت wav تبدیل شد و سپس با نظارت متخصصان این حوزه، بر روی فایل گفتاری، برچسب‌زنی متنی انجام شد و برای واج‌نویسی از استاندارد « آرپا» استفاده شد. و پس از افزودن دادۀ متنی از وب‌سایت حقوقی دانشگاه روتگرز، پیکره‌ای با بیش از 60000 واژه به دست آمد و فاز نخست پروژه یعنی تهیۀ دادگان متنی و گفتاری به منظور آموزش سامانه به پایان رسید.

پس از آن دکتر محمود بی‌جن‌خان از آزمایشگاه گروه زبان‌شناسی دانشگاه تهران مقاله‌ای با عنوان «استخراج قواعد واجی از پیکره فارس‌دات" ارائه کرد. این پژوهش با همکاری عرفان بنیادی از گروه زبان‌شناسی رایانشی دانشکدۀ علوم و فنون دانشگاه تهران انجام شده بود. پیکرۀ فارس‌دات، پیکرۀ زبان فارسی گفتاری است که در سطح آوا و واج نشانه‌گذاری شده است. به گفتۀ دکتر بی‌جن‌خان، داده‌های این پیکره از گویشوران فارسی زبان 10 منطقۀ جغرافیایی ایران گرداوری شده است و شامل 384 جملۀ فارسی است که شامل تمام واج‌های فارسی است و حجم آن 25 ساعت گفتار با 6000 سیگنال صوتی است. این پژوهش نشان داد از میان پنج نوع قاعدۀ تعمیم‌یافتۀ واجی بر حسب مشخصه‌های تمایزدهندۀ آوایی، بیشترین فراوانی نسبی به ترتیب به قاعدۀ حذف و جایگزینی( همگونی محل تولید کامی‌ها، واکرفتگی، ارتقاء و تنزل واکه) اختصاص داشت و بر این اساس، احتمال خطا در بازشناسی کلمات افزایش می‌یابد. در بخش پرسش و پاسخ عنوان شد که به دلیل نبود بست در انفجاری‌ها در داده‌ها، ممکن است ماشین به اشتباه آنها را سایشی تشخیص دهد مگر این که زمان را هم در نظر بگیریم.

عنوان سومین سخنرانی «گروه‌بندی معنایی ترکیبات اسمی زبان فارسی به همراه ساخت بانک داده» بود که شهره طباطبایی سیفی از دانشکدۀ کامپیوتر دانشگاه صنعتی شریف آن را ارائه داد. در این پژوهش که با همکاری دکتر محمد ایزدی از همان دانشکده انجام شده بود، رابطۀ بین دو واژه با مقولۀ اسم بررسی شده بود و به گفتۀ سخنران، برای تشخیص بهتر این رابطه از درخت سازه‌ای 500 هزار- واژه‌ای استفاده شد و 6917 ترکیب منحصر به فرد اسم-اسم به صورت خودکار از آن استخراج و با دستورالعملی جدید از جمله اضافه کردن فعلی که به ظاهر حذف شده است، برای گر‌وه‌بندی معنایی ترکیبات اسمی برچسب‌زنی شده تهیده شد و در پایان از معیار کاپا برای سنجش توافق برچسب‌زنی استفاده شد. در بخش پرسش و پاسخ عنوان شد که استفاده از نظرات متخصصان ادبیات می‌تواند دستورالعمل به دست‌آمده را بهبود بخشد.

پس از استراحت و پذیرایی، مراسم رونمایی از جشن‌نامه دکتر مصطفی عاصی با حضور بسیاری از همکاران و دوستان و دانشجویان و علاقمندان ایشان برگزار شد.

پس از زمان ناهار و نماز، فرصتی برای بازدید از پوسترهای همایش در نظر گرفته شده بود. ارائۀ ۷ مقاله در این همایش به صورت پوستر صورت گرفت که طبق گفتۀ دبیر علمی همایش صرفاً به جهت کمبود وقت در این قالب ارائه شدند:

پیکره و سوگیری پژوهشی؛ مطالعه‌ای موردی در تقابل واژگان (دکتر ماندانا کلاهدوز محمدی – دکتر علیرضا قلی فامیان)

زایایی پسوندهای نام خانوادگی در زبان فارسی: پژوهشی پیکره‌بنیاد (آناهید دشتی – فاطمه سلطان‌زاده)

مقوله معنایی پیشوند (نا-) در زبان فارسی (فریبا صیادی‌پور سی سخت - دکتر امیرسعید مولودی)

آموزش واژه‌های نقشی به فارسی‌آموزان خارجی با بهره‌گیری از پیکرۀ زبانی)سمیرا میرزائی(

استفاده از پیکره‌های بارگذاری‌شده در پایگاه دادگان زبان فارسی به منظور بررسی صفات ... (دکتر بهار پورشاهیان)

جوک فارسی از منظر تحلیل گفتمان انتقادی (دکتر سهیل دانش‌زاده، دکتر علی افخمی)

بررسی پیکره‌بنیاد آرایش سازه‌ها در جملات پرسشی زبان فارسی) دکتر آزاده میرزائی(

در ادامه، نشست دوم به ریاست دکتر پروانه خسروی‌زاده با ۴ سخنرانی برگزار شد.

نخست دکتر مسعود قیومی عضو گروه زبان‌شناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی، مقاله‌ای با عنوان «معرفی دادۀ استاندارد طلایی در سطح معنا برای هم‌نگاره‌های زبان فارسی» ارائه کرد. در این مقاله، دادۀ استاندارد طلایی معرفی شد که در سطح معنا برای 20 واژۀ هدف فارسی با صورت نوشتاری یکسان تهیه شده است. این داده حاصل برچسب‌زنی معنایی 100 جملۀ برگزیده از پیکره‌ای موجود است و هدف این است که به کمک بافت زبانی پیکره، خطای رایانه در تشخیص معنای صحیح این واژه‌های مبهم هم‌نگاره کاهش یابد. روند پژوهش، آموزش ماشین با داده‌های برچسب‌گذاری‌شده، استخراج مدل از آن و سپس استفاده از ماشین بردار پشتیبان و اعمال آن بر پیکرۀ ترکیبی هدف بوده است. در پایان نیز عنوان شد که کارایی خوشه‌بندی و یادگیری خودکار و روش‌های بی‌نظارت بیش از روش دستی است. در بخش پرسش و پاسخ دکتر مدرس خیابانی بر اهمیت وجود چنین پژوهشی در زبان فارسی تأکید کرد.

سخنران دوم این نشست مهران برزوفرد کارشناسی ارشد مطالعات ترجمه از دانشگاه آزاد واحد علوم و تحقیقات به معرفی به گفتۀ سخنران نخستین پیکرۀ ترجمه‌آموز طراحی‌شده در ایران Persian Learner Translator Corpus (PeLTC) پرداخت. دیگر نویسندگان این مقاله، علی بیکیان عضو هیات علمی دانشگاه چابهار و دکتر داریوش نژادانصاری عضو هیات علمی دانشگاه اصفهان بودند. پیکرۀ (PeLTC) پیکره‌ای موازی از داده‌های ترجمۀ فراگیران ترجمه از حدود 30 دانشگاه کشور است. کاربرد این پیکره در حوزۀ آموزش ترجمه است و به کمک آن می‌توان نقش پیشینه و زبان مبدا مترجم و پربسامدترین خطاهای ترجمه را به دست آورد و ترجمه‌های موجود را با داده‌های طبیعی زبان مقایسه کرد. در بخش بعد برزوفرد به معرفی پیکره‌های موجود در حوزۀ ترجمه و آموزش زبان در جهان و به خصوص مرکز زبان‌شناسی پیکره‌ای دانشگاه لوون پرداخت. در پایان عنوان شد پیکره (PeLTC) در مجموع شامل 536000 توکن است و ساخت آن از دو سال پیش آغاز شده است و همچنان ادامه دارد و به زودی در دسترس پژوهشگران خواهد بود.

موضوع سومین سخنرانی در نشست پایانی، Applying Data-Driven Learning to EFL Learners’ Writing" "Development: The Case for Micro Level Skills بود . به گفته دکتر مهرداد سپهری از دانشگاه آزاد اسلامی شهرکرد، روش این پژوهش که در آن، مهارت به‌کارگیری عبارت‌ها، جمله‌ها و جمله‌واره‌ها به عنوان مهارت‌های خرد نگارش و به دست آوردن خطاهای زبان‌آموزان و استفاده از آن برای آموزش به زبان‌آموزان دیگر مد نظر است، شامل سه گام تحلیل کتاب درسی، تحلیل خطاهای دانشجویان در درس نگارش و تولید پیکره‌ای کوچک به منظور استخراج خطوط واژه‌نما برای ارائۀ الگوهای مورد نظر به دانشجویان است. سپس 18 الگوی استخراج‌شده در یک ترم به گروهی از دانشجویان تدریس شد که موجب پیشرفت در مهارت زبانی دانشجویان مورد نظر شد. این پژوهش کاربرد نظری دارد و می‌تواند در تولید مطالب آموزشی سودمند باشد.

عنوان سخنرانی چهارم و پایانی این همایش، «تحلیل پیکره‌بنیاد خطا در ساختار زبانی دانش‌آموزان استثنایی پایه اول تا چهارم ابتدایی شاغل به تحصیل در مدارس استثنایی» بود. دکتر شهرام مدرس خیابانی ، یکی از نویسندگان مقاله، نخست با اشاره به سخنرانی پیش از خود گفت اگر پژوهش دکتر قیومی به نتیجه برسد، مشکل بزرگی از زبان‌شناسی پیکره‌ای فارسی را حل خواهد کرد. این عضو گروه آموزش و مترجمی زبان انگلیسی دانشگاه آزاد اسلامی کرج در ادمه افزود رشتۀ زبان‌شناسی رشتۀ پذیرایی است و خوشحالیم که با دیگر رشته‌ها و حوزه‌ها مرزبندی نداریم. دکتر مدرس خیابانی در ادامه به معرفی نرم‌افزار «وثوق» پرداخت که حنانه رسولی وثوق کارشناسی ارشد زبان‌شناسی از دانشگاه آزاد اسلامی واحد علوم و تحقیقات، یکی دیگر از نویسندگان این مقاله، طراح و برنامه‌نویس آن است. در این پژوهش بسامد چهار نوع خطای ساختاری حذف، درج، جابه‌جایی و جایگزینی در 15 دختر و 7 پسر در ردۀ سنی 7 تا 12 سال که دارای نارسایی شنوایی بدون کاشت حلزون و چندمعلولیتی و بیش‌فعالی بودند، سنجیده شد. این نرم‌افزار به زبان برنامه‌نویسیc# و با الگوریتم تحلیل خودکار نوشته شده است و به کمک آن می‌توان نمودار مقایسه‌ای و فردی و پراکندگی خطای دانش‌آموزان را مشاهده کرد. از کاربردهای این پیکره می‌توان به تشخیص خطای نوشتاری در مدارس استثنایی، تشخیص نارسایی‌های نوشتاری هر فرد، ایجاد وسایل کمک‌آموزشی و طبقه‌بندی افراد در گروه‌های مختلف نوشتاری برای بهبود عملکرد آنها. نویسنده دیگر این مقاله که برگرفته از پایان‌نامه کارشناسی ارشد طراح نرم افزار است، دکتر حمیدرضا ربیعی از دانشکدۀ مهندسی دانشگاه صنعتی شریف بود.

در زمان استراحت و پذیرایی، مجموعه‌مقالات این همایش و دو همایش پیشین زبان‌شناسی پیکره‌ای که به همت نشر نویسۀ پارسی منتشر شده است، برای فروش عرضه شد.

روابط عمومی انجمن زبان‌شناسی ایران

ارسال مقاله برای مجله

گزارش سومین همایش ملی زبان‌شناسی پیکره‌ای

تاریخ انتشار: 1398/02/23