گزارش سومین همایش ملی زبانشناسی پیکرهای
تاریخ انتشار: 1398/02/23
سومین همایش ملی زبانشناسی پیکرهای، پنجشنبه 12 اردیبهشت 1398 از سوی انجمن زبانشناسی ایران با همکاری پژوهشگاه علوم انسانی و مطالعات فرهنگی و پایگاه استنادی جهان اسلام و نشر نویسه پارسی با حضور علاقمندان از حوزهها و رشتههای گوناگون در سالن اندیشه پژهشگاه علوم انسانی و مطالعات فرهنگی برگزار شد.
سخنرانیهای این همایش در دو نشست صبح و عصر ارائه شد؛ مقالات ارائه شده حوزههای مختلفی چون تولید خودکار قواعد واجی از پیکره، تولید خودکار پیکرۀ متنی با استفاده از دادههای صوتی، تولید پیکرههای کودک، پیکرۀ ترجمهآموز و تولید دادۀ معنایی طلایی برای پژوهشگران، سنجش الگوی یادگیری دادهمحور، طراحی و پیادهسازی نرمافزار تحلیل خطای نوشتاری دانشآموزان و کاربرد پیکره در زبانآموزی، تحلیل گفتمان، زبانشناسی نظری را پوشش میدادند.
دبیر علمی همایش، دکتر آزاده میرزائی و دبیر اجرایی زهرا ابراهیمبانکی بودند. نخست دبیر علمی هایش روز بزرگداشت مقام معلم را تبریک گفت و گزارشی از مقالههای رسیده به همایش ارائه داد. به گفتۀ این عضو گروه زبانشناسی دانشگاه علامه طباطبائی این همایش به همت انجمن زبانشناسی ایران با همکاری پژوهشگاه و پایگاه استنادی جهان اسلام برگزار میشود. آزاده میرزائی با اشاره به پیشرفت سطح مقالهها نسبت به همایشهای پیشین زبانشناسی پیکرهای گفت در نخستین همایش پیکرهای مقالهها بیشتر از نوع مروری بودند اما در همایش امروز، از دانشگاههای مختلف سراسر ایران مقالههای تخصصی داریم و زبانشناسی پیکرهای امروزه در جامعۀ علمی ایران حوزهای تخصصی شده که علاقمندان بسیاری دارد. به گفته دبیر علمی همایش، ۲۰ مقاله به دبیرخانه همایش ارسال شد که ۱۵ مورد برای چاپ در مجموعهمقالات انتخاب شد. پایانبخش سخنان دکتر میرزایی، تشکر از دکتر عاصی به عنوان پیشگام زبانشناسی پیکرهای در ایران بود.
ریاست نشست اول برعهده دکتر گلناز مدرسی قوامی عضو گروه زبانشناسی دانشگاه علامه طباطبائی بود. ایشان همچنین به نیابت از دکتر روشن رئیس انجمن زبانشناسی ایران در سخنرانی افتتاحیه سخن خود را با تبریک روز معلم آغاز کردند و در توضیح نخستین سخنرانی با عنوان «معرفی پیکره «کودک علامه» نخستین پیکرۀ زبان گفتاری و نوشتاری کودکان فارسیزبان» گفت: این سخنرانی برگرفته از رسالۀ دکتری سخنران به راهنمایی دکتر دبیرمقدم و مشاوره دکتر رقیبدوست در دانشگاه علامه طباطبائی است. الهه طاهری قلعهنو دانشجوی دکتری دانشگاه علامه طباطبائی، هدف از نگارش این مقاله را معرفی پیکرۀ «کودک علامه» و انگیزۀ این پژوهش را نیاز به پیکرۀ زبان کودک برای کار روی نقشنماها عنوان کرد. برای جمعآوری دادههای این پیکره، ۲۰۰ کودک دختر و پسر ۷ تا ۹ ساله فارسیزبان تکزبانه در دو آزمون گفتاری( خلق و بازگویی داستان) و دو آزمون نوشتاری(خلق و بازنویسی داستان) بر پایه پرسشنامه Perls که آزمونی جهانی برای دانشاموزان پایه چهارم ابتدایی است شرکت کردند. پیکرۀ «کودک علامه» 94000 واژهای است و میتوان فهرست واژگان پایه را از آن به دست آورد. به گفتۀ سخنران این پیکره در آینده در دسترس سایر پژوهشگران قرار خواهد گرفت. همچنین در بخش پرسش و پاسخ عنوان شد که از برچسبزنی سایر بخشهای این پیکره توسط علاقمندان به این کار استقبال میشود همچنین عنوان شد که ظاهرا امکان دسترسی به دادههای صوتی در این حوزه که در سالهای پیشین گرداوری شده است وجود ندارد.
سخنرانی دوم با عنوان «تهیۀ دادگانهای گفتاری و متنی برای سامانۀ بازشناسی خودکار مکالمات خلبان و واحدهای مراقبت پرواز» کار پژوهشی مشترکی بود از دکتر محمد بحرانی استادیار دانشکدۀ علوم ریاضی و رایانۀ دانشگاه علامه طباطبائی و مهسا آزادمنش دانشآموختۀ کارشناسی ارشد زبانشناسی رایانشی دانشگاه صنعتی شریف. به گفتۀ سخنران این سامانه برای تبدیل مکالمات صوتی هوانوردی به متن به صورت خودکار طراحی شده است. در حال حاضر هنگام بروز سانحۀ هوایی، این مکالمات با صرف زمان و زحمت بسیار به صورت دستی پیادهسازی میشود. برای این کار ابتدا مکالمات خام که شامل اصطلاحات هوانوردی با نحو ساده و دایرۀ واژگان محدود است، پالایش و به فرمت wav تبدیل شد و سپس با نظارت متخصصان این حوزه، بر روی فایل گفتاری، برچسبزنی متنی انجام شد و برای واجنویسی از استاندارد « آرپا» استفاده شد. و پس از افزودن دادۀ متنی از وبسایت حقوقی دانشگاه روتگرز، پیکرهای با بیش از 60000 واژه به دست آمد و فاز نخست پروژه یعنی تهیۀ دادگان متنی و گفتاری به منظور آموزش سامانه به پایان رسید.
پس از آن دکتر محمود بیجنخان از آزمایشگاه گروه زبانشناسی دانشگاه تهران مقالهای با عنوان «استخراج قواعد واجی از پیکره فارسدات" ارائه کرد. این پژوهش با همکاری عرفان بنیادی از گروه زبانشناسی رایانشی دانشکدۀ علوم و فنون دانشگاه تهران انجام شده بود. پیکرۀ فارسدات، پیکرۀ زبان فارسی گفتاری است که در سطح آوا و واج نشانهگذاری شده است. به گفتۀ دکتر بیجنخان، دادههای این پیکره از گویشوران فارسی زبان 10 منطقۀ جغرافیایی ایران گرداوری شده است و شامل 384 جملۀ فارسی است که شامل تمام واجهای فارسی است و حجم آن 25 ساعت گفتار با 6000 سیگنال صوتی است. این پژوهش نشان داد از میان پنج نوع قاعدۀ تعمیمیافتۀ واجی بر حسب مشخصههای تمایزدهندۀ آوایی، بیشترین فراوانی نسبی به ترتیب به قاعدۀ حذف و جایگزینی( همگونی محل تولید کامیها، واکرفتگی، ارتقاء و تنزل واکه) اختصاص داشت و بر این اساس، احتمال خطا در بازشناسی کلمات افزایش مییابد. در بخش پرسش و پاسخ عنوان شد که به دلیل نبود بست در انفجاریها در دادهها، ممکن است ماشین به اشتباه آنها را سایشی تشخیص دهد مگر این که زمان را هم در نظر بگیریم.
عنوان سومین سخنرانی «گروهبندی معنایی ترکیبات اسمی زبان فارسی به همراه ساخت بانک داده» بود که شهره طباطبایی سیفی از دانشکدۀ کامپیوتر دانشگاه صنعتی شریف آن را ارائه داد. در این پژوهش که با همکاری دکتر محمد ایزدی از همان دانشکده انجام شده بود، رابطۀ بین دو واژه با مقولۀ اسم بررسی شده بود و به گفتۀ سخنران، برای تشخیص بهتر این رابطه از درخت سازهای 500 هزار- واژهای استفاده شد و 6917 ترکیب منحصر به فرد اسم-اسم به صورت خودکار از آن استخراج و با دستورالعملی جدید از جمله اضافه کردن فعلی که به ظاهر حذف شده است، برای گروهبندی معنایی ترکیبات اسمی برچسبزنی شده تهیده شد و در پایان از معیار کاپا برای سنجش توافق برچسبزنی استفاده شد. در بخش پرسش و پاسخ عنوان شد که استفاده از نظرات متخصصان ادبیات میتواند دستورالعمل به دستآمده را بهبود بخشد.
پس از استراحت و پذیرایی، مراسم رونمایی از جشننامه دکتر مصطفی عاصی با حضور بسیاری از همکاران و دوستان و دانشجویان و علاقمندان ایشان برگزار شد.
پس از زمان ناهار و نماز، فرصتی برای بازدید از پوسترهای همایش در نظر گرفته شده بود. ارائۀ ۷ مقاله در این همایش به صورت پوستر صورت گرفت که طبق گفتۀ دبیر علمی همایش صرفاً به جهت کمبود وقت در این قالب ارائه شدند:
پیکره و سوگیری پژوهشی؛ مطالعهای موردی در تقابل واژگان (دکتر ماندانا کلاهدوز محمدی – دکتر علیرضا قلی فامیان)
زایایی پسوندهای نام خانوادگی در زبان فارسی: پژوهشی پیکرهبنیاد (آناهید دشتی – فاطمه سلطانزاده)
مقوله معنایی پیشوند (نا-) در زبان فارسی (فریبا صیادیپور سی سخت - دکتر امیرسعید مولودی)
آموزش واژههای نقشی به فارسیآموزان خارجی با بهرهگیری از پیکرۀ زبانی)سمیرا میرزائی(
استفاده از پیکرههای بارگذاریشده در پایگاه دادگان زبان فارسی به منظور بررسی صفات ... (دکتر بهار پورشاهیان)
جوک فارسی از منظر تحلیل گفتمان انتقادی (دکتر سهیل دانشزاده، دکتر علی افخمی)
بررسی پیکرهبنیاد آرایش سازهها در جملات پرسشی زبان فارسی) دکتر آزاده میرزائی(
در ادامه، نشست دوم به ریاست دکتر پروانه خسرویزاده با ۴ سخنرانی برگزار شد.
نخست دکتر مسعود قیومی عضو گروه زبانشناسی پژوهشگاه علوم انسانی و مطالعات فرهنگی، مقالهای با عنوان «معرفی دادۀ استاندارد طلایی در سطح معنا برای همنگارههای زبان فارسی» ارائه کرد. در این مقاله، دادۀ استاندارد طلایی معرفی شد که در سطح معنا برای 20 واژۀ هدف فارسی با صورت نوشتاری یکسان تهیه شده است. این داده حاصل برچسبزنی معنایی 100 جملۀ برگزیده از پیکرهای موجود است و هدف این است که به کمک بافت زبانی پیکره، خطای رایانه در تشخیص معنای صحیح این واژههای مبهم همنگاره کاهش یابد. روند پژوهش، آموزش ماشین با دادههای برچسبگذاریشده، استخراج مدل از آن و سپس استفاده از ماشین بردار پشتیبان و اعمال آن بر پیکرۀ ترکیبی هدف بوده است. در پایان نیز عنوان شد که کارایی خوشهبندی و یادگیری خودکار و روشهای بینظارت بیش از روش دستی است. در بخش پرسش و پاسخ دکتر مدرس خیابانی بر اهمیت وجود چنین پژوهشی در زبان فارسی تأکید کرد.
سخنران دوم این نشست مهران برزوفرد کارشناسی ارشد مطالعات ترجمه از دانشگاه آزاد واحد علوم و تحقیقات به معرفی به گفتۀ سخنران نخستین پیکرۀ ترجمهآموز طراحیشده در ایران Persian Learner Translator Corpus (PeLTC) پرداخت. دیگر نویسندگان این مقاله، علی بیکیان عضو هیات علمی دانشگاه چابهار و دکتر داریوش نژادانصاری عضو هیات علمی دانشگاه اصفهان بودند. پیکرۀ (PeLTC) پیکرهای موازی از دادههای ترجمۀ فراگیران ترجمه از حدود 30 دانشگاه کشور است. کاربرد این پیکره در حوزۀ آموزش ترجمه است و به کمک آن میتوان نقش پیشینه و زبان مبدا مترجم و پربسامدترین خطاهای ترجمه را به دست آورد و ترجمههای موجود را با دادههای طبیعی زبان مقایسه کرد. در بخش بعد برزوفرد به معرفی پیکرههای موجود در حوزۀ ترجمه و آموزش زبان در جهان و به خصوص مرکز زبانشناسی پیکرهای دانشگاه لوون پرداخت. در پایان عنوان شد پیکره (PeLTC) در مجموع شامل 536000 توکن است و ساخت آن از دو سال پیش آغاز شده است و همچنان ادامه دارد و به زودی در دسترس پژوهشگران خواهد بود.
موضوع سومین سخنرانی در نشست پایانی، Applying Data-Driven Learning to EFL Learners’ Writing" "Development: The Case for Micro Level Skills بود . به گفته دکتر مهرداد سپهری از دانشگاه آزاد اسلامی شهرکرد، روش این پژوهش که در آن، مهارت بهکارگیری عبارتها، جملهها و جملهوارهها به عنوان مهارتهای خرد نگارش و به دست آوردن خطاهای زبانآموزان و استفاده از آن برای آموزش به زبانآموزان دیگر مد نظر است، شامل سه گام تحلیل کتاب درسی، تحلیل خطاهای دانشجویان در درس نگارش و تولید پیکرهای کوچک به منظور استخراج خطوط واژهنما برای ارائۀ الگوهای مورد نظر به دانشجویان است. سپس 18 الگوی استخراجشده در یک ترم به گروهی از دانشجویان تدریس شد که موجب پیشرفت در مهارت زبانی دانشجویان مورد نظر شد. این پژوهش کاربرد نظری دارد و میتواند در تولید مطالب آموزشی سودمند باشد.
عنوان سخنرانی چهارم و پایانی این همایش، «تحلیل پیکرهبنیاد خطا در ساختار زبانی دانشآموزان استثنایی پایه اول تا چهارم ابتدایی شاغل به تحصیل در مدارس استثنایی» بود. دکتر شهرام مدرس خیابانی ، یکی از نویسندگان مقاله، نخست با اشاره به سخنرانی پیش از خود گفت اگر پژوهش دکتر قیومی به نتیجه برسد، مشکل بزرگی از زبانشناسی پیکرهای فارسی را حل خواهد کرد. این عضو گروه آموزش و مترجمی زبان انگلیسی دانشگاه آزاد اسلامی کرج در ادمه افزود رشتۀ زبانشناسی رشتۀ پذیرایی است و خوشحالیم که با دیگر رشتهها و حوزهها مرزبندی نداریم. دکتر مدرس خیابانی در ادامه به معرفی نرمافزار «وثوق» پرداخت که حنانه رسولی وثوق کارشناسی ارشد زبانشناسی از دانشگاه آزاد اسلامی واحد علوم و تحقیقات، یکی دیگر از نویسندگان این مقاله، طراح و برنامهنویس آن است. در این پژوهش بسامد چهار نوع خطای ساختاری حذف، درج، جابهجایی و جایگزینی در 15 دختر و 7 پسر در ردۀ سنی 7 تا 12 سال که دارای نارسایی شنوایی بدون کاشت حلزون و چندمعلولیتی و بیشفعالی بودند، سنجیده شد. این نرمافزار به زبان برنامهنویسیc# و با الگوریتم تحلیل خودکار نوشته شده است و به کمک آن میتوان نمودار مقایسهای و فردی و پراکندگی خطای دانشآموزان را مشاهده کرد. از کاربردهای این پیکره میتوان به تشخیص خطای نوشتاری در مدارس استثنایی، تشخیص نارساییهای نوشتاری هر فرد، ایجاد وسایل کمکآموزشی و طبقهبندی افراد در گروههای مختلف نوشتاری برای بهبود عملکرد آنها. نویسنده دیگر این مقاله که برگرفته از پایاننامه کارشناسی ارشد طراح نرم افزار است، دکتر حمیدرضا ربیعی از دانشکدۀ مهندسی دانشگاه صنعتی شریف بود.
در زمان استراحت و پذیرایی، مجموعهمقالات این همایش و دو همایش پیشین زبانشناسی پیکرهای که به همت نشر نویسۀ پارسی منتشر شده است، برای فروش عرضه شد.
روابط عمومی انجمن زبانشناسی ایران