*** به روز رسانی وبگاه 22 اسفند 1396*** *** دهمین همایش بین المللی زبان شناسی- فراخوان مقاله*** *** گنجمین همایش تحلیل گفتمان و کاربردشناسی- فراخوان مقاله *** *** شماره 24 مجله زبان و زبانشناسی منتشر شد*** ***نشانی جدید دفتر انجمن*** ***فعال شدن سامانه جدید عضویت انجمن زبان‌شناسي ایران*** ***سامانه جدید مجله زبان و زبان‌شناسي*** *** فعال شدن درگاه پرداخت اینترنتی***
 
 
اخبار
 
     
 
1396/12/14
گزارش چهارمین همایش ملی زبا‌‌شناسی رایانشی

 
 
 

برگزاری چهارمین همایش ملی زبا‌شناسی رایانشی

چهارمین همایش ملی زبا‌شناسی رایانشی روز ۲۶ بهمن ۱۳۹۶ در سالن حکمت پژوهشگاه علوم انسانی و مطالعات فرهنگی با حضور علاقهمندان و به همت انجمن زبانشناسی ایران برگزار شد.

در این همایش سخنرانانی از رشته‌های مهندسی کامپیوتر و علوم کامپیوتر، فناوری اطلاعات و زبان‌شناسی از پژوهشگاه ارتباطات و فناوری اطلاعات، پژوهشگاه علوم انسانی و مطالعات فرهنگی، پژوهشگاه فناوری‌های پیشرفته خواجه نصیرالدین طوسی، دانشگاه کاشان، دانشگاه تهران، پژوهشگاه علوم و فناوری اطلاعات ایران، دانشگاه تربیت مدرس، دانشگاه آزاد اسلامی واحد تهران شمال، دانشگاه خواجه نصیر طوسی و دانشگاه صنعتی شریف شرکت کردند.

در آغاز، دبیر علمی همایش ابراز امیدواری کرد با برگزاری چنین همایش‌هایی، رشتۀ زبان‌شناسی رایانشی، رشته پژوهشی صرف باقی نماند و در ادامه گزارشی از روند داوری مقالات ارائه داد. به گفته دکتر مسعود قیومی، ۲۲ مقاله به دبیرخانۀهمایش فرستاده شد که با داوری ۲ تا ۳ داور، در نهایت ۹ مقاله پذیرفته و برای چاپ در مجموعه‌مقالات نمایه شده در پایگاه استنادی علوم جهان اسلام (ISC)انتخاب شد که از این میان، 8 مقاله برای ارائه برگزیده شد.

نشست نخست همایش به ریاست دکتر هشام فیلی دانشیار دانشکدۀ مهندسی برق و کامپیوتر دانشگاه تهران با سه سخنرانی در حوزه‌های جویشگر فارسی، پردازش نحوی و درختبانک سازه‌ای زبان فارسی برگزار شد. نخستین سخنران دکتر علیرضا یاری عضو هیات علمی پژوهشگاه ارتباطات و فناوری اطلاعات، طرح جویشگر فارسی را معرفی کرد و از مراحل انجام آن سخن گفت. یکی از بحثهای زبانشناسی این طرح، جایگزینی واژۀ موتور جستجو با «جویشگر» و پروژه با «طرح» بود که با مشاورۀ زبانشناختی دکتر بدیع انجام شد. در این طرح که به همت پژوهشگاه ارتباطات و فناوری اطلاعات در حال انجام است، بر اهمیت جویشگر (موتور جستجو) بومی تاکید شده است و دو جویشگر »یوز« و «پارسی‌جو» که کارایی‌های متفاوتی دارند مورد حمایت قرار گرفتند. این دو جویشگر، از جویشگر بینگ بالاتر است. به گفتۀ سخنران، در هر کشوری بیشترین مراجعه کاربران اینترنت به موتورهای جستجوست ازاین رو، راه‌اندازی موتورهای جستجوی بومی توسط بخش خصوصی، در حوزه‌های مورد نیاز، می‌تواند فضای اقتصادی جدیدی بیافریند. این پژوهشگر وزارت ارتباطات و فناوری اطلاعات از موتورهای جستجوی بومی «بایدو» در چین و «یاندکس» در روسیه سخن گفت که با اقبال کاربران آن کشورها روبه‌رو شده است و در کنار موتورهای جستجوی جهانی مانند گوگل، کارکرد نسبتا موفقی دارند. به عقیدۀ ایشان، یکی از مسائل، عدم اقبال کاربران به پروژههای ملی و بومی است هرچند برخی خدمات مانند آموزش زبان، کسب و کار و دولت الکترونیک و سلامت، تنها با جویشگرهای بومی ممکن است و استفاده از آنها یادگیریشان را بالاتر میبرد اما حتی در سازمانهای دولتی نیز از نرمافزارهای بومی استفاده نمیشود. همچنین عنوان شد که ایران امروزه زیر یک درصد از بازار جستجو سهم دارد و 98 درصد آن در اختیار گوگل است و بالاترین اطلاعات دادهکاوی را میتوان با بازار جستجوی گوگل به دست آورد.  خروجیهای گام اول: دادگان و محتوا (فارسنت، گراف دانش فارسی، دانشنامۀ ابوریحان، و شبکۀ تصویرنت)، کاربردها(پارسیجو، یوز، قرآن جوی) و ابزار پردازشی( مرجعگزینی و تشخیص موجودیت نامدار) بود که در دو مرحله رونمایی شد. مجموعۀ دادگان و ابزارها، مجوز رایگان برای تجاریسازی به زودی رونمایی میشود و در آینده، برچسبزن نقش معنایی عرضه خواهد شد. در گام دوم و سوم، انتقال طرح به بخش خصوصی و تجاریسازی آن مدنظر است. این طرح به دنبال دستاوردهایی مانند: ایجاد زیرساختهای رایانشی صحیح برای پردازش محتوای زبان فارسی، خدمات پایهای جستجوی متن و نقشه، خدمات ارزش افزوده برای جستجوی علمی، خبری یا گردشگری و تقویت فضای کسب و کار در حوزۀ جستجوی اینترنتی است. در رونمایی پارسیگان، همۀ تولیدات در دسترس عموم قرار میگیرد. دکتر یاری در پایان نشانی سایت را در اختیار علاقهمندان قرار داد .Didras.ir

در بخش پرسش و پاسخ عنوان شد که تفاوت دو موتور جستجوی یوز و پارسی‌جو در الگوریتم‌ها و استراتژی و مدل کسب و کار است اما هر دو محتوای فارسی اینترنت را خزش می‌کنند. استفاده از جویشگر بومی به معنای فیلتر جویشگر جهانی نیست زیرا در اولی جستجو به زبان فارسی و در دومی جستجوی علمی مدنظر است. در پایان این سخنرانی، با اهدای لوح توسط دکتر عاصی به نمایندگی از انجمن زبان‌شناسی ایران، از دکتر یاوری تجلیل شد.

موضوع سخنرانی دوم مسئلۀ چندواژگی در پردازش نحو رایانشی زبان فارسی دکتر مسعود قیومی پژوهشگاه علوم انسانی و مطالعات فرهنگی بود. به گفتۀ سخنران، یکی از چالش‌ها برای به کارگیری پیکره‌های نوشتاری، استانداردسازی نگارشی دادۀ آن است که بخشی از این یکسان‌سازی را می‌توان به کمک الگوریتم انجام داد. چالش چندواژگی در فرایند استانداردسازی داده‌های پیکره، در این پژوهش در دو دسته مورد بررسی قرار گرفت. نخست «چندقطعه‌ای واژگانی یک واحدی» مانند «چِته» و «بچَتو»، «وبا»که به دلیل کوتاه‌شدگی یک عنصر و جوش‌خوردگی آن به عنصر بعدی یا به دلیل درج نکردن فاصلهرخ می‌دهد. به عقیدۀ دکتر قیومی، مورد نخست را با توجه به معیارهای زوبیکی و پلوم می‌توان «واژه‌بست‌های نگارشی»نامید و دوم «واحدهای واژگانی چندقطعه‌ای» که در آن فاصلۀ اضافه وجود دارد. ابزار سامانۀ کلارک مورد استفاده در این پژوهش، سامانه‌ای استبراساس زبان  XMLکه قابلیت نگارش قاعده و بیان اطلاعات به صورت مشخصه و ارزش را دارد. تحلیل واژه‌بست و جوش‌خوردگی‌ها به صورت جداسازی واژه‌بست از میزبان و تشکیل گرهی مستقل صورت گرفت. گام پایانی تعیین مقولۀ دستوری واژۀ میزبان یا بخش باقی‌مانده از واژه است.بر اساس الگوریتم پیشنهادی، تفکیک واژه‌بست با دقت 52/80، تفکیک جوش‌خوردگی با دقت 43/75 و تشخیص واحدهای واژگانی چندقطعه‌ای با دقت 38/86 درصد انجام می‌شود.

موضوع سومین سخنرانی این نشست، پیکرة سازه: درخت‌بانک بزرگ زبان فارسی در دستور سازه‌اي بود که نویسندگان آن شهره طباطبایی سیفیوایمان صراف رضایی  از پژوهشگاه فناوري‌هاي پیشرفتۀ خواجه نصیرالدین طوسی بودند.ابزار تجزیۀ نحوی سازه‌ای در زمینه‌های ترجمۀ ماشینی، تولید زبان طبیعی و تولید چکیده کاربرد دارد. به گفتۀ طباطبایی، پیشتر در زبان فارسی ، دو درخت‌بانک دستور وابستگی اوپسالا و دادگان وجود داشتاما تجزیه‌گر و درخت سازه‌ای نداشتیم. در این پژوهش، پس از تبدیل درخت وابستگی به درخت سازه‌ای با سرپرستی دکتر فیلی، ساز و کار دودویی برچسب‌زنی در پیکرۀ قیومی2014در قالب دستور HPSG به دلیل شباهت بادستور سازه‌ای با تغییراتی، در تولید «پیکرۀ سازه» به کار رفت. سپس در قالب طرح جویشگر500هزارکلمه از میان بخش روزنامه‌های پیکرۀ متنی زبان فارسی(بی‌جن‌خان و همکاران1384)به صورت دستی انتخاب شد. در برچسب‌گذاری پیکرۀ سازه، برخلاف پیکرۀ بی‌جن‌خان افعال پیشوندی، یک واژه در نظر گرفته شدند. یک سوم برچسب‌گذاری پیکره به صورت دستی انجام شد و در نهایت، روشی پیکره‌محور با دقت ۸۶ درصد، برای یکسان‌سازی واژه‌بندی متن ورودی به کار رفت وتجزیه‌گر دیگری آموزش داده شد که دقتش از سامانۀ برکلی بیشتر است و در حالت استفاده از برچسب‌های مقوله دستوری طلایی به کارایی ۸۰۶۶٪ درمعیارF دست پیدا کرده است. از دستاوردهای این پژوهش، تولید جعبه‌ابزار پیش‌پردازش «سازه» برای واژه‌بندی با دقت حدود 90 درصد است. رایگان‌سازی تجزیه‌گر تحت لایسنس پژوهشگاه فناوری‌های پیشرفته خواجه نصیر و با حمایت مالی طرح جویشگرمرکز تحقیقات مخابرات ایرانانجام شده است. به طور موازی، تجزیه‌گر دیگری در دانشگاه تهران با دسترسی همگانی تولید شد. به گفتۀ سخنران، رقابت  SPMRL[1]2013   در برکلی نشان داد که آنچه در این زمینه برای زبان فارسی داریم، با زبان‌های دیگر قابل مقایسه است. دکتر عاصی در بخش پرسش و پاسخ گفت: بلندنظری و دست بخشنده در علم، رمز پیشرفت علم است و ما در فرهنگمان آموزه‌ها و پیشینۀ بسیار در این زمینه داریم اما این بلندنظری را فراموش کرده‌ایم. رئیس نشست همچنین برابرنهاد «رایگان‌سپاری» را به جای «آزادسازی» پیشنهاد داد.

پس از استراحت و پذیرایی، نشست دوم به ریاست دکتر مصطفی عاصی تشکیل شد. در این نشست سه سخنرانی در زمینههای «تجزیۀ معنایی»، «سامانۀ اصلاح خطاهای دستوری زبانآموزان» و «سامانۀ استانداردساز و خطایاب متون علمی» توسط پژوهشگرانی در رشتههای مهندسی کامپیوتر، و فناوری اطلاعات و زبانشناسی ارائه شد.

نخست صغری لازمی مقاله‌ای مشترک با دکترحسین ابراهیمپورکومله و دکتر  ناصر نوروزي از دانشگاه کاشانبا عنوان تجزیۀ سطحی معنایی جملات فارسی به کمک درخت ساخت-سازه‌ای ارائه کرد. به گفتۀ سخنران، نخستین گام در تحلیل معنایی، تعیین نقش معنایی وابسته‌های محمول در جمله و هدف تحلیلگر معنایی، استخراج معنا توسط ماشین است. پیکرۀ نقش‌های معنایی می‌تواند در تولید سامانۀ پرسش و پاسخ به کار رود. بخشی از این سخنرانی به معرفی کارهای پیشین از جمله رضایی و همکاران، شمس‌فرد و موسوی، جعفری‌نژاد و شمس فرد و قالیباف و همکاران، برای تجزیه‌گرهای نحوی وابستگی و سازه‌ای سطحی اختصاص داشت. در این پژوهش. تجزیۀ سطحی معنایی با رویکرد مبتنی بر یادگیری ماشین و با استفاده از اطلاعات موجود در درخت ساخت سازه‌ای انجام شده است. در روش پیشنهادی، به ترتیب دریافت ورودی، ساخت درخت سازه‌ای( ابزار استیری و همکاران1391)، هرس درخت )خو و همکاران ۲۰۰۴، )،انجام می‌شود و در مرحلۀ بعد برای سازه‌های باقی‌مانده، با استفاده از اطلاعات استخراج شده از درخت و تعریف تعدادی ویژگی لغوی نحویمانند نوع گروه نحوی، مسیر درخت تجزیه، موقعیت نسبت به محمول، بردار ویژگی ساخته شده استو در پایان به کمک دسته‌بندهای چندتایی، نقش معنایی تعیین شده است.

در سخنرانی دیگر این نشست با عنوانارائه یک مدل بینظمی بیشینه براي اصلاح خطاي دستوري تطابق فعل و فاعل در زبان فارسی که حاصل همکاریسیده زینب مفتاح و دکتر هشام فیلی از گروه مهندسی برق و کامپیوتر دانشگاه تهران بود عنوان شد که سامانههای خطایاب دستوری میتوانند با تشخیص و اصلاح خطاهای متن، زبانآموزان را در در یادگیری قواعد زبان جدید یاری دهند. در جریان این پژوهش، «پیکرۀ خطاهای فارسی آموزان ۲» با جمعآوری برگههای نگارش زبانآموزان مؤسسه لغتنامه دهخدا و مرکز آموزش زبان فارسی دانشگاه بین المللی امام خمینی قزوین و برچسبزنی بیش از ۴۷۰۰ نوع خطابه صورت دستی ، ساخته شد ومشاهده شد که مطابقت فعل و فاعل. در این پژوهش روشی دادهمحور برای اصلاح خطای تطابق فعل و فاعل که جزء خطاهای پرتکرار در میان فارسی آموزان است، بادو طبقهبند جداگانه برای اصلاح شخص و شمار فعل روی حدود دو میلیون جمله صحیح فارسیارائه شده است. در بخش پرسش و پاسخ دکتر عاصی لزوم توجه به زبان اول در تحلیل خطای زبانآموزان را یاداور شد و بر همکاری پژوهشگران حوزۀ مهندسی کامپیوتر و زبانشناسان تاکید کرد.

در پایان این نشست، دکترملوك السادات حسینی بهشتیاز پژوهشگاه علوم و فناوري اطلاعات ایرانمقالهای با عنوانمعرفی سامانۀ استانداردساز و خطایاب متون علمی پژوهشگاه علوم و فناوري اطلاعات ایران ارائه داد. در این پژوهش که با همکاریافتخارسادات هاشمی دکترای زبانشناسی از دانشگاه تربیت مدرس انجام شده است، در آغاز به اهمیت استانداردسازی متون علمی اشاره شده و  بیان شد که گوناگونی سبکهای نگارشی که حاصل تنوع سلیقۀ نویسندگان است کار پردازش ماشینی زبان و ترجمۀ ماشینی را با چالش و دشواری مواجه کرده استحال آن که این تنوع در متون علمی گاه سبب از دست رفتن معنا و یا فحوای کلام میشود. این پژوهش با بررسی شیوههای نگارش به زبان فارسی اعم از نشانهگذاریها و قواعد نگارشی واژه، سامانۀ استانداردساز و خطایاب متون علمی فارسی پژوهشگاه علوم و فناوری اطلاعات ایران را نیز معرفی میکند و روش کار با آن را توضیح میدهد.این سامانه متون نوشتاری علمی و تخصصی فارسی به ویژه چکیدههای گنچ ایرانداک را به لحاظ صحت نگارشی و املایی بررسی میکند و به صورت یکدست و استاندارد در میآورد.

پس از زمان نمازوناهار، نشستپایانی به ریاست دکتر  ملوك السادات حسینی بهشتی با سه سخنرانی در حوزههای «نظرکاوی خودکار»، «خلاصهسازی خودکار» و «تعیین موجودیتهای نامدار با استفاده از جمعسپاری» برگزار شد و پژوهشگرانی از رشتههای مهندسی کامپیوتر و فناوری اطلاعات در آن به سخنرانی پرداختند. دکتر بهشتی همکاری پژوهشگران در سه حوزۀ رایانه، فناوری اطلاعات و زبانشناسی را برای انجام پژوهش در زمینۀ زبانشناسی رایانشی ضروری دانست.

نخست امیرمحمودمیر کارشناس ارشد هوش مصنوعی از دانشگاه آزاداسلامی واحد تهران شمال، مقاله‌ای با عنوان «نظرکاوي خودکار نقدفیلم‌ها با رویکرد مقاوم‌سازي ماشین بردار پشتیبان» ارائه کرد. در این پژوهش که با همکاری دکتر جلال الدین نصیري عضو هیئت علمی پژوهشگاه علوم و فناوری اطلاعات ایران، انجام شده است، برای نظرکاوی opinion mining، برخلاف تحقیقات پیشین که  روش‌های خلاصه‌سازی را به کار برده‌اند.  ماشین بردار پشتیبان در برابر دادههای نویزی مقاومسازی شدهاست. مجموعه داده از وبگاه (سایت)IMDbجمع آوری شده و شامل ۲۰۰۰ نقد فیلم است. وزن هر کلمۀ نمونه با روش نزدیکترین همسایه برای مقابله با دادههای نویزی محاسبه و در فرمول دستهبند ماشین بردار پشتیبان دوقلو لحاظ شده است. روش پیشنهادی نسبت به پژوهشهای پیشین و سایر روشهای یادگیری، دقت بهتری در تشخیص مثبت یا منفی بودن نقد فیلمها دارد. در بخش پرسش و پاسخ، نقدی بر حذف علائم نگارشی متنها پیش از پردازش مطرح شد.

سخنرانی دوم این نشست با عنوان سامانۀ خودکار خلاصهسازي با استفاده از روش تعبیۀ متن، حاصل پژوهش محمود کهنسال و دکتر هشام فیلیاز گروه برق و کامپیوتر دانشگاهتهران و سعید فرضی از گروه کامپیوتر دانشگاه خواجه نصیرالدین طوسی بود. در این پژوهش یک سامانۀ خلاصه‌ساز استخراجی تک‌سندی معرفی شده است که با استفاده از روش‌های تعبیۀ متن، متن ورودی را به برداری از اعداد حقیقی تبدیل می‌کند و سپس جمله‌های برتر را برای ایجاد خلاصه برمی‌گزیند. این روند  بدون ناظر و بدون استفاده از ویژگی‌های متن انجام می‌شود. برای ارزیابی، فراخوانی سامانه بر روی پیکرۀ استاندارد پاسخ با کارایی سامانه‌های ایجاز و فارسی‌سامبه عنوان دو سامانۀ موفق بر روی آن مقایسه شد که نتایج نشان دهندۀ افزایش فراخوانی حداقل دو در صدی سامانۀ پیشنهادی بر اساس معیارROUGEاست

سخنرانی پایانی پژوهشی با عنوان  شناسایی موجودیتهاي اسمی در شبکههاي اجتماعی با رویکرد جمعسپاري بود. شناسایی موجودیتهای نامدار به تشخیص مجموعهای از اسامی در متن (مانند: افراد، مکانها و سازمانها) و تعیین نوع آنها میپردازد. به گفتۀ سخنران، این ارائه با هدف معرفی و آزمودن رویکرد جمعسپاری درشناسایی موجودیتهای نامداردر شبکههای اجتماعی انجام شد. این پژوهش حاصل کاری گروهی از شنآي بهراد کارشناس ارشد فناوری اطلاعات، دکتر مصطفی صالحی و دکتر هادي ویسیاستادیاراندانشکدۀ علوم و فنون نوین دانشگاه تهران به همراه پگاه جندقی کارشناس فناوری اطلاعات از دانشگاه صنعتی شریف و وحید رنجبر دانشجوی دکتری فناوری اطلاعات از دانشگاه تهران که ارائۀ این مقاله را به عهده داشت، بود. پیشنهاد پژوهشگران برای حل مشکل عدم دقت سیستمهای شناسایی موجودیتهای نامدار مبتنی بر زبان معیار در شناسایی موجودیتهای نامدار در متون شبکههای اجتماعی، همچنین صرفهجویی در زمان و هزینه، استفاده از  رویکرد جدید جمعسپاری به کمک رسانه‌های فراگیر اجتماعی و بهرهگیری از هوش جمعی گروه بزرگی از افراد عادی است. این پژوهش نشان داد با جذب ۶۶ کاربر با تحصیلات کارشناسی ارشد و دکتری از طریق کانال تلگرام و ارزیابی پاسخ‌ آنها با الگوریتم امید بیشینه برای جلوگیری از تقلب، و بهره‌گیری از هوش انسانی در این روش، دقت میانگین به دست آمده ۴ درصد بیش از برچسب‌زنی ماشینی پیشین بود.

به گفتۀ سخنران در بخش پرسش و پاسخ،این روش مستقل از زبان است اما برای این پژوهش، مجموعه دادۀ انگلیسی که در دسترس بود استفاده شد. او در پاسخ به پرسش دوم حاضران، گفت این بستر ابتدا با برنامه‌ای تحت وب ارائه شد که مورد استقبال قرار نگرفت اما روباتی تحت تلگرام بر این اساس آماده شده است. گوگل نیز از تایپ توسط کابر برای دیجیتال کردن متن‌های تصویری استفاده کرده است. اما مکنیکال تُرک از آمازون موفق‌ترین بستر جمع‌سپاری در حوزه فعالیت‌های خرد است اما در این پژوهش از مدل شبیه‌سازی شده آن در توئیتراستفاده شد.

در پایان این همایش ملی یکروزه، دکتر عظیمی فرد، معاون اجرایی انجمن زبان‌شناسی ایران با اهدای لوح تقدیر از دست‌‌اندرکاران همایش تشکر کرد.

روابط عمومی انجمن زبانشناسی ایران

 
 
 
: منبع
 
     
 
 
 
     
 
 
جستجو در وبگاه
 
   
 
 
 
دسترسى سريع
 
 
   
 
 
 
 
فهرست پستی انجمن
 
 
     
 
براى دريافت اخبار انجمن زبان شناسى ايران پست الكترونيك خود را وارد كنيد و به فهرست پستى انجمن بپيونديد.
 
     
 
 
 
 
 
 
تعداد بازديدكنندگان : 3791736
 
 
 
كليه حقوق اين وبگاه متعلق به انجمن زبان شناسى ايران مى باشد.
استفاده از مطالب وبگاه با ذكر منبع بلامانع است.