شکاف زبانی هوش مصنوعی

با این حال، برای فارسی‌زبان‌ها هنوز یک چت‌بات فارسی قدرتمند مشابه نمونه‌های انگلیسی، چینی و یا عربی وجود ندارد. کارشناس‌ها و فعالان دلایل متعددی برای عقب‌ماندگی چت‌بات‌های فارسی مطرح می‌کنند. کمبود داده و زیرساخت، چالش‌های تامین مالی و سرمایه‌گذاری، ماهیت پیچیده زبان فارسی و یا نبود استانداردهای ارزیابی و آزمایش فارسی از جمله این موارد است.

 دلایل عقب‌ماندگی

در عصری که ابزارهای هوش مصنوعی عضو جدایی‌ناپذیری از زندگی انسان‌ها شده، چت‌بات‌ها عمدتا بر زبان‌ انگلیسی متمرکز هستند و همین موضوع فارسی‌زبان‌ها را در تعامل با هوش مصنوعی با چالش‌هایی همچون محدودیت در درک فرهنگی، ناهماهنگی زبانی و خطاهای معنایی مواجه کرده است. این در حالی است که چت‌بات‌های بومی به فارسی‌زبان‌ها کمک می‌کند تا بتوانند خدمات دیجیتال از دولت الکترونیک تا آموزش، سلامت، بانکداری و پشتیبانی کسب‌وکارها را با دقت بیشتر، زبان طبیعی‌تر و فهم عمیق‌تری از فرهنگ کشورشان دریافت کنند.

همچنین، اهمیت توسعه چت‌بات‌ها فقط به رفع نیازهای فناورانه و سخت‌افزاری محدود نمی‌شود؛ بلکه این مهم می‌تواند یک ضرورت اجتماعی، فرهنگی و اقتصادی برای آینده دیجیتال فارسی‌زبان‌ها باشد. از این جهت که چت‌بات‌های فارسی می‌توانند   موانع زبانی را برای‌میلیون‌ها کاربر رفع کنند، دسترسی عادلانه‌تری به فناوری ایجاد کنند و حتی به حفظ و گسترش زبان و هویت فارسی در فضای دیجیتال در میان کشورهای فارسی زبان مانند افغانستان و تاجیکستان کمک کنند. علاوه بر این، چت‌بات‌های فارسی می‌توانند نقش مهمی در کاهش هزینه سازمان‌ها، بهبود کیفیت خدمات و افزایش بهره‌وری‌ ایفا کنند. 

با این حال، بررسی‌ها نشان می‌دهد که بخش بزرگی از مدل‌های مولد هوش مصنوعی عمدتا با داده‌ انگلیسی (و تا حدی چینی) آموزش داده شده‌اند. همچنین در سال ۲۰۲۳ در گزارش «Multilingual Trends» گفته شده که اکثریت برندها چت‌بات‌شان را فقط به زبان انگلیسی ارائه می‌دهند. این به معنی آن است که خیلی از چت‌بات‌های تجاری هم در سطح خدمات مشتری هنوز انگلیسی‌محور‌ هستند و چت‌بات‌های چندزبانه کمتر رایج‌اند.

از سوی دیگر، با توجه به اینکه درصد قابل‌توجهی از محتوا در اینترنت هم به زبان انگلیسی است، مدل‌های هوش مصنوعی هم عمدتا به زبان انگلیسی آموزش دیده‌اند. کارشناس‌ها از این موضوع به دلیل شکاف زبانی هوش مصنوعی انتقاد می‌کنند.

 با این حال، پنج عامل عمده در عقب‌ماندگی چت‌بات‌های فارسی نسبت به انگلیسی، چینی و عربی نقش دارند. اولین عامل، کمبود داده و کم‌منبع بودن زبان فارسی است. زبان‌ها برای توسعه مدل‌های هوش مصنوعی نیازمند حجم عظیمی از داده‌های متنی و گفت‌وگویی هستند. زبان انگلیسی بیش از یک تریلیون توکن داده ساختاریافته دارد. زبان چینی نیز به لطف اکوسیستم اینترنت داخلی، شبکه‌های اجتماعی و تولید محتوای عظیم در پلتفرم‌هایی مانند Weibo و WeChat، از حجم داده بسیار برخوردار است.

در مقابل، داده‌های بسیار کمی از زبان فارسی در دسترس است و بخش بزرگی از محتوای فارسی در شبکه‌های اجتماعی قابل استفاده مستقیم برای آموزش مدل نیست. علاوه بر این، ماهیت پیچیده زبان فارسی هم در عقب ماندن تولید چت‌بات عمومی فارسی زبان تاثیرگذار است. صرف و نحو انعطاف‌پذیر، گستره وسیع زبان نوشتاری رسمی در مقابل گفتار محاوره‌ای، تنوع گویشی و فرهنگی از جمله این ویژگی‌ها هستند.

این موضوع از این جهت تاثیرگذار است که مدل‌های پیشرفته جهانی هنگام مواجهه با تعارف، پاسخ‌های نامناسب و گاه متناقض تولید می‌کنند. این یعنی چت‌بات فارسی باید نه تنها زبان، بلکه فرهنگ گفتار ایرانی را بیاموزد. چیزی که با داده موجود فعلی تقریبا غیرممکن است. ضعف‌های زیرساختی و چالش‌های اقتصادی نیز دو عامل کلیدی در عدم موفقیت توسعه چت‌بات‌های فارسی‌زبان است. 

آموزش مدل‌های هوش مصنوعی به ده‌ها کارت گرافیک پیشرفته، چندین‌میلیون دلار هزینه پردازش و دسترسی به مراکز داده پایدار نیاز دارد. کشور ما به دلایل تحریم‌ها و بحران انرژی به این مولفه‌های دسترسی ندارد، اما در مقابل آمریکا، چین و کشورهای حوزه خلیج فارس سرمایه‌های‌میلیارددلاری برای این کار اختصاص داده‌اند.

نمونه عربی Jais توسط دولت امارات و Cerebras با ابررایانه‌های عظیم آموزش داده شد. همچنین شرکت‌های بین‌المللی به دلیل بازار محدود فارسی‌زبان‌ها و چالش‌های مالی انگیزه اقتصادی کافی برای سرمایه‌گذاری سنگین روی بازار کوچک‌تر ندارند. در نتیجه مدل‌های چندزبانه جهانی معمولا فارسی را با کیفیت بسیار پایین‌تر پشتیبانی می‌کنند.

 نمونه‌های موفق

هر چند نمونه موفق، قدرتمند و عمومی از چت‌بات‌های فارسی‌زبان به دلایل ذکر شده وجود ندارد، اما چت‌بات‌های چینی و عربی توانسته‌اند در این زمینه عملکرد خوبی داشته باشند. به‌عنوان مثال، چت‌بات‌های چینی از نظر کیفیت بسیار نزدیک به مدل‌های انگلیسی هستند. دیپ‌سیک، اِرنی‌بات، کوئن و بای‌چوان در سطح جهانی قابل رقابت با نمونه‌های انگلیسی‌زبان هستند.

دلایل آن هم در سرمایه‌گذاری ده‌ها‌میلیارد دلاری، تولید داده عظیم توسط پلتفرم‌های داخلی اینترنت و دسترسی شرکت‌های چینی به ابررایانه‌های عظیم است. از طرف دیگر، نمونه چت‌بات‌‌های عربی هم به دلیل سرمایه‌گذاری بزرگ و داده‌‌های زیاد توانسته‌اند موفق عمل کنند؛ زیرا، مدل Jais (ساخت امارات) یکی از قوی‌ترین LLMهای غیرانگلیسی جهان است.

کشورهای حاشیه خلیج فارس پروژه‌های نسل جدید LLM مثل Falcon، Noor و Jais-۳۰B را توسعه داده‌اند. در بسیاری از محصولات چت‌جی‌پی‌تی، جمنای، کلود نسخه‌های تقویت شده عربی وجود دارد.

در این وضعیت، کارشناس‌ها برای توسعه چت‌بات‌های فارسی پیشنهادهایی دارند. توسعه کورپوس‌های بزرگ (مجموعه متن‌های منسجم و ساختار یافته) و پاک‌سازی شده فارسی، ایجاد بنچمارک‌های کامل فارسی، توسعه مدل‌های متن‌‌باز فارسی، سرمایه‌گذاری مشترک دولتی و خصوصی، تقویت همکاری‌های منطقه‌ای و توجه به ابعاد فرهنگی و اجتماعی از جمله این پیشنهادهاست. از نظر آن‌ها، برای توسعه یک مدل زبانی خوب، حداقل ۲۰۰ تا ۳۰۰‌میلیارد توکن فارسی لازم است. نیاز به بنچمارک‌هایی در گفت‌وگوی چندمرحله‌ای، منطق و استدلال، سواد رسانه‌ای، ایمنی و محتوای حساس و فرهنگ ایرانی وجود دارد. زبان فارسی نیز نیازمند مدل‌های متن‌باز ۷B، ۱۳B، ۳۰B، توکنایزرهای اختصاصی فارسی و ابزارهای embedding بومی است.

همچنین هر چت‌بات فارسی باید با داده‌های فرهنگی، مدل رفتاری بر اساس سنت‌های ارتباطی، کنترل سوگیری با استفاده از PBBQ(معیار سنجش سوگیری فارسی برای پاسخ به سوالات)آموزش داده شود. آرین اقبال، برنامه‌نویس و کارشناس هم در گفت‌وگو با «دنیای اقتصاد» در این‌باره مطرح کرد: « یکی از دلایل اصلی عدم توسعه چت‌بات‌های فارسی‌زبان، فقط ساختار خاص زبان فارسی نیست. اگرچه ابزارها و کتابخانه‌هایی مانند مصدریاب‌ها وجود دارند، اما دیتاست‌های آماده و باکیفیت برای آموزش مدل‌های بزرگ بسیار محدودند و اکثر آنها سال‌ها پیش جمع‌آوری شده‌اند. 

برخی دانشگاه‌ها و افراد مستقل تلاش کرده‌اند کورپوس‌هایی ایجاد کنند، اما حجم و کیفیت داده هنوز برای تولید مدل‌های پیشرفته کافی نیست.» همچنین از نظر او، انگیزه شرکت‌های بزرگ بین‌المللی برای توسعه مدل‌های فارسی کم است؛ به دلیل فاصله و دورافتادگی بازار ما، این شرکت‌ها ترجیح می‌دهند روی زبان‌های پرجمعیت و اقتصادی‌تر تمرکز کنند و بسیاری از مدل‌های جهانی فارسی را به سختی می‌فهمند.

علاوه بر این، به باور این کارشناس، کیفیت محتوای وب فارسی برای آموزش تخصصی محدود است؛ محتوای موجود اغلب بازاریابی یا عمومی است و مدل‌های زبان فارسی گاهی پاسخ‌هایی تولید می‌کنند که دقیق یا قابل اعتماد نیست. بنابراین مشکل اصلی نه در درک زبان فارسی، بلکه در داده، انگیزه شرکت‌ها و کیفیت محتوای آموزشی است.