چرا چتبات عمومی فارسی زبان نداریم؟
شکاف زبانی هوش مصنوعی
با این حال، برای فارسیزبانها هنوز یک چتبات فارسی قدرتمند مشابه نمونههای انگلیسی، چینی و یا عربی وجود ندارد. کارشناسها و فعالان دلایل متعددی برای عقبماندگی چتباتهای فارسی مطرح میکنند. کمبود داده و زیرساخت، چالشهای تامین مالی و سرمایهگذاری، ماهیت پیچیده زبان فارسی و یا نبود استانداردهای ارزیابی و آزمایش فارسی از جمله این موارد است.
دلایل عقبماندگی
در عصری که ابزارهای هوش مصنوعی عضو جداییناپذیری از زندگی انسانها شده، چتباتها عمدتا بر زبان انگلیسی متمرکز هستند و همین موضوع فارسیزبانها را در تعامل با هوش مصنوعی با چالشهایی همچون محدودیت در درک فرهنگی، ناهماهنگی زبانی و خطاهای معنایی مواجه کرده است. این در حالی است که چتباتهای بومی به فارسیزبانها کمک میکند تا بتوانند خدمات دیجیتال از دولت الکترونیک تا آموزش، سلامت، بانکداری و پشتیبانی کسبوکارها را با دقت بیشتر، زبان طبیعیتر و فهم عمیقتری از فرهنگ کشورشان دریافت کنند.
همچنین، اهمیت توسعه چتباتها فقط به رفع نیازهای فناورانه و سختافزاری محدود نمیشود؛ بلکه این مهم میتواند یک ضرورت اجتماعی، فرهنگی و اقتصادی برای آینده دیجیتال فارسیزبانها باشد. از این جهت که چتباتهای فارسی میتوانند موانع زبانی را برایمیلیونها کاربر رفع کنند، دسترسی عادلانهتری به فناوری ایجاد کنند و حتی به حفظ و گسترش زبان و هویت فارسی در فضای دیجیتال در میان کشورهای فارسی زبان مانند افغانستان و تاجیکستان کمک کنند. علاوه بر این، چتباتهای فارسی میتوانند نقش مهمی در کاهش هزینه سازمانها، بهبود کیفیت خدمات و افزایش بهرهوری ایفا کنند.
با این حال، بررسیها نشان میدهد که بخش بزرگی از مدلهای مولد هوش مصنوعی عمدتا با داده انگلیسی (و تا حدی چینی) آموزش داده شدهاند. همچنین در سال ۲۰۲۳ در گزارش «Multilingual Trends» گفته شده که اکثریت برندها چتباتشان را فقط به زبان انگلیسی ارائه میدهند. این به معنی آن است که خیلی از چتباتهای تجاری هم در سطح خدمات مشتری هنوز انگلیسیمحور هستند و چتباتهای چندزبانه کمتر رایجاند.
از سوی دیگر، با توجه به اینکه درصد قابلتوجهی از محتوا در اینترنت هم به زبان انگلیسی است، مدلهای هوش مصنوعی هم عمدتا به زبان انگلیسی آموزش دیدهاند. کارشناسها از این موضوع به دلیل شکاف زبانی هوش مصنوعی انتقاد میکنند.
با این حال، پنج عامل عمده در عقبماندگی چتباتهای فارسی نسبت به انگلیسی، چینی و عربی نقش دارند. اولین عامل، کمبود داده و کممنبع بودن زبان فارسی است. زبانها برای توسعه مدلهای هوش مصنوعی نیازمند حجم عظیمی از دادههای متنی و گفتوگویی هستند. زبان انگلیسی بیش از یک تریلیون توکن داده ساختاریافته دارد. زبان چینی نیز به لطف اکوسیستم اینترنت داخلی، شبکههای اجتماعی و تولید محتوای عظیم در پلتفرمهایی مانند Weibo و WeChat، از حجم داده بسیار برخوردار است.
در مقابل، دادههای بسیار کمی از زبان فارسی در دسترس است و بخش بزرگی از محتوای فارسی در شبکههای اجتماعی قابل استفاده مستقیم برای آموزش مدل نیست. علاوه بر این، ماهیت پیچیده زبان فارسی هم در عقب ماندن تولید چتبات عمومی فارسی زبان تاثیرگذار است. صرف و نحو انعطافپذیر، گستره وسیع زبان نوشتاری رسمی در مقابل گفتار محاورهای، تنوع گویشی و فرهنگی از جمله این ویژگیها هستند.
این موضوع از این جهت تاثیرگذار است که مدلهای پیشرفته جهانی هنگام مواجهه با تعارف، پاسخهای نامناسب و گاه متناقض تولید میکنند. این یعنی چتبات فارسی باید نه تنها زبان، بلکه فرهنگ گفتار ایرانی را بیاموزد. چیزی که با داده موجود فعلی تقریبا غیرممکن است. ضعفهای زیرساختی و چالشهای اقتصادی نیز دو عامل کلیدی در عدم موفقیت توسعه چتباتهای فارسیزبان است.
آموزش مدلهای هوش مصنوعی به دهها کارت گرافیک پیشرفته، چندینمیلیون دلار هزینه پردازش و دسترسی به مراکز داده پایدار نیاز دارد. کشور ما به دلایل تحریمها و بحران انرژی به این مولفههای دسترسی ندارد، اما در مقابل آمریکا، چین و کشورهای حوزه خلیج فارس سرمایههایمیلیارددلاری برای این کار اختصاص دادهاند.
نمونه عربی Jais توسط دولت امارات و Cerebras با ابررایانههای عظیم آموزش داده شد. همچنین شرکتهای بینالمللی به دلیل بازار محدود فارسیزبانها و چالشهای مالی انگیزه اقتصادی کافی برای سرمایهگذاری سنگین روی بازار کوچکتر ندارند. در نتیجه مدلهای چندزبانه جهانی معمولا فارسی را با کیفیت بسیار پایینتر پشتیبانی میکنند.
نمونههای موفق
هر چند نمونه موفق، قدرتمند و عمومی از چتباتهای فارسیزبان به دلایل ذکر شده وجود ندارد، اما چتباتهای چینی و عربی توانستهاند در این زمینه عملکرد خوبی داشته باشند. بهعنوان مثال، چتباتهای چینی از نظر کیفیت بسیار نزدیک به مدلهای انگلیسی هستند. دیپسیک، اِرنیبات، کوئن و بایچوان در سطح جهانی قابل رقابت با نمونههای انگلیسیزبان هستند.
دلایل آن هم در سرمایهگذاری دههامیلیارد دلاری، تولید داده عظیم توسط پلتفرمهای داخلی اینترنت و دسترسی شرکتهای چینی به ابررایانههای عظیم است. از طرف دیگر، نمونه چتباتهای عربی هم به دلیل سرمایهگذاری بزرگ و دادههای زیاد توانستهاند موفق عمل کنند؛ زیرا، مدل Jais (ساخت امارات) یکی از قویترین LLMهای غیرانگلیسی جهان است.
کشورهای حاشیه خلیج فارس پروژههای نسل جدید LLM مثل Falcon، Noor و Jais-۳۰B را توسعه دادهاند. در بسیاری از محصولات چتجیپیتی، جمنای، کلود نسخههای تقویت شده عربی وجود دارد.
در این وضعیت، کارشناسها برای توسعه چتباتهای فارسی پیشنهادهایی دارند. توسعه کورپوسهای بزرگ (مجموعه متنهای منسجم و ساختار یافته) و پاکسازی شده فارسی، ایجاد بنچمارکهای کامل فارسی، توسعه مدلهای متنباز فارسی، سرمایهگذاری مشترک دولتی و خصوصی، تقویت همکاریهای منطقهای و توجه به ابعاد فرهنگی و اجتماعی از جمله این پیشنهادهاست. از نظر آنها، برای توسعه یک مدل زبانی خوب، حداقل ۲۰۰ تا ۳۰۰میلیارد توکن فارسی لازم است. نیاز به بنچمارکهایی در گفتوگوی چندمرحلهای، منطق و استدلال، سواد رسانهای، ایمنی و محتوای حساس و فرهنگ ایرانی وجود دارد. زبان فارسی نیز نیازمند مدلهای متنباز ۷B، ۱۳B، ۳۰B، توکنایزرهای اختصاصی فارسی و ابزارهای embedding بومی است.
همچنین هر چتبات فارسی باید با دادههای فرهنگی، مدل رفتاری بر اساس سنتهای ارتباطی، کنترل سوگیری با استفاده از PBBQ(معیار سنجش سوگیری فارسی برای پاسخ به سوالات)آموزش داده شود. آرین اقبال، برنامهنویس و کارشناس هم در گفتوگو با «دنیای اقتصاد» در اینباره مطرح کرد: « یکی از دلایل اصلی عدم توسعه چتباتهای فارسیزبان، فقط ساختار خاص زبان فارسی نیست. اگرچه ابزارها و کتابخانههایی مانند مصدریابها وجود دارند، اما دیتاستهای آماده و باکیفیت برای آموزش مدلهای بزرگ بسیار محدودند و اکثر آنها سالها پیش جمعآوری شدهاند.
برخی دانشگاهها و افراد مستقل تلاش کردهاند کورپوسهایی ایجاد کنند، اما حجم و کیفیت داده هنوز برای تولید مدلهای پیشرفته کافی نیست.» همچنین از نظر او، انگیزه شرکتهای بزرگ بینالمللی برای توسعه مدلهای فارسی کم است؛ به دلیل فاصله و دورافتادگی بازار ما، این شرکتها ترجیح میدهند روی زبانهای پرجمعیت و اقتصادیتر تمرکز کنند و بسیاری از مدلهای جهانی فارسی را به سختی میفهمند.
علاوه بر این، به باور این کارشناس، کیفیت محتوای وب فارسی برای آموزش تخصصی محدود است؛ محتوای موجود اغلب بازاریابی یا عمومی است و مدلهای زبان فارسی گاهی پاسخهایی تولید میکنند که دقیق یا قابل اعتماد نیست. بنابراین مشکل اصلی نه در درک زبان فارسی، بلکه در داده، انگیزه شرکتها و کیفیت محتوای آموزشی است.