আমরা শব্দ দেখি, AI দেখে Token: ভাষা বোঝার ভিতরের গল্প (AI 360° - পর্ব ০৬)
AI কি বাংলা, ইংরেজি বা অন্য কোনো ভাষা জানে?
আমরা মানুষ শব্দ দেখি, বাক্য পড়ি এবং অর্থ বুঝি। আপনি যখন এই লেখাটি পড়ছেন, তখন আপনার চোখ অক্ষরগুলো দেখছে, মস্তিষ্ক শব্দগুলো চিনছে এবং তারপর পুরো বাক্যের অর্থ বুঝছে। কিন্তু AI-এর ক্ষেত্রে বিষয়টি সম্পূর্ণ ভিন্ন। AI বাংলা জানে না, AI ইংরেজিও জানে না। আসলে AI কোনো ভাষাই জানে না, AI শুধু সংখ্যা বোঝে। তাহলে প্রশ্ন হলো—আপনি যখন ChatGPT-কে বাংলায় লিখেন, তখন সে কীভাবে আপনার কথা বুঝতে পারে? এর উত্তর লুকিয়ে আছে একটি ছোট কিন্তু অত্যন্ত গুরুত্বপূর্ণ ধারণার মধ্যে। সেই ধারণার নাম Token।
Token কী?
সহজ ভাষায় বলতে গেলে—"Token হলো ভাষার সবচেয়ে ছোট অর্থবহ অংশ, যেটিকে AI আলাদা করে চিনতে এবং প্রক্রিয়াজাত করতে পারে"। আমরা মানুষ একটি বাক্যকে কয়েকটি শব্দ হিসেবে দেখি আর AI একটি বাক্যকে কয়েকটি Token হিসেবে দেখে। একটি সহজ উদাহরণ দেয়া যাক। ধরুন, আপনি লিখলেন— "আমি বাংলাদেশকে ভালোবাসি।" মানুষ এটিকে একটি পূর্ণ বাক্য হিসেবে দেখে। কিন্তু AI এটিকে ভেঙে কয়েকটি Token-এ ভাগ করতে পারে। যেমন—'আমি', 'বাংলাদেশ', 'কে', 'ভালো', 'বাসি'। এগুলো কেবল উদাহরণ। বাস্তবে কোন শব্দ কতটি Token হবে, তা ব্যবহৃত AI মডেলের উপর নির্ভর করে।
মূলত Token হলো ভাষার এমন ক্ষুদ্র অংশ, যেটিকে AI আলাদা করে শনাক্ত ও বিশ্লেষণ করতে পারে। মানুষ যেমন শব্দ ও বাক্যের অর্থ বোঝে, AI তেমনি ভাষাকে ছোট ছোট অংশে ভেঙে সংখ্যায় রূপান্তর করে প্রক্রিয়াজাত করে। AI-এর পড়া, বোঝা, মনে রাখা এবং উত্তর দেওয়ার ভিত্তি হলো এই Token।
AI কেন Token ব্যবহার করে?
কারণ AI সরাসরি ভাষা নিয়ে কাজ করতে পারে না। কম্পিউটার মূলত সংখ্যা বোঝে। তাই AI প্রথমে ভাষাকে Token-এ ভাগ করে। তারপর প্রতিটি Token-কে একটি সংখ্যায় রূপান্তর করে। এরপর সেই সংখ্যাগুলো বিশ্লেষণ করে। অর্থাৎ—"বাক্য → Token → সংখ্যা → বিশ্লেষণ → উত্তর" এই পথেই AI কাজ করে।
একটি উদাহরণ দিয়ে ব্যাখ্যা করি। ধরুন, আপনার সামনে একটি বিশাল লাইব্রেরি আছে। আপনি যদি পুরো লাইব্রেরি একবারে পড়তে চান, তাহলে কাজটি প্রায় অসম্ভব হবে। তাই আপনি বইগুলোকে অধ্যায়ে ভাগ করেন। অধ্যায়গুলোকে পৃষ্ঠায় ভাগ করেন। পৃষ্ঠাগুলোকে অনুচ্ছেদে ভাগ করেন। AI-ও একই কাজ করে। সে পুরো ভাষাকে ছোট ছোট Token-এ ভাগ করে নেয়, যাতে সেগুলো নিয়ে কাজ করা সহজ হয়।
Token কি সবসময় একটি শব্দ?
না। এই ব্যাপারটা পরিস্কারভাবে বুঝে নেয়া একটি গুরুত্বপূর্ণ বিষয়। একটি Token সবসময় একটি পূর্ণ শব্দ নাও হতে পারে। কখনও একটি শব্দ কয়েকটি Token হতে পারে। আবার কখনও একটি ছোট শব্দই একটি Token হতে পারে। উদাহরণস্বরূপ—"Artificial Intelligence", এটি দুইটি শব্দ হলেও একাধিক Token-এ বিভক্ত হতে পারে। আবার কোনো দীর্ঘ শব্দ আরও বেশি Token তৈরি করতে পারে।
AI এর জন্য Token কেন এত গুরুত্বপূর্ণ?
কারণ AI আসলে Token নিয়েই কাজ করে। আপনি যা লিখছেন—তা Token-এ রূপান্তরিত হচ্ছে। AI যা উত্তর দিচ্ছে—সেটিও Token আকারে তৈরি হচ্ছে। অর্থাৎ ChatGPT শব্দে নয়, Token-এ চিন্তা করে।
Context Window এবং তার সাথে Token-এর সম্পর্ক
ধরুন, আপনি একজন মানুষকে একটি বই পড়তে দিলেন। কিন্তু তাকে বললেন—একসঙ্গে মাত্র ২০ পৃষ্ঠা মনে রাখতে পারবে। তাহলে সে পুরো বইয়ের সবকিছু একসঙ্গে মনে রাখতে পারবে না। AI-এর ক্ষেত্রেও একই বিষয় ঘটে। AI একবারে যত Token মনে রাখতে পারে, সেই সীমাকে বলা হয়—Context Window। Context Window যত বড় হবে, AI তত দীর্ঘ আলোচনা মনে রাখতে পারবে।
Token বেশি হলে কী হয়?
Token বেশি হলে কয়েকটি বিষয় ঘটেঃ
বেশি তথ্য বিশ্লেষণ করা যায়, ফলে বড় ডকুমেন্ট পড়া সম্ভব হয়। দীর্ঘ কথোপকথন চালানো যায়, তাই AI আগের আলোচনা মনে রাখতে পারে। এর ফলে বেশি কম্পিউটিং শক্তি প্রয়োজন হয়, কারণ বেশি Token মানে বেশি কাজ।
কেন বাংলা ও ইংরেজির Token সংখ্যা আলাদা হতে পারে?
এটি একটি মজার বিষয়। সব ভাষা একইভাবে Token-এ বিভক্ত হয় না। একই অর্থের একটি বাক্য—বাংলায় হয়তো বেশি Token ব্যবহার করতে পারে, আবার ইংরেজিতে কম Token ব্যবহার করতে পারে। অথবা উল্টো ঘটনাও ঘটতে পারে। কারণ Token নির্ভর করে ভাষার গঠন, শব্দের দৈর্ঘ্য এবং মডেলের Tokenization পদ্ধতির উপর।
Token-এর সাথে খরচের সম্পর্ক
বেশিরভাগ AI কোম্পানি তাদের সেবার মূল্য নির্ধারণ করে Token-এর ভিত্তিতে। কারণ AI-এর জন্য আসল কাজ হলো Token প্রক্রিয়াজাত করা। যত বেশি Token ব্যবহার হবে—তত বেশি কম্পিউটিং শক্তি লাগবে, ফলে খরচও বাড়বে।
সবশেষে একটি গুরুত্বপূর্ণ কথা বলি। সাধারণ ব্যবহারকারীর জন্য Token নিয়ে গভীর গণিত জানার প্রয়োজন নেই। তবে AI-এর শক্তি ও সীমাবদ্ধতা বুঝতে Token ধারণা জানা গুরুত্বপূর্ণ। আমরা মানুষ ভাষাকে অর্থ হিসেবে দেখি, অপরদিকে AI ভাষাকে সংখ্যা হিসেবে দেখে। এই কারণেই AI কখনও কখনও মানুষের মতো মনে হলেও বাস্তবে সে ভাষার গাণিতিক বিশ্লেষণ করছে, এটি অনুভব করছে না। এটি শুধু Token-এর মধ্যে সম্পর্ক খুঁজে বের করছে। আর তাই যারা AI নিয়ে নিয়মিত কাজ করবেন, তাদের জন্য Token একটি মৌলিক ধারণা।

No comments