به گزارش واحد روابط عمومی سازمان ملی کارآفرینی ایران:

این مطلب، نخستین مقاله از مجموعه‌ی ترجمه‌های اختصاصی ویژه‌نامه‌ی «هوش مصنوعی ۲۰۲۵» مجله‌ی تایم (Time Magazine: Artificial Intelligence 2025 Special Edition) است.
این بخش با عنوان «A Glimpse into How LLMs Think» نوشته‌ی Billy Perrigo، در این ویژه‌نامه منتشر شده و به بررسی تازه‌ترین یافته‌های شرکت Anthropic درباره‌ی نحوه‌ی تفکر مدل‌های زبانی بزرگ می‌پردازد.
در این مجموعه، طی چند بخش پیاپی، ترجمه‌ی کامل مقالات ویژه‌نامه‌ی «هوش مصنوعی ۲۰۲۵» مجله‌ی تایم منتشر خواهد شد؛ مجموعه‌ای که تازه‌ترین پژوهش‌ها و دستاوردهای علمی جهان را در زمینه‌ی درک سازوکار درونی مدل‌های هوش مصنوعی و تبیین منطق «تفکر» آن‌ها بررسی می‌کند.
این بخش به معرفی مبانی نظری و نخستین آزمایش‌های علمی اختصاص دارد که تصویری تازه و علمی از آنچه در مغز مصنوعی می‌گذرد، ارائه می‌دهد.

نویسنده: Billy Perrigo
منبع: مجله‌ی تایم ویژه‌نامه هوش مصنوعی ۲۰۲۵
ترجمه: واحد روابط عمومی سازمان ملی کارآفرینی ایران

مقدمه:
دانشمندان در آغاز، انتظار چندانی نداشتند وقتی از مدل هوش مصنوعی خود خواستند یک شعر را کامل کند. جمله‌ی آغازین این بود:
«او هویجی دید و نتوانست در برابرش مقاومت کند.»
مدل پاسخ داد:
«گرسنگی‌اش چون خرگوشی گرسنه بود.»
این دو خط شعر قرار نبود جایزه‌ای ببرند؛ اما وقتی پژوهشگران شرکت Anthropic به بررسی داده‌های درونی شبکه‌ی عصبی مدل پرداختند، از آنچه یافتند شگفت‌زده شدند. آن‌ها تصور می‌کردند مدل که Claude نام دارد، کلمات را یکی‌یکی انتخاب می‌کند و تنها زمانی به دنبال واژه‌ای هم‌قافیه می‌گردد که به انتهای جمله برسد.
اما نتیجه کاملاً خلاف انتظار بود. پژوهشگران با استفاده از روشی تازه که به آن‌ها اجازه می‌داد به درون سازوکار مدل زبانی نگاه کنند، مشاهده کردند که Claude از پیش برای قافیه‌ی جمله برنامه‌ریزی کرده بود. حتی پیش از رسیدن به خط دوم، مدل شروع کرده بود به «فکر کردن» درباره‌ی واژه‌هایی که با «grab it» هم‌قافیه‌اند و جمله‌ی بعد را با واژه‌ی «rabbit» در ذهن خود ساخته بود.
این کشف با دیدگاه رایج در تضاد بود؛ دیدگاهی که مدل‌های هوش مصنوعی را صرفاً ماشین‌های تکمیل خودکار پیشرفته‌ای می‌داند که فقط واژه‌ی بعدی را پیش‌بینی می‌کنند. اما این یافته، پرسش‌هایی تازه مطرح کرد:
این مدل‌ها تا چه اندازه می‌توانند از پیش برنامه‌ریزی کنند؟
و درون این مغزهای مصنوعی مرموز که هنوز ابزار مشاهده‌ی آن‌ها را نداریم، چه می‌گذرد؟
این دستاورد یکی از چند یافته‌ی مهمی بود که در مارس ۲۰۲۵ طی دو مقاله‌ی پژوهشی از سوی شرکت Anthropic منتشر شد؛ مقاله‌هایی که با جزئیاتی بی‌سابقه نشان می‌دادند مدل‌های زبانی بزرگ (LLMs) چگونه «فکر» می‌کنند.

از پیش‌نویسی تا «رشد» مدل‌ها
ابزارهای هوش مصنوعی امروزی در یک نکته‌ی اساسی با نرم‌افزارهای سنتی تفاوت دارند:
آن‌ها «رشد می‌کنند»، نه این‌که خط‌به‌خط توسط انسان کدنویسی شوند.
اگر به درون شبکه‌های عصبی‌ای که این مدل‌ها را تغذیه می‌کنند نگاه کنیم، تنها چیزی که می‌بینیم، مجموعه‌ای از اعداد بسیار پیچیده است که بارها و بارها در هم ضرب می‌شوند. همین پیچیدگی درونی باعث می‌شود حتی مهندسان یادگیری ماشین که این مدل‌ها را پرورش می‌دهند، دقیقاً ندانند چگونه شعر می‌گویند، دستور غذا می‌نویسند یا مقصد تعطیلات بعدی را پیشنهاد می‌کنند. آن‌ها فقط «عمل می‌کنند».
با این حال، در سال‌های اخیر، پژوهشگران Anthropic و گروه‌های علمی دیگر در حوزه‌ای تازه با نام تفسیر سازوکارها (Mechanistic Interpretability) پیشرفت‌هایی چشمگیر داشته‌اند؛ شاخه‌ای که هدفش ساخت ابزارهایی برای خواندن این اعداد و تبدیل آن‌ها به توضیحاتی درباره‌ی نحوه‌ی عملکرد درونی هوش مصنوعی است.
به گفته‌ی Chris Olah، هم‌بنیان‌گذار Anthropic و از پیشگامان این رشته، پرسش‌های اصلی تحقیقات او چنین است:
«سازوکارهایی که این مدل‌ها برای تولید پاسخ به کار می‌گیرند، دقیقاً چیست؟ چه الگوریتم‌هایی درون آن‌ها تعبیه شده است؟»
او باور دارد پاسخ به این پرسش‌ها می‌تواند به شرکت‌های هوش مصنوعی کمک کند تا بزرگ‌ترین چالش این حوزه را حل کنند:
اطمینان از اینکه سیستم‌های هوش مصنوعی همواره از اصول و قواعد انسانی پیروی کنند.
به گفته‌ی او، نتایج تازه‌ی تیمش از روشن‌ترین یافته‌ها در این حوزه‌ی نوپدید است؛ حوزه‌ای که می‌توان آن را نوعی «عصب‌شناسی برای هوش مصنوعی» دانست.

میکروسکوپی برای دیدن درون مدل‌ها
در پژوهشی که در سال ۲۰۲۴ منتشر شد، پژوهشگران Anthropic خوشه‌هایی از نورون‌های مصنوعی را در شبکه‌های عصبی شناسایی کردند. آن‌ها این خوشه‌ها را features نامیدند و دریافتند هرکدام با یک مفهوم خاص در ارتباط است.
برای نمایش این پدیده، آن‌ها به‌صورت مصنوعی یکی از ویژگی‌های مربوط به «پل گلدن‌گیت» را در مدل Claude تقویت کردند. نتیجه شگفت‌انگیز بود: مدل در هر پاسخی که تولید می‌کرد، حتی وقتی موضوع هیچ ارتباطی با پل نداشت به نحوی از پل گلدن‌گیت یاد می‌کرد، تا زمانی که تقویت آن ویژگی متوقف شد.
در پژوهش جدید مارس ۲۰۲۵، این تیم گامی فراتر برداشت و بررسی کرد چگونه چند ویژگی با یکدیگر ترکیب می‌شوند تا چیزی را شکل دهند که خودشان آن را circuits می‌نامند. در واقع مجموعه‌ای از الگوریتم‌ها برای انجام وظایف خاص.
برای این کار، ابزاری طراحی شد که امکان مشاهده‌ی دقیق درون شبکه‌ی عصبی را فراهم می‌کرد؛ درست مانند تصویربرداری از مغز انسان هنگام فکر کردن.
این ابزار جدید به پژوهشگران اجازه می‌داد فرآیند فعالیت مدل را به عقب برگردانند و با وضوح بالا ببینند که در هر لحظه، کدام نورون‌ها، ویژگی‌ها و مدارها فعال‌اند. برخلاف اسکن مغز زیستی که تنها تصویری مبهم از فعالیت نورونی ارائه می‌دهد، شبکه‌های عصبی دیجیتال سطحی بی‌سابقه از شفافیت دارند؛ هر گام محاسباتی دقیقاً قابل مشاهده و تحلیل است.
وقتی پژوهشگران Anthropic به ابتدای جمله‌ی «گرسنگی‌اش چون خرگوشی گرسنه بود» بازگشتند، مشاهده کردند که مدل بلافاصله ویژگی‌ای را فعال کرده که مخصوص تشخیص واژه‌های هم‌قافیه با «it» است. برای بررسی نقش آن، ویژگی را به‌صورت مصنوعی غیرفعال کردند و دوباره همان جمله را به مدل دادند.
نتیجه جالب بود: مدل این‌بار جمله را با واژه‌ی «jaguar» پایان داد. سپس، وقتی ویژگی قافیه‌سازی حفظ شد اما واژه‌ی «rabbit» حذف شد، مدل جمله را با واژه‌ی «habit» تمام کرد. دومین انتخاب برتر آن ویژگی.
شرکت Anthropic این ابزار تازه را «میکروسکوپی برای هوش مصنوعی» می‌نامد. اما کریس اولا، رهبر این پروژه، امیدوار است روزی بتواند میدان دید این میکروسکوپ را گسترش دهد؛ نه‌فقط برای دیدن مدارهای کوچک درون مدل، بلکه برای درک کامل ساختار محاسباتی آن.
هدف نهایی او توسعه‌ی ابزاری است که بتواند توصیفی جامع از الگوریتم‌های درونی مدل‌های زبانی بزرگ ارائه دهد. او می‌گوید:
«به باور من، پرسش‌های بسیاری وجود دارد که از نظر اجتماعی اهمیت فزاینده خواهند یافت و اگر موفق شویم، این پژوهش می‌تواند به پاسخ آن‌ها کمک کند. از جمله اینکه آیا این مدل‌ها ایمن‌اند؟ آیا می‌توان به آن‌ها در موقعیت‌های حساس اعتماد کرد؟ و چه زمانی ممکن است دروغ بگویند؟»

زبان جهانی
پژوهش جدید شرکت Anthropic شواهد تازه‌ای ارائه کرده است که از نظریه‌ای جالب پشتیبانی می‌کند:
این‌که مدل‌های زبانی در فضایی آماری و غیرزبانی می‌اندیشند؛ فضایی که میان زبان‌های مختلف مشترک است.
دانشمندان Anthropic برای آزمودن این فرضیه، از مدل Claude خواستند تا مفهوم «متضاد کوچک» را در چند زبان مختلف بیان کند. سپس با استفاده از ابزار تحلیلی جدید خود بررسی کردند هنگام پاسخ‌گویی مدل به این درخواست‌ها در زبان‌های انگلیسی، فرانسوی و چینی چه ویژگی‌هایی در شبکه‌ی عصبی آن فعال می‌شود.
آن‌ها دریافتند مجموعه‌ای از ویژگی‌ها در همه‌ی زبان‌ها فعال می‌شوند؛ ویژگی‌هایی که به مفاهیم کوچکی، بزرگی و تضاد مربوط بودند و مستقل از زبان پرسش فعال باقی می‌ماندند. علاوه بر این، گروهی دیگر از ویژگی‌ها نیز متناسب با زبان مورد استفاده فعال می‌شدند. در واقع بخش‌هایی از شبکه‌ی عصبی که به مدل نشان می‌داد در حال پاسخ دادن به انگلیسی است یا فرانسوی یا چینی.
البته این یافته کاملاً تازه نیست. پژوهشگران هوش مصنوعی سال‌هاست گمان می‌برند که مدل‌های زبانی در فضایی آماری خارج از زبان فکر می‌کنند و مطالعات پیشین در زمینه‌ی تفسیر سازوکار مدل‌ها نیز شواهدی در تأیید این دیدگاه ارائه داده بودند. با این حال، مقاله‌ی Anthropic تا امروز دقیق‌ترین و مفصل‌ترین توضیح موجود از چگونگی وقوع این پدیده در درون یک مدل زبانی است.
این کشف، چشم‌اندازی تازه برای پژوهش‌های مربوط به ایمنی هوش مصنوعی گشوده است. تیم تحقیقاتی دریافت که هرچه مدل‌ها بزرگ‌تر و پیچیده‌تر می‌شوند، توانایی بیشتری در انتزاع مفاهیم فراتر از زبان و ورود به این فضای غیرزبانی پیدا می‌کنند.
این ویژگی از منظر ایمنی می‌تواند بسیار مهم باشد؛ زیرا مدلی که قادر است مفهوم انتزاعی «درخواست‌های مضر» را درک کند، احتمالاً در هر زمینه و زبانی قادر خواهد بود از انجام چنین درخواست‌هایی خودداری کند. در حالی که مدلی که فقط مثال‌های خاصی از درخواست‌های مضر را در یک زبان خاص شناسایی می‌کند، چنین توانایی عمومی و ایمنی فرازبانی ندارد.

درون این مغزهای مصنوعی مرموز چه می‌گذرد؟
این یافته می‌تواند خبر خوبی برای پژوهشگران زبان‌هایی باشد که داده‌های مربوط به آن‌ها در اینترنت اندک است؛ زبان‌هایی که در ادبیات علمی با عنوان «زبان‌های کم‌منبع» شناخته می‌شوند.
مدل‌های زبانی بزرگ امروزی معمولاً در این زبان‌ها عملکرد ضعیف‌تری دارند، زیرا حجم داده‌های آموزشی موجود از آن‌ها بسیار کمتر از زبان‌هایی مانند انگلیسی است.
اما یافته‌ی اخیر شرکت Anthropic این احتمال را مطرح می‌کند که در آینده، مدل‌های زبانی دیگر نیازی به حجم عظیمی از داده‌های زبانی برای عملکرد دقیق و ایمن نخواهند داشت؛ به‌شرط آن‌که داده‌های موجود به‌اندازه‌ای باشند که بتوانند با مفاهیم درونی و غیرزبانی مدل ارتباط برقرار کنند.
با این حال، چالش دیگری وجود دارد:
پژوهشگران زبان‌های کم‌منبع همچنان باید با این واقعیت روبه‌رو شوند که مفاهیم درونی مدل‌ها تا حد زیادی تحت تأثیر سلطه‌ی زبان‌هایی مانند انگلیسی و فرهنگ‌های مسلط آن‌ها شکل گرفته است.

به سوی آینده‌ای شفاف‌تر در فهم هوش مصنوعی
با وجود این پیشرفت‌ها، علم تفسیر و درک درونی مدل‌های هوش مصنوعی هنوز در مراحل ابتدایی خود قرار دارد و چالش‌های اساسی بسیاری باقی مانده است.
شرکت Anthropic در گزارش خود اذعان می‌کند:
«حتی در پاسخ به ورودی‌های کوتاه و ساده، روش فعلی ما تنها بخش اندکی از کل محاسبات مدل Claude را پوشش می‌دهد.»
به بیان دیگر، هنوز بخش‌های بزرگی از شبکه‌ی عصبی وجود دارد که در دسترس دید پژوهشگران نیست.
در گزارش آمده است:
«در حال حاضر، برای درک و تحلیل مدارهای قابل مشاهده در مدل حتی در پاسخ‌هایی شامل چند ده واژه به چندین ساعت کار انسانی نیاز است. برای رفع این محدودیت‌ها، تحقیقات گسترده‌تری لازم خواهد بود.»
با این حال، اگر دانشمندان بتوانند این مسیر را ادامه دهند، پاداش آن می‌تواند عظیم باشد.
کریس اولا می‌گوید:
«بحث‌های امروز پیرامون هوش مصنوعی به‌شدت قطبی شده‌اند. در یک سو، افرادی هستند که معتقدند مدل‌های هوش مصنوعی واقعاً می‌فهمند، درست مانند انسان‌ها. در سوی دیگر، کسانی قرار دارند که آن‌ها را صرفاً ابزارهای پیش‌بینی واژه‌ی بعدی می‌دانند.»
او ادامه می‌دهد:
«به نظر من، بخشی از این دوگانگی از آن‌جا ناشی می‌شود که ما هنوز زبان دقیق و مؤثری برای گفت‌وگو درباره‌ی این پدیده نداریم. در واقع، پرسش اصلی مردم این است که سازوکار این مدل‌ها چیست؟ چگونه به این رفتارها می‌رسند؟ اما چون واژگان علمی لازم را برای بیان این پرسش‌ها ندارند، بحث‌ها سطحی و احساسی می‌شود.»
اولا در پایان می‌افزاید:
«اگر بتوانیم با علم تفسیر سازوکارها (Mechanistic Interpretability) مکانیسم‌های واقعی را شفاف‌تر کنیم، خواهیم توانست ادعاهای دقیق‌تر و تخصصی‌تری درباره‌ی آنچه واقعاً در درون این مدل‌ها رخ می‌دهد مطرح کنیم. امیدوارم این شفافیت بتواند از شدت قطبی‌بودن بحث‌ها درباره‌ی هوش مصنوعی بکاهد.»

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *