به گزارش واحد روابط عمومی سازمان ملی کارآفرینی ایران:
این مطلب، نخستین مقاله از مجموعهی ترجمههای اختصاصی ویژهنامهی «هوش مصنوعی ۲۰۲۵» مجلهی تایم (Time Magazine: Artificial Intelligence 2025 Special Edition) است.
این بخش با عنوان «A Glimpse into How LLMs Think» نوشتهی Billy Perrigo، در این ویژهنامه منتشر شده و به بررسی تازهترین یافتههای شرکت Anthropic دربارهی نحوهی تفکر مدلهای زبانی بزرگ میپردازد.
در این مجموعه، طی چند بخش پیاپی، ترجمهی کامل مقالات ویژهنامهی «هوش مصنوعی ۲۰۲۵» مجلهی تایم منتشر خواهد شد؛ مجموعهای که تازهترین پژوهشها و دستاوردهای علمی جهان را در زمینهی درک سازوکار درونی مدلهای هوش مصنوعی و تبیین منطق «تفکر» آنها بررسی میکند.
این بخش به معرفی مبانی نظری و نخستین آزمایشهای علمی اختصاص دارد که تصویری تازه و علمی از آنچه در مغز مصنوعی میگذرد، ارائه میدهد.
نویسنده: Billy Perrigo
منبع: مجلهی تایم ویژهنامه هوش مصنوعی ۲۰۲۵
ترجمه: واحد روابط عمومی سازمان ملی کارآفرینی ایران
مقدمه:
دانشمندان در آغاز، انتظار چندانی نداشتند وقتی از مدل هوش مصنوعی خود خواستند یک شعر را کامل کند. جملهی آغازین این بود:
«او هویجی دید و نتوانست در برابرش مقاومت کند.»
مدل پاسخ داد:
«گرسنگیاش چون خرگوشی گرسنه بود.»
این دو خط شعر قرار نبود جایزهای ببرند؛ اما وقتی پژوهشگران شرکت Anthropic به بررسی دادههای درونی شبکهی عصبی مدل پرداختند، از آنچه یافتند شگفتزده شدند. آنها تصور میکردند مدل که Claude نام دارد، کلمات را یکییکی انتخاب میکند و تنها زمانی به دنبال واژهای همقافیه میگردد که به انتهای جمله برسد.
اما نتیجه کاملاً خلاف انتظار بود. پژوهشگران با استفاده از روشی تازه که به آنها اجازه میداد به درون سازوکار مدل زبانی نگاه کنند، مشاهده کردند که Claude از پیش برای قافیهی جمله برنامهریزی کرده بود. حتی پیش از رسیدن به خط دوم، مدل شروع کرده بود به «فکر کردن» دربارهی واژههایی که با «grab it» همقافیهاند و جملهی بعد را با واژهی «rabbit» در ذهن خود ساخته بود.
این کشف با دیدگاه رایج در تضاد بود؛ دیدگاهی که مدلهای هوش مصنوعی را صرفاً ماشینهای تکمیل خودکار پیشرفتهای میداند که فقط واژهی بعدی را پیشبینی میکنند. اما این یافته، پرسشهایی تازه مطرح کرد:
این مدلها تا چه اندازه میتوانند از پیش برنامهریزی کنند؟
و درون این مغزهای مصنوعی مرموز که هنوز ابزار مشاهدهی آنها را نداریم، چه میگذرد؟
این دستاورد یکی از چند یافتهی مهمی بود که در مارس ۲۰۲۵ طی دو مقالهی پژوهشی از سوی شرکت Anthropic منتشر شد؛ مقالههایی که با جزئیاتی بیسابقه نشان میدادند مدلهای زبانی بزرگ (LLMs) چگونه «فکر» میکنند.
از پیشنویسی تا «رشد» مدلها
ابزارهای هوش مصنوعی امروزی در یک نکتهی اساسی با نرمافزارهای سنتی تفاوت دارند:
آنها «رشد میکنند»، نه اینکه خطبهخط توسط انسان کدنویسی شوند.
اگر به درون شبکههای عصبیای که این مدلها را تغذیه میکنند نگاه کنیم، تنها چیزی که میبینیم، مجموعهای از اعداد بسیار پیچیده است که بارها و بارها در هم ضرب میشوند. همین پیچیدگی درونی باعث میشود حتی مهندسان یادگیری ماشین که این مدلها را پرورش میدهند، دقیقاً ندانند چگونه شعر میگویند، دستور غذا مینویسند یا مقصد تعطیلات بعدی را پیشنهاد میکنند. آنها فقط «عمل میکنند».
با این حال، در سالهای اخیر، پژوهشگران Anthropic و گروههای علمی دیگر در حوزهای تازه با نام تفسیر سازوکارها (Mechanistic Interpretability) پیشرفتهایی چشمگیر داشتهاند؛ شاخهای که هدفش ساخت ابزارهایی برای خواندن این اعداد و تبدیل آنها به توضیحاتی دربارهی نحوهی عملکرد درونی هوش مصنوعی است.
به گفتهی Chris Olah، همبنیانگذار Anthropic و از پیشگامان این رشته، پرسشهای اصلی تحقیقات او چنین است:
«سازوکارهایی که این مدلها برای تولید پاسخ به کار میگیرند، دقیقاً چیست؟ چه الگوریتمهایی درون آنها تعبیه شده است؟»
او باور دارد پاسخ به این پرسشها میتواند به شرکتهای هوش مصنوعی کمک کند تا بزرگترین چالش این حوزه را حل کنند:
اطمینان از اینکه سیستمهای هوش مصنوعی همواره از اصول و قواعد انسانی پیروی کنند.
به گفتهی او، نتایج تازهی تیمش از روشنترین یافتهها در این حوزهی نوپدید است؛ حوزهای که میتوان آن را نوعی «عصبشناسی برای هوش مصنوعی» دانست.
میکروسکوپی برای دیدن درون مدلها
در پژوهشی که در سال ۲۰۲۴ منتشر شد، پژوهشگران Anthropic خوشههایی از نورونهای مصنوعی را در شبکههای عصبی شناسایی کردند. آنها این خوشهها را features نامیدند و دریافتند هرکدام با یک مفهوم خاص در ارتباط است.
برای نمایش این پدیده، آنها بهصورت مصنوعی یکی از ویژگیهای مربوط به «پل گلدنگیت» را در مدل Claude تقویت کردند. نتیجه شگفتانگیز بود: مدل در هر پاسخی که تولید میکرد، حتی وقتی موضوع هیچ ارتباطی با پل نداشت به نحوی از پل گلدنگیت یاد میکرد، تا زمانی که تقویت آن ویژگی متوقف شد.
در پژوهش جدید مارس ۲۰۲۵، این تیم گامی فراتر برداشت و بررسی کرد چگونه چند ویژگی با یکدیگر ترکیب میشوند تا چیزی را شکل دهند که خودشان آن را circuits مینامند. در واقع مجموعهای از الگوریتمها برای انجام وظایف خاص.
برای این کار، ابزاری طراحی شد که امکان مشاهدهی دقیق درون شبکهی عصبی را فراهم میکرد؛ درست مانند تصویربرداری از مغز انسان هنگام فکر کردن.
این ابزار جدید به پژوهشگران اجازه میداد فرآیند فعالیت مدل را به عقب برگردانند و با وضوح بالا ببینند که در هر لحظه، کدام نورونها، ویژگیها و مدارها فعالاند. برخلاف اسکن مغز زیستی که تنها تصویری مبهم از فعالیت نورونی ارائه میدهد، شبکههای عصبی دیجیتال سطحی بیسابقه از شفافیت دارند؛ هر گام محاسباتی دقیقاً قابل مشاهده و تحلیل است.
وقتی پژوهشگران Anthropic به ابتدای جملهی «گرسنگیاش چون خرگوشی گرسنه بود» بازگشتند، مشاهده کردند که مدل بلافاصله ویژگیای را فعال کرده که مخصوص تشخیص واژههای همقافیه با «it» است. برای بررسی نقش آن، ویژگی را بهصورت مصنوعی غیرفعال کردند و دوباره همان جمله را به مدل دادند.
نتیجه جالب بود: مدل اینبار جمله را با واژهی «jaguar» پایان داد. سپس، وقتی ویژگی قافیهسازی حفظ شد اما واژهی «rabbit» حذف شد، مدل جمله را با واژهی «habit» تمام کرد. دومین انتخاب برتر آن ویژگی.
شرکت Anthropic این ابزار تازه را «میکروسکوپی برای هوش مصنوعی» مینامد. اما کریس اولا، رهبر این پروژه، امیدوار است روزی بتواند میدان دید این میکروسکوپ را گسترش دهد؛ نهفقط برای دیدن مدارهای کوچک درون مدل، بلکه برای درک کامل ساختار محاسباتی آن.
هدف نهایی او توسعهی ابزاری است که بتواند توصیفی جامع از الگوریتمهای درونی مدلهای زبانی بزرگ ارائه دهد. او میگوید:
«به باور من، پرسشهای بسیاری وجود دارد که از نظر اجتماعی اهمیت فزاینده خواهند یافت و اگر موفق شویم، این پژوهش میتواند به پاسخ آنها کمک کند. از جمله اینکه آیا این مدلها ایمناند؟ آیا میتوان به آنها در موقعیتهای حساس اعتماد کرد؟ و چه زمانی ممکن است دروغ بگویند؟»
زبان جهانی
پژوهش جدید شرکت Anthropic شواهد تازهای ارائه کرده است که از نظریهای جالب پشتیبانی میکند:
اینکه مدلهای زبانی در فضایی آماری و غیرزبانی میاندیشند؛ فضایی که میان زبانهای مختلف مشترک است.
دانشمندان Anthropic برای آزمودن این فرضیه، از مدل Claude خواستند تا مفهوم «متضاد کوچک» را در چند زبان مختلف بیان کند. سپس با استفاده از ابزار تحلیلی جدید خود بررسی کردند هنگام پاسخگویی مدل به این درخواستها در زبانهای انگلیسی، فرانسوی و چینی چه ویژگیهایی در شبکهی عصبی آن فعال میشود.
آنها دریافتند مجموعهای از ویژگیها در همهی زبانها فعال میشوند؛ ویژگیهایی که به مفاهیم کوچکی، بزرگی و تضاد مربوط بودند و مستقل از زبان پرسش فعال باقی میماندند. علاوه بر این، گروهی دیگر از ویژگیها نیز متناسب با زبان مورد استفاده فعال میشدند. در واقع بخشهایی از شبکهی عصبی که به مدل نشان میداد در حال پاسخ دادن به انگلیسی است یا فرانسوی یا چینی.
البته این یافته کاملاً تازه نیست. پژوهشگران هوش مصنوعی سالهاست گمان میبرند که مدلهای زبانی در فضایی آماری خارج از زبان فکر میکنند و مطالعات پیشین در زمینهی تفسیر سازوکار مدلها نیز شواهدی در تأیید این دیدگاه ارائه داده بودند. با این حال، مقالهی Anthropic تا امروز دقیقترین و مفصلترین توضیح موجود از چگونگی وقوع این پدیده در درون یک مدل زبانی است.
این کشف، چشماندازی تازه برای پژوهشهای مربوط به ایمنی هوش مصنوعی گشوده است. تیم تحقیقاتی دریافت که هرچه مدلها بزرگتر و پیچیدهتر میشوند، توانایی بیشتری در انتزاع مفاهیم فراتر از زبان و ورود به این فضای غیرزبانی پیدا میکنند.
این ویژگی از منظر ایمنی میتواند بسیار مهم باشد؛ زیرا مدلی که قادر است مفهوم انتزاعی «درخواستهای مضر» را درک کند، احتمالاً در هر زمینه و زبانی قادر خواهد بود از انجام چنین درخواستهایی خودداری کند. در حالی که مدلی که فقط مثالهای خاصی از درخواستهای مضر را در یک زبان خاص شناسایی میکند، چنین توانایی عمومی و ایمنی فرازبانی ندارد.
درون این مغزهای مصنوعی مرموز چه میگذرد؟
این یافته میتواند خبر خوبی برای پژوهشگران زبانهایی باشد که دادههای مربوط به آنها در اینترنت اندک است؛ زبانهایی که در ادبیات علمی با عنوان «زبانهای کممنبع» شناخته میشوند.
مدلهای زبانی بزرگ امروزی معمولاً در این زبانها عملکرد ضعیفتری دارند، زیرا حجم دادههای آموزشی موجود از آنها بسیار کمتر از زبانهایی مانند انگلیسی است.
اما یافتهی اخیر شرکت Anthropic این احتمال را مطرح میکند که در آینده، مدلهای زبانی دیگر نیازی به حجم عظیمی از دادههای زبانی برای عملکرد دقیق و ایمن نخواهند داشت؛ بهشرط آنکه دادههای موجود بهاندازهای باشند که بتوانند با مفاهیم درونی و غیرزبانی مدل ارتباط برقرار کنند.
با این حال، چالش دیگری وجود دارد:
پژوهشگران زبانهای کممنبع همچنان باید با این واقعیت روبهرو شوند که مفاهیم درونی مدلها تا حد زیادی تحت تأثیر سلطهی زبانهایی مانند انگلیسی و فرهنگهای مسلط آنها شکل گرفته است.
به سوی آیندهای شفافتر در فهم هوش مصنوعی
با وجود این پیشرفتها، علم تفسیر و درک درونی مدلهای هوش مصنوعی هنوز در مراحل ابتدایی خود قرار دارد و چالشهای اساسی بسیاری باقی مانده است.
شرکت Anthropic در گزارش خود اذعان میکند:
«حتی در پاسخ به ورودیهای کوتاه و ساده، روش فعلی ما تنها بخش اندکی از کل محاسبات مدل Claude را پوشش میدهد.»
به بیان دیگر، هنوز بخشهای بزرگی از شبکهی عصبی وجود دارد که در دسترس دید پژوهشگران نیست.
در گزارش آمده است:
«در حال حاضر، برای درک و تحلیل مدارهای قابل مشاهده در مدل حتی در پاسخهایی شامل چند ده واژه به چندین ساعت کار انسانی نیاز است. برای رفع این محدودیتها، تحقیقات گستردهتری لازم خواهد بود.»
با این حال، اگر دانشمندان بتوانند این مسیر را ادامه دهند، پاداش آن میتواند عظیم باشد.
کریس اولا میگوید:
«بحثهای امروز پیرامون هوش مصنوعی بهشدت قطبی شدهاند. در یک سو، افرادی هستند که معتقدند مدلهای هوش مصنوعی واقعاً میفهمند، درست مانند انسانها. در سوی دیگر، کسانی قرار دارند که آنها را صرفاً ابزارهای پیشبینی واژهی بعدی میدانند.»
او ادامه میدهد:
«به نظر من، بخشی از این دوگانگی از آنجا ناشی میشود که ما هنوز زبان دقیق و مؤثری برای گفتوگو دربارهی این پدیده نداریم. در واقع، پرسش اصلی مردم این است که سازوکار این مدلها چیست؟ چگونه به این رفتارها میرسند؟ اما چون واژگان علمی لازم را برای بیان این پرسشها ندارند، بحثها سطحی و احساسی میشود.»
اولا در پایان میافزاید:
«اگر بتوانیم با علم تفسیر سازوکارها (Mechanistic Interpretability) مکانیسمهای واقعی را شفافتر کنیم، خواهیم توانست ادعاهای دقیقتر و تخصصیتری دربارهی آنچه واقعاً در درون این مدلها رخ میدهد مطرح کنیم. امیدوارم این شفافیت بتواند از شدت قطبیبودن بحثها دربارهی هوش مصنوعی بکاهد.»
