صفحه اصلی
کد مطلب: ۳۱۵۷۵
يکشنبه ۱۵ بهمن ۱۴۰۲ - ۰۵:۴۵

رقیب جدید چت جی پی تی به میدان آمد

جمینی می‌تواند محتواهای مختلف ازجمله متن، کد، فایل صوتی، عکس و ویدئو را تعمیم دهد و درک کند. مانند جی پی تی 4، جمینی را با مجموع دادگان بسیار بزرگ و گسترده‌ای آموزش داده‌اند که شامل کتاب‌ها، مقالات، مخازن کد، موسیقی و انواع دیگر رسانه است.

ضمیمه دانش امروز روزنامه اطلاعات نوشت: چت جی پی تی (ChatGPT)در سال 2023 راه اندازی شد. این ابزار هوش مصنوعی آنلاین به‌قدری به شهرت رسید که حتی عموها و عمه‌های پا به سن گذاشته ما که حتی تلفن همراه هم ندارند یا استفاده از آن برایشان دشوار است نیز از وجود آن باخبر شده‌اند! همچنان که شرکت Open AIبه بهتر کردن و پالایش کردن قابلیت‌های چت جی پی تی ادامه می‌دهد؛ رقیبی برای این فرزند اعجوبه پیدا شده است که آمادگی گرفتن گوی سبقت از آن را دارد.

مدت کوتاهی پس از راه‌اندازی چت جی پی تی، گوگل از وجود «بارد» (Bard)خبر داد. بارد رقیب چت جی پی تی است و قادر به انجام هر کاری است که چت جی پی تی می‌تواند انجام دهد، با این تفاوت که بارد قدرت بزرگ‌ترین موتور جستجو یعنی گوگل را در اختیار دارد.

اکنون شرکت گوگل با پروژه‌ای جدید یک گام بیشتر برداشته است و ابزاری دیگر به نام «گوگل جمینی» (Google Gemini)را ساخته است که در مرحله راه‌اندازی است و به نظر می‌رسد موفقیت عملکرد آن از چت جی پی تی بیشتر باشد.

جمینی یک مدل هوش مصنوعی جدید و قدرتمند محصول شرکت گوگل و Alphabetشرکت «والد گوگل» است؛ گر چه «گوگل دیپ مایند» نیز کمک زیادی به ساخت آن کرده است. جمینی پیشرفته‌ترین مدل هوش مصنوعی محسوب می‌شود که گوگل تابه‌حال ساخته است و علاوه بر متن، عکس، ویدئو و محتوای صوتی را نیز می‌شناسد.

جمینی به‌عنوان یک مدل چند وجهی قادر به انجام عملکردهای ریاضیاتی پیچیده و حل مسائل فیزیک و انجام وظایف مختلف در حوزه‌های دیگر است. همچنین می‌تواند به زبان‌های برنامه‌نویسی مختلف کدهایی با کیفیت بالا تولید کند.

وقتی نام شرکت Open AIبه میان می‌آید، همه به یاد چت جی پی تی می‌افتند. اما لازمه کار کردن این ابزار تغذیه شدن از یک مدل زبانی بزرگ به نام «جی پی تی 4» است که با میلیاردها مجموعه داده از سراسر اینترنت تغذیه شده و آموزش‌دیده است تا تصاویر، متون، مفاهیم و بسیاری از فاکتورهای دیگر را درک کند. در مورد گوگل، این جمینی است که این کار را انجام می‌دهد؛ موتوری که برنامه‌های هوش مصنوعی را مانند بارد به اجرا در می‌آورد.

جمینی می‌تواند محتواهای مختلف ازجمله متن، کد، فایل صوتی، عکس و ویدئو را تعمیم دهد و درک کند. مانند جی پی تی 4، جمینی را با مجموع دادگان بسیار بزرگ و گسترده‌ای آموزش داده‌اند که شامل کتاب‌ها، مقالات، مخازن کد، موسیقی و انواع دیگر رسانه است.

همه این داده‌ها دسته‌بندی و به بخش‌های کوچک‌تر تقسیم‌بندی شده‌اند و به شکلی درآمده‌اند که برای جمینی قابل فهم‌تر باشند. این مدل سپس روابط بین واژه‌ها و رسانه‌های مختلف را درک می‌کند و یاد می‌گیرد چطور به دستورها، پرسش‌ها و پیشنهادها واکنش نشان دهد یا آن‌هارا پاسخ دهد.

شاید بخواهیم بدانیم چگونه می‌توانیم گوگل جمینی را به‌طور رایگان امتحان کنیم. دو راه برای تست کردن آن وجود دارد که یکی از آن‌ها از دیگری قابل دسترس‌تر است. برای بیشتر کاربرها آسان‌ترین راه این است که وارد چت بات بارد شوند یعنی در آن log inکنند.

این مدل در حال حاضر از طریق گوگل بارد و گوگل Pixel 8قابل دسترس است. اگر کاربری تابه‌حال از گوگل بارد استفاده نکرده است، می‌تواند به‌راحتی یک حساب کاربری ایجاد کند و استفاده از آن را به‌طور مستقیم شروع کند. نسخه کامل گوگل جمینی در آینده‌ای نزدیک از طریق بارد در دسترس قرار خواهد گرفت.

اما نسخه تست جمینی چه قابلیت‌هایی دارد؟

هنوز محدودیت‌هایی در این مدل وجود دارد و اگر چه جمینی آن را هوشمندتر کرده است، نباید انتظار داشت که هر بار پاسخ‌های بی‌عیب و نقصی تحویل دهد و هنوز خطا و اشتباه دارد.

مهندسین گوگل به نسخه به روز شده بارد وظایف گوناگونی را دادند تا انجام دهد. این نسخه با ایجاد کدهای پشت سر هم درک منطق و نشان دادن کمی هوش و ذکاوت بیشتر آن‌هارا به‌خوبی انجام داد؛ اما در همه موارد دقیق نبود.

برای مثال وقتی تصویر پنج کفش خاکستری که روی‌هم چیده شده بودند به آن نشان داده شد، 27 جفت کفش را تشخیص داد یعنی 49 کفش بیشتر از تعدادی که در تصویر به آن نشان داده شده بود.

همچنین این مدل اظهار کرد که کفش‌ها به شکل یک هرم بزرگ روی‌هم انباشته شده بودند و رنگ‌های مختلفی داشتند که هیچ‌کدام از این‌ها درست نبود. دسترسی به جمینی راه دومی هم دارد. برای هر کاربری که ضعیف‌ترین نسخه جمینی به نام Google Pixel 8 Pro را در اختیار داشته باشد، نسخه Gemini Nanoاز طریق چند ویژگی قابل دسترس است که بیشتر با اپلیکیشن هایWhatsAppو Google Keyboardکار می‌کند.

 جمینی چه کارهایی را می‌تواند انجام دهد؟

در هفته‌های اخیر شرکت گوگل به طرزی خستگی‌ناپذیر در تلاش بوده است تا با انتشار ویدئوهای مختلف از قابلیت‌های جمینی و تعریف و تمجید از مهارت‌های آن نسبت به رقبایش، این فناوری تازه خود را به نمایش گذارده و معرفی کند. اگر چه آن چه از توانایی‌های جمینی گفته و نمایش داده می‌شود جذاب است و کاربرها را ترغیب می‌کند اما دانستن این‌که جمینی چه بازده و عملکردی از خود نشان خواهد داد آسان نیست.

در یک ویدئوی وایرال شده از گوگل شخصی در حال ترسیم کردن اشیاء مختلف دیده می‌شود. جمینی می‌تواند در زمان بی‌درنگ توصیف کند چه چیزهایی روی کاغذ ترسیم شده‌اند. بهتر از آن، جمینی به پرسش‌هایی که درباره اشیاء ترسیم شده پرسیده می‌شود پاسخ می‌دهد، به زبان‌های مختلف صحبت می‌کند و حتی از تصاویری که به آن نشان داده می‌شود بازی می‌سازد.

بااین‌وجود اگر چه این ویدئو به‌طور قطع بسیار جالب‌توجه است اما یک نکته گول زننده در آن وجود دارد و آن این است که برخلاف آن چه در ویدئو می‌بینیم جمینی در حقیقت به پرسش‌هایی که در زمان بی‌درنگ به آن داده می‌شود پاسخ نمی‌دهد بلکه پرسش‌ها به‌طور جداگانه و با متن بیشتری به آن داده می‌شوند.

همچنین در ویدئویی دیگر جمینی را می‌بینیم که از تصاویر ترکیب شده و درهم فیلم‌های سینمایی مختلف عنوان فیلم‌ها را تشخیص می‌دهد. برای مثال، با دیدن تصویر پنکیک و گوشت سرخ‌شده در کنار یکی از افراد حاضر در میان جمعیت یک مهمانی می‌تواند نام فیلم سینمایی را به‌درستی اعلام کند که «کلوپ صبحانه» نام دارد و کارگردان آن «جان هیوز» است.

همچنین می‌تواند حدس بزند چه لباس‌هایی در چه مواقعی باید پوشیده شوند. برای مثال، می‌داند پالتوی بلند برای فصل سرد است. دیگر این‌که می‌تواند روابط بین کلمات و تصاویر مختلف را پیدا کند و تکالیف ریاضی فرزند دانش‌آموز خانواده را توضیح دهد. سرانجام این‌که چون جمینی با کلمات، عکس‌ها، ویدئوها، کدها و بیشتر اَشکال محتوای دیجیتالی آموزش‌دیده است، توانایی‌های بی‌شماری دارد.

 گوگل جمینی در برابر جی پی تی 4

قابلیت‌های ذکر شده درباره جمینی تازه نیستند. این همان کاری است که شرکت Open AIبا ساخت جی پی تی 4 انجام داده است. حتی خود گوگل نیز در گذشته این قبیل مدل‌ها را عرضه کرده است. بااین‌حال، طبق ادعای گوگل آن‌چه جمینی را از سایر مدل‌ها متمایز می‌کند این است که از همه آن‌ها بهتر است.

جمینی از میان 32 مقوله تستی که برای محک زدن سطح معلومات، استدلال، ادراک و غیره استفاده شدند در 30 مورد جی پی تی 4 را مغلوب کرد. در حقیقت، با امتیاز 90 درصد، جمینی نخستین مدلی است که در یک تست درک زبان چند وظیفه‌ای حجیم از کارشناس‌های انسانی بهتر عمل کرده است. این تست شامل مجموعه‌ای از 57 موضوع در علوم و مباحثی چون ریاضیات، فیزیک، تاریخ، حقوق، اخلاق، پزشکی و مجموعه‌ای از وظایف مربوط به میزان معلومات و حل مسأله بود.

به دلیل این‌که گوگل خودش این تست‌ها را طراحی و بر آن‌ها نظارت می‌کند، به هیچ طریقی نمی‌توان حدس زد جمینی در خارج از تست‌های کنترل شده‌ای ازاین‌دست چه عملکردی از خود نشان خواهد داد. برخلاف Open AIکه ابزارهایش را بلافاصله پس از ساخت در دسترس عموم قرار می‌دهد، گوگل ترجیح می‌دهد با تأخیر این کار را انجام دهد.

به‌علاوه، تمامی این آمار جالب‌توجه از عملکرد جمینی با جمینی اولترا به دست آمده‌اند که قدرتمندترین نسخه جمینی است. گوگل قصد دارد سه نسخه مختلف از مدل جمینی را عرضه کند:
Ultra, Proو Nano.

اگر واقع‌گرایانه نگاه کنیم، بیشتر مردم دنیا از دو نسخه‌ای که هوشمندی کم‌تری دارند و احتمالاً ارزان‌تر هستند استفاده خواهند کرد. هنوز معلوم نیست این مدل‌ها چه تفاوتی با یکدیگر خواهند داشت اما گوگل شرح مختصری از آن‌ها داده است.

گوگل، جمینی را به‌عنوان یک مدل انعطاف‌پذیر توصیف می‌کند که قابلیت اجرا روی هر چیزی را دارد، از مراکز داده خود شرکت گوگل گرفته تا تلفن‌های هوشمند و وسایل دیجیتالی قابل‌حمل. برای دستیابی به این درجه از مقیاس‌پذیری، جمینی در سه حجم یا سایز مختلف عرضه می‌شود:

جمینی نانو(Nano)، جمینی پرو (Pro) و جمینی اولترا (Ultra).

جمینی نانو برای وظایفی که به‌طور معمول با تلفن هوشمند و به‌ویژه با Google Pixel 8انجام می‌شوند طراحی شده است. طراحی آن به‌گونه‌ای است که بتواند وظایفی را که به پردازش هوش مصنوعی کارآمد نیاز دارند بدون اتصال به سرورهای خارجی روی تلفن همراه انجام دهد. برای مثال، در اپلیکیشن‌های چت پاسخ‌هایی را پیشنهاد می‌دهد یا متون را خلاصه می‌کند.

 جمینی پرو نسخه چندمنظوره و حدفاصل دو نسخه دیگر است. جمینی روی مراکز داده گوگل اجرا می‌شود و هدف از طراحی آن پشتیبانی از بارد، تازه‌ترین نسخه چت بات هوش مصنوعی این شرکت است. توان پاسخگویی سریع یکی از ویژگی‌های آن است.

جمینی اولترا پیشرفته‌ترین، توانمندترین و کم‌اِشکال‌ترین آن‌ها است. این نسخه هنوز در دسترسی وسیع قرار داده نشده است. جمینی اولترا به‌منظور انجام وظایف بسیار پیچیده طراحی شده و قرار است پس از پایان مرحله کنونی تست آن دسترس عموم قرار گیرد.

جمینی یکی از بزرگ‌ترین و پیشرفته‌ترین مدل‌های هوش مصنوعی است که تاریخ دستاوردهای رایانه‌ای و فناوری اینترنت تابه‌حال به خود دیده است.

اگر جمینی شباهتی به مدل‌های جی پی تی شرکت Open AIداشته باشد، باید انتظار مدلی با شمار واژه بیشتر، سرعت بالاتر، ویژگی‌ها و امکانات بیشتر و نسخه‌های پرقدرت‌تری از آن را داشته‌باشیم.

پیشنهاد اطلاعات

ارسال نظر

( 300 )

آخرین مطالب