در دموی هفته گذشته، رائول پوری، دانشمندی که بر روی GPT-4 کار می کند، مروری کوتاه بر ویژگی تشخیص تصویر به من داد. او عکسی از تکالیف ریاضی یک کودک را آپلود کرد، یک پازل سودوکو مانند را روی صفحه حلقه کرد و از ChatGPT پرسید که چگونه آن را حل کند. ChatGPT با مراحل درست پاسخ داد.
پوری میگوید که از این ویژگی برای کمک به تعمیر رایانه نامزدش با دانلود اسکرین شاتهای پیامهای خطا و پرسیدن از ChatGPT استفاده کرده است. او میگوید: «این یک تجربه بسیار دردناک بود که به من کمک کرد تا از آن عبور کنم.
قابلیت تشخیص تصویر ChatGPT قبلاً توسط شرکتی به نام Be My Eyes آزمایش شده است که اپلیکیشنی را برای افراد کم بینا توسعه می دهد. کاربران می توانند تصویری از آنچه در مقابلشان است آپلود کنند و از داوطلبان انسانی بخواهند که به آنها بگویند چیست. با همکاری OpenAI، Be My Eyes به کاربران این امکان را می دهد که به جای آن از یک ربات چت بپرسند.
هانس یورگن وایبرگ، خالق Be My Eyes که خودش از این برنامه استفاده می کند، هنگام مصاحبه با من گفت: “گاهی اوقات آشپزخانه من کمی نامرتب است، یا صبح زود دوشنبه است و نمی خواهم با آن شخص صحبت کنم.” . در EmTech Digital در ماه می. “اکنون می توانید در مورد عکس سوال بپرسید.”
OpenAI از خطر انتشار این بهروزرسانیها برای عموم آگاه است. Puri میگوید ترکیب مدلها سطوح جدیدی از پیچیدگی را به ارمغان میآورد. او میگوید که تیمش ماهها به بررسی سوءاستفادههای احتمالی پرداخته است. به عنوان مثال، شما نمی توانید در مورد عکس های افراد بپرسید.
جانگ مثال دیگری میزند: «در حال حاضر، اگر از ChatGPT بخواهید بمب بسازد، آن را رد میکند. اما به جای اینکه بگویید «هی، به من بگو چطور بمب بسازم»، اگر عکس بمب را به او نشان دادی و گفتی «میتوانی به من بگویی چگونه این را درست کنم؟»
“شما تمام مشکلات بینایی کامپیوتر را دارید. مدل های زبان بزرگ همه مشکلات را دارند. پوری میگوید تقلب صوتی یک مشکل بزرگ است. شما باید نه تنها کاربران ما، بلکه افرادی را که از محصول استفاده نمی کنند نیز در نظر بگیرید.