image captioning چیست؟ و چه کاربردی دارد؟

image captioning چیست؟ و چه کاربردی دارد؟

درک تصویر یا حاشیه نویسی تصویر از اولین مباحثی بود که به صورت عجیبی در حوزه ی هوش مصنوعی رشد کرد؛ در این نوشته به صورت خلاصه در مورد image captioning صحبت می کنیم.

این نوشته تخصصی نیست و یک نوشته ی مبتدی می باشد و بیشتر برای خوانندگانی مناسب است که فقط قصد درک این زمینه را دارند.

 

image captioning چیست؟ و چه کاربردی دارد؟

با رشد کاربرد و استفاده ی سریع هوش مصنوعی در کشورهای مختلف عنوان حاشیه نویسی تصویر یا درک تصویر مطرح شد.

به تدریج زمینه ی علمی image captioning مورد توجه بسیاری از دانشمندان در زمینه هوش مصنوعی قرار گرفته است و به یک چالش بسیار عجیب و بزرگ تبدیل شده است.

درک تصویر یا image captioning، به طور خودکار توصیف یک تصویر با زبان گفتاری است که با توجه به ماهیت مشاهده شده در تصویر و بخش مهمی از درک صحنه می باشد.

حوزه ی image captioning ترکیبی از دانش بصری کامپیوتری یا computer vision و پردازش زبان گفتاری MLP است. توسعه سیستم های image captioning یا درک تصویر ممکن است به افراد کم بینا و نابینا کمک کند تا جهان را در آینده ای نزدیک مثل ما ببینند، اخیرا توجه به image captioning بیشتر شده و به یکی از مهم ترین مباحث در حوزه ی دید رایانه ای یا computer vision تبدیل شده است.

مدل های مختلف image captioning را می توان به دو دسته ی اصلی و کلی تقسیم کرد:

  • روش مبتنی بر مدل زبان احتمال آماری
  • مدل شبکه عصبی مبتنی بر مدل زبان رمزگذاری و رمزگشایی برای استخراج و ویژگی های عمیق

image captioning کاملا یک موضوع چالش برانگیز در حوزه ی هوش مصنوعی است که به تلفیق شناختی تکنیک ها از هر دو حوزه ی دید رایانه ای computer vision و پردازش زبان گفتاری MLP نیاز دارد.

تلاش های اولیه برای درک تصویر در هوش مصنوعی به طور عمده ای از روش های مبتنی بر الگو اتخاذ می شود، که این روش ها نیاز به شناخت عناصر مختلف مانند شی ها و همچنین خصوصیات و روابط آن ها در مرحله ابتدایی دارد. سپس عناصر بر اساس جملات یا الگو های زبانی و از پیش تعریف شده که توسط دیتاست ها موجود می باشد به جملاتی سازمان یافته و مرتب تبدیل می شوند که با توصیف های سفت و سخت و محدود همراه می باشد. گرچه این روش هنوز هم نمی تواند هیچ جمله جدیدی ایجاد کند، اما نشان می دهد که شبیه سازی امکان ارائه ی اطلاعات ارزشمندی را دارد. با کمک گرفتن از پیشرفت های اخیر در روش های مبتنی بر شبکه های عصبی CNN، ترجمه ماشینی به طور وسیعی در کار های درک تصویر استفاده  می شود و به موفقیت های زیادی نیز رسیده است.

این روش ها در درجه ی اول براساس رمزگشایی و رمزگذاری است که از دو مرحله اساسی تشکیل شده است.

ابتدا ویژگی های تصویری با استفاده از شبکه های عصبی کانولوشنی یا CNN برای رمزگذاری تصویر در یک بردار تعبیه شده و با طول ثابت استخراج می شوند. در مرحله ی بعدی یعنی مرحله ی دوم، شبکه عصبی بازگشتی یا RNN به ویژه حافظه کوتاه مدت طولانی LSTM به عنوان رمز گذار برای تولید و توضیحات جملات با استفاده از ویژگی های بصری حداکثر یک جمله را می پذیرد.

درک تصویر با استفاده از Deep Learning
درک تصویر با استفاده از Deep Learning

 

 

کاربردهای image captioning چیست؟

بیشتر استفاده ی image captioning در سیستم هایی بزرگتر، استراتژی های کنترل ترافیک وب، اینترنت اشیا، سرویس های ابری iaas و saas و سیستم های واقعیت مجازی کاربرد دارند.

از دیگر کاربرد های image captioning یا درک تصویر می توان به انجام پروژه های نجوم و فضا نوردی هواشناسی، شهر سازی، روان شناسی و زمین شناسی، کشاورزی، باستان شناسی، علوم نظامی و امنیتی، صنعتی، پزشکی، فناوری های علمی، تبلیغات، سینما، اقتصاد نیز اشاره کرد.

مجموعه داده از تصاویر ورودی و عنوان های خروجی مربوطه تشکیل می شود.

دیدگاهتان را بنویسید