مقادیر فزاینده محتوای چندرسانه ای آنلاین سیستم های جستجوی ، توصیه و بازیابی اطلاعات فعلی را به چالش می کشد. اطلاعات در قالب عناصر بصری در طیف وسیعی از کارهای وب کاوی بسیار با ارزش است. با این حال ، استخراج این منابع به دلیل پیچیدگی و تغییرپذیری تصاویر و همچنین هزینه جمع آوری مجموعه داده های بزرگ به اندازه کافی برای آموزش موفقیت آمیز در مدل های یادگیری عمیق کار دشواری است. این مقاله یک چارچوب جدید برای طبقه بندی صفحات وب بر اساس محتوای تصویری آنها ارائه می دهد. این کار با کاوش در برنامه کاربردی مشترک یک استراتژی یادگیری انتقال و تکنیک های یادگیری متریک برای ایجاد یک شبکه عصبی عمیق تحریک (DCNN) برای استخراج ویژگی ، حتی زمانی که داده های آموزش کمیاب هستند ، حاصل می شود. نتایج تجربی به دست آمده شواهد نشان می دهد که رویکرد پیشنهادی بهتر از توصیفگرهای تصویر دستی صنایع دستی است و به یک دقت طبقه بندی بالایی دست می یابد. علاوه بر این ، ما به مسئله یادگیری بیش از حد زمان می پردازیم ، بنابراین چارچوب پیشنهادی می تواند یادگیری دسته بندی های صفحه وب جدید را به عنوان تصاویر جدید دارای برچسب در زمان آزمون ارائه دهد. در نتیجه ، آگاهی قبلی از مجموعه کامل مقولات وب ممکن در مرحله آموزش اولیه ضروری نیست.