ما مشکل تشخیص شیء سه بعدی را از تصاویر RGB-D بررسی می کنیم تا به محلی سازی (یعنی تولید یک جعبه محدود کننده در اطراف جسم) و طبقه بندی (یعنی تعیین دسته بندی شی) بطور همزمان بپردازیم. چالش های آن ناشی از تنوع بالای کلاس داخل ، تغییر روشنایی ، درهم و برهمی پس زمینه و انسداد است. برای حل این مشکل ، ما یک راه حل جدید ارائه می دهیم که اطلاعات ۲D (تصاویر RGB) ، اطلاعات سه بعدی (تصاویر RGB-D) و اطلاعات متن موضوع / صحنه را با هم ادغام می کند و آن را روش Context Assisted 3D (C3D) می نامیم. . در روش پیشنهادی C3D ، ابتدا از یک شبکه عصبی کانونی (CNN) استفاده می کنیم تا به طور مشترک یک شیء سه بعدی را در یک صحنه و دسته صحنه آن تشخیص دهیم. سپس ، ما نتیجه تشخیص را بیشتر با یک الگوی شرطی تصادفی (CRF) بهبود می بخشیم که شامل پتانسیل شی ، پتانسیل صحنه ، زمینه صحنه / موضوع ، متن موضوع / موضوع و هندسه اتاق است. آزمایش های گسترده ای انجام شده است که نشان می دهد روش C3D پیشنهادی به عملکرد پیشرفته ای برای تشخیص شیء ۳D در برابر مجموعه داده های معیار SUN RGB-D دست می یابد.