پرتره ­های ویدیویی عمیق و تصاویر جعل عمیق، چه هستند و تفاوت آن‌ها در چیست؟

Drag to rearrange sections
Rich Text Content

 

تا به حال حتما اسم Deepfake یا جعل عمیق را شنیده­اید، اما ممکن است ندانید که انواع مختلفی از تکنولوژی وجود دارند که می‌توانند ویدیوها و صداهای ساختگی ایجاد کنند.​

همه ما با تصاویر "فوتوشاپ شده" آشنا هستیم، و اینکه آن‌ها چقدر شایع شده‌اند. ما همچنین با جلوه‌های ویدیویی ‏‏و جلوه‌های ویژه‌ای که برای چندین دهه در فیلم‌ها مورد استفاده قرار گرفته‌اند، آشنا هستیم. اما به لطف "جعل عمیق یا Deepfake" عصر جدیدی از تحولات رسانه­ای پیش روی ما قرار گرفته است. ​

بر اساس تحقیقات تیم فنی شرکت نیافام ( توسعه دهنده پورتال سازمانی هوشمند) : تکنولوژی تصاویر ویدیویی جعل عمیق و پرتره ­های ویدیویی عمیق دو تکنیک مشابه اما متفاوت مورد استفاده در فیلم‌های هالیوودی، ویدیوهای یوتیوب و ... هستند. اما این تکنولوژی­ها واقعا چه هستند و چگونه کار می‌کنند؟ ​

اگر تا به حال ویدیویی که در آن چهره نیکولاس کیج بر روی یک بازیگر فیلم دیگر قرار گرفته‌است را ندیده اید، پس قطعا یکی از فیلترها یا ماسک‌های رسانه‌های اجتماعی را دیده‌اید که می‌تواند شما را به یک گربه تبدیل کند، کلاه سرآشپز به سرتان بگذارد یا شما را به یک تک‌شاخ تبدیل کند. ​

شاید شما فیلمی را دیده باشید که در آن جوردن پیل کمدین نشان می‌دهد که چطور صورت کسی (‏در این مورد، رئیس‌جمهور سابق امریکا باراک اوباما) ‏در یک ویدیو می‌تواند دستکاری شود تا به نظر برسد چیزی می‌گوید که هرگز انجام نداده است. ​

 

حال سوال این است"Deepfake" دقیقا چیست؟

​​​​​​در مرکز آن، چیزی است که ممکن است فکر کنید که صرفا یک جابه­جایی صورت است. ​اما یک دیپ فیک، یک ویدیو ساخته شده به کمک هوش مصنوعی است که با گرفتن تعدادی (‏معمولا صدها یا هزاران)‏ عکس از یک شخص ایجاد شده‌است. این تصاویر را می توان از چند منبع، مانند اینستاگرام شخص، فیس بوک، اسنپ چت، یا حتی جستجوی تصویر گوگل دانلود کرد. ​

نرم‌افزار هوش مصنوعی و دیپ فیک، چهره تصاویر منبع را ترسیم و یک مدل چهره سه‌بعدی براساس عکس‌هایی که دریافت کرده، ایجاد می‌کند. این مدل محدوده و ویژگی‌های چهره بازیگر هدف را ترسیم می‌­نماید.

همچنین به نرم‌افزار یک ویدیو منبع داده می‌شود که شامل یک صورت هدف است که کاربر می‌خواهد آن را جایگزین کند. هوش مصنوعی همچنین چهره فرد در ویدیو را ترسیم  و دوباره یک مدل سه‌بعدی را ایجاد می‌کند. ​اینجا جایی است که هوش مصنوعی شروع به تطبیق مدل منبع با مدل هدف می‌کند. هوش مصنوعی از طریق تصاویری که به آن داده‌ شده ‌است یاد می­گیرد.

سپس هوش مصنوعی، صورت سه‌بعدی تولید شده را از عکس‌های منبع بر روی مدل ۳ بعدی ویدیوی هدف اعمال می‌کند و ویدیویی تولید می‌کند که در آن حرکات صورت، دهان، چشم‌ها و غیره با هم مطابقت دارند و در محدوده صورت اصلی کار می‌کنند. ​ منبع این موضوع یک سری عکس ثابت است و نتیجه فیلم جعل عمیق یک ویدیو با صورت جایگزین شده‌است.

 

تفاوت دیپ فیک با یک پرتره ویدیویی عمیق(Deep Video Portrait) چیست؟

​​​​​​تفاوت میان یک جعل عمیق(Deepfake) و یک پرتره ویدیویی عمیق(DVP) ‏در دو تمایز کلیدی است:

۱. ویدیوی خروجی از یک دی‌وی‌پی جایگزین صورت نمی‌شود، تنها ویژگی‌ها را دستکاری می‌کند. ​

۲. منبع یک دی‌وی‌پی از یک بازیگر زنده سرچشمه می‌گیرد، نه از عکس‌های جداگانه. ​​

 

ویدیویی که اوباما درباره فیلم­های جعلی صحبت می‌کند، نمونه‌ای از یک دی وی پی است، نه یک Deepfake. یک بازیگر وجود دارد که روی صورت او نقشه‌کشی شده‌است، و از آنجایی که شما جایگزین صورت هدف نیستید و تنها باعث حرکت صورت هدف می‌شوید، نتیجه می‌تواند باورپذیرتر از جعل عمیق باشد. ​

سازندگان دی وی پی می‌توانند کارهایی مانند پلک زدن هدف، باز کردن دهان، بالا بردن ابروها، و خم کردن سر به کنار براساس حرکات بازیگر منبع انجام دهند. از طرف دیگر، دیپ فیکس نمی‌تواند واقعا از حرکات ویدیوی اصلی منحرف شود. به همین دلیل است که DVP بیش از یک deepfake باورکردنی است. ​

به طور مثال: یک ماسک فیلتر اسنپ چت یا اینستاگرام یک دی وی پی است، نه یک جعل عمیق. علت آن این است که بازیگر خود شما هستید (‏هدف صورت شما را تغییر نمی‌دهد)‏، اما صورت شما نقشه‌برداری شده‌است و برنامه به سادگی چیزی را بر روی صورت شما قرار می‌دهد.

 

 

صدای جعلی و پرتره‌های ویدیویی عمیق

​​​​​​نوع دیگری از محتوای تقلبی که اخیرا دردسترس­تر و قویتر شده است بحث تولید صدای جعلی می­باشد.​

در کنفرانس ادوبی مکس کریتیو در سال ۲۰۱۶، ادوبی از سیستمی به نام ووکو(VoCo) رونمایی کرد: یک مجموعه صوتی که می‌تواند به کاربران کمک کند تا مردم هرچه می‌خواهند بگویند. یک سیستم تبدیل متن به آوا است البته با صدای واقعی فرد دیگری! ​

این سیستم تنها به 20 دقیقه شنیدن فایلی از صدای فردی نیاز دارد تا دقیقا همسطح آن را تولید و پخش کند.

البته از آن سال به بعد چیز دیگری در باره این سیستم شنیده نشده است، بعد از مطرح شدن بسیاری از ایرادات حقوقی و حریم شخصی به این سیستم به نظر دیگر در مجامع مطرح نشد، اما ایده­ و مسئله­ای را مطرح کرد که کمپانی­ها و یا گروه­های مختلف به دنبال رسیدن به آن هستند.

اکنون که ایده و تکنولوژی وجود دارد، به طور طبیعی، شرکت‌های دیگر نسخه خود از تکنولوژی تولید صدا را منتشر کرده‌اند. امروزه لیربرد(Lyrebird) سرویسی منتشر کرده‌است که یک آواتار صوتی را برای شما براساس تنها ۳۰ جمله گفتار ورودی (‏در مقابل ۲۰ دقیقه داده مورد نیاز برای وکو)‏تولید می‌کند. ​

​همراه شدن یک دی وی پی با صدایی جعلی می‌تواند باورپذیری را افزایش دهد. یک چنین ترکیبی تمام حواس شما را تحت تاثیر خودش قرار خواهد داد.

 

rich_text    
Drag to rearrange sections
Rich Text Content
rich_text    

Page Comments