مایکروسافت مفتخر است که حامی پلاتینی سی و ششمین کنفرانس سالانه سیستمهای پردازش اطلاعات عصبیاست. > (NeurIPS)، که به طور گسترده به عنوان معتبرترین کنفرانس تحقیقاتی جهان در زمینه هوش مصنوعی و یادگیری ماشین در نظر گرفته می شود.
مایکروسافت امسال نیز حضور پررنگی در NeurIPS دارد و بیش از 150 محقق ما در کنفرانس شرکت کردند و 122 مقاله تحقیقاتی ما پذیرفته شد. محققان ما همچنین در 10 کارگاه آموزشی، چهار مسابقه و یک آموزش شرکت می کنند.
در یکی از کارگاهها، AI for Science: Progress and Promises، گروهی از محققان برجسته درباره چگونگی پتانسیل هوش مصنوعی و یادگیری ماشینی برای پیشبرد اکتشافات علمی بحث خواهند کرد. این پانل شامل دو محقق مایکروسافت خواهد بود: Max Welling، معاون و دانشمند برجسته، Microsoft Research AI4Science، که به عنوان ناظر و پیتر لی، معاون شرکت، تحقیقات و رشد مایکروسافت.
از 122 مقاله تحقیقاتی مایکروسافت پذیرفته شده برای کنفرانس، هفت مقاله برای ارائه شفاهی در طول تجربه مجازی NeurIPS در هفته 4 دسامبر th انتخاب شده است. ارائههای شفاهی بررسی عمیقتری در هر یک از موضوعات تحقیقاتی برجسته ارائه میدهند.
علاوه بر این، دو مقاله تحقیقاتی دیگر مایکروسافت جوایز مقاله برجسته برای NeurIPS 2022. یکی از این مقالات، تخمین گرادیان با عملگرهای گسسته Stein، توضیح می دهد که چگونه محققان یک برآوردگر گرادیان ایجاد کردند که واریانس بسیار کمتری نسبت به برآوردگرهای پیشرفته با تعداد یکسان ارزیابی عملکرد، که پتانسیل بهبود حل مسئله در یادگیری ماشین را دارد. در مقاله دیگر، یک نمایه ساز پیکره عصبی برای بازیابی اسناد، محققان نشان میدهند که یک شبکه عصبی عمیق سرتاسر که مراحل آموزش و نمایهسازی را یکسان میکند، میتواند عملکرد فراخوانی روشهای سنتی بازیابی اسناد را به طور قابلتوجهی بهبود بخشد.
رویداد در کانون توجه: رویداد درخواستی
اجلاس تحقیقاتی مایکروسافت 2022
در صورت تقاضا اکنون تماشا کنید تا در مورد برخی از مبرمترین سؤالات پیش روی جامعه تحقیقاتی ما بیاموزید و به مکالمات با بیش از 120 محقق در مورد چگونگی اطمینان از آن گوش دهید فن آوری های جدید گسترده ترین منافع ممکن را برای بشریت دارند.
در زیر عناوین، نویسندگان و چکیدههای هر هفت مقاله تحقیقاتی مایکروسافت را که برای ارائه شفاهی در NeurIPS انتخاب شدهاند، همراه با پیوندهایی به اطلاعات بیشتر برای کسانی که میخواهند موضوعات را به طور کامل کاوش کنند، ارائه کردهایم:
یونی[MASK]: استنتاج یکپارچه در مسائل تصمیم گیری متوالی
میکا کارول، اور پارادایس، جسی لین، Raluca Georgescu، Mingfei Sun، David Bignell، Stephanie Milani، کاتجا هافمن، متیو هاوسکنشت، آنکا دراگان، سام دولین
چکیده : نقابزدایی و پیشبینی تصادفی نشانههای کلمه یک رویکرد موفقیتآمیز در مدلهای زبانی پیش از آموزش برای انواع وظایف پاییندستی بوده است. در این کار، مشاهده میکنیم که همین ایده به طور طبیعی برای تصمیمگیری متوالی نیز اعمال میشود، جایی که بسیاری از وظایف به خوبی مطالعه شده مانند شبیهسازی رفتار، RL آفلاین، دینامیک معکوس، و شرطیسازی نقطه راه با پوششهای توالی متفاوتی بر روی یک دنباله از حالتها، اقدامات، مطابقت دارند. و برمی گردد. ما چارچوب UniMASK را معرفی میکنیم، که روشی واحد برای مشخص کردن مدلهایی ارائه میکند که میتوانند در بسیاری از وظایف مختلف تصمیمگیری متوالی آموزش داده شوند. ما نشان میدهیم که یک مدل UniMASK اغلب قادر به انجام بسیاری از وظایف با عملکردی مشابه یا بهتر از مدلهای تک وظیفهای است. علاوه بر این، پس از تنظیم دقیق، مدلهای UniMASK ما به طور مداوم از مدلهای تک کاره قابل مقایسه بهتر عمل میکنند.
K-LITE: یادگیری مدل های بصری قابل انتقال با دانش خارجی
شنگ شن، چونیوان لی، Xiaowei Hu، Yujia Xie، جیانوی یانگ ، پنگ چوان ژانگ، ژه گان، لیجوان وانگ، لو یوان، Ce Liu، Kurt Keutzer، Trevor دارل، آنا رورباخ، جیانفنگ گائو
چکیده : نسل جدید سیستمهای بینایی کامپیوتری پیشرفته از نظارت زبان طبیعی، از نامهای دستهبندی اشیاء ساده تا زیرنویسهای توصیفی آموزش دیدهاند. این شکل از نظارت، عمومیت و قابلیت استفاده بالای مدلهای بصری آموختهشده را بر اساس پوشش مفهومی گسترده که از طریق فرآیند جمعآوری دادهها در مقیاس بزرگ به دست میآید، تضمین میکند. روش دیگر، ما استدلال میکنیم که یادگیری با دانش خارجی در مورد تصاویر، روشی امیدوارکننده است که از منبع بسیار ساختارمندتری نظارت بهره میبرد و کارایی نمونه را ارائه میدهد.
در این مقاله، K-LITE (آموزش و ارزیابی تصویر-زبان تقویت شده با دانش)، یک استراتژی ساده برای استفاده از دانش خارجی برای ساختن سیستمهای بصری قابل انتقال را پیشنهاد میکنیم: در آموزش، موجودیتها را به زبان طبیعی با WordNet و ویکیواژه غنی میکند. دانش، منجر به یک رویکرد کارآمد و مقیاس پذیر برای یادگیری بازنمایی تصویر می شود که از دانش در مورد مفاهیم بصری استفاده می کند. در ارزیابی، زبان طبیعی نیز با دانش بیرونی تقویت میشود و سپس برای ارجاع به مفاهیم بصری آموخته شده (یا توصیف مفاهیم جدید) استفاده میشود تا انتقال صفر و چند شات مدلهای از پیش آموزشدیده را امکانپذیر سازد. ما عملکرد K-LITE را بر روی دو مشکل مهم بینایی کامپیوتری، طبقهبندی تصویر و تشخیص اشیا، محک زدن بر روی 20 و 13 مجموعه دادههای مختلف موجود مطالعه میکنیم. مدلهای تقویتشده دانش پیشنهادی بهبود قابلتوجهی را در عملکرد یادگیری انتقال نسبت به روشهای موجود نشان میدهند. کد ما در https://github.com/microsoft/klite منتشر شده است.
Xiaoxia Wu، Zhewei Yao، مینجیا ژانگ، کنگلونگ لی، Yuxiong He
چکیده : فشردهسازی فوقالعاده، بهویژه کوانتیزاسیون با دقت بیت فوقالعاده کم (دودویی/سهگانه)، برای جا دادن مدلهای بزرگ NLP در دستگاههای محدودیت منابع پیشنهاد شده است. با این حال، برای حفظ دقت برای چنین طرحهای فشردهسازی تهاجمی، روشهای پیشرفته معمولاً خطوط لوله فشردهسازی پیچیده را معرفی میکنند، به عنوان مثال، تقطیر دانش گران چند مرحلهای با تنظیم فراپارامتر گسترده. همچنین، آنها اغلب کمتر بر روی مدلهای ترانسفورماتور کوچکتر تمرکز میکنند که قبلاً به شدت از طریق تقطیر دانش فشرده شدهاند و فاقد مطالعه سیستماتیک برای نشان دادن اثربخشی روشهایشان هستند.
در این مقاله، ما یک مطالعه سیستماتیک بسیار جامع را برای اندازهگیری تأثیر بسیاری از فراپارامترهای کلیدی و استراتژیهای آموزشی از قبلی انجام میدهیم. در نتیجه، متوجه میشویم که خطوط پایه قبلی برای کوانتیزاسیون با دقت فوقالعاده کم بهطور قابلتوجهی آموزشدیده نیستند. بر اساس مطالعه ما، ما یک خط لوله فشرده سازی ساده و در عین حال موثر برای فشرده سازی شدید پیشنهاد می کنیم.
خط لوله ساده شده ما نشان می دهد که:
(1) میتوانیم از تقطیر دانش قبل از آموزش صرف نظر کنیم تا یک bert 5 لایه به دست آوریم و در عین حال عملکرد بهتری نسبت به روشهای پیشرفته قبلی مانند TinyBERT داشته باشیم.
(2) کوانتیزاسیون شدید به علاوه کاهش لایه می تواند اندازه مدل را تا 50 برابر کاهش دهد، که منجر به نتایج پیشرفته جدید در وظایف GLUE می شود.
در مورد پیچیدگی تصمیم گیری خصمانه
دیلان جی فاستر، الکساندر راخلین، آیوش سخاری، کارتیک سریدهران
چکیده : یک مشکل اصلی در یادگیری آنلاین و تصمیمگیری – از راهزنها تا یادگیری تقویتی – این است که بفهمیم چه فرضیات مدلسازی منجر به تضمین یادگیری کارآمد برای نمونه میشود. ما یک چارچوب کلی تصمیمگیری خصمانه را در نظر میگیریم که شامل مشکلات راهزن (ساختیافته) با پاداشهای خصمانه و مشکلات یادگیری تقویتی با پویایی خصمانه است. نتیجه اصلی ما این است که – از طریق کرانهای بالا و پایین جدید – نشان دهیم که ضریب تصمیم-تخمین، یک معیار پیچیدگی است که توسط فاستر و همکاران معرفی شده است. در همتای تصادفی تنظیمات ما، برای به دست آوردن پشیمانی کم برای تصمیم گیری خصمانه لازم و کافی است. با این حال، در مقایسه با تنظیمات تصادفی، باید ضریب تصمیم-تخمین را برای بدنه محدب کلاس مدلها (یا فرضیهها) مورد بررسی اعمال کرد. این نشان میدهد که قیمت تطبیق پاداشها یا پویاییهای متخاصم توسط رفتار کلاس مدل تحت محدب کنترل میشود و تعدادی از نتایج موجود – مثبت و منفی – را بازیابی میکند. در مسیر دستیابی به این تضمینها، ما نتایج ساختاری جدیدی ارائه میکنیم که ضریب تصمیمگیری-تخمین را به انواع دیگر معیارهای پیچیدگی معروف، از جمله نسبت اطلاعات روسو و ون روی و هدف اکتشاف با بهینهسازی لاتیمور و گیورگی متصل میکند. .
حداکثر جداسازی کلاس به عنوان سوگیری القایی در یک ماتریس
تجاسوی کاسارلا، گرتجان جی. بورگوتس، مکس ون اسپنگلر، الیزه ون در پل، ریتا کوچیارا، پاسکال متس
چکیده : به حداکثر رساندن جدایی بین کلاسها یک سوگیری استقرایی شناخته شده در یادگیری ماشین و ستونی از بسیاری از الگوریتمهای سنتی است. به طور پیشفرض، شبکههای عمیق به این بایاس القایی مجهز نیستند و بنابراین راهحلهای جایگزین زیادی از طریق بهینهسازی دیفرانسیل پیشنهاد شدهاند. رویکردهای فعلی تمایل به بهینهسازی طبقهبندی و جداسازی مشترک دارند: تراز کردن ورودیها با بردارهای کلاس و جداسازی بردارهای کلاس به صورت زاویهای.
این مقاله یک جایگزین ساده پیشنهاد میکند: رمزگذاری حداکثر جداسازی به عنوان یک سوگیری استقرایی در شبکه با افزودن یک ضرب ماتریس ثابت قبل از محاسبه فعالسازیهای softmax. مشاهدات اصلی پشت رویکرد ما این است که جداسازی نیازی به بهینهسازی ندارد، اما میتوان آن را به صورت بسته قبل از آموزش حل کرد و به شبکه متصل کرد. ما یک رویکرد بازگشتی را برای به دست آوردن ماتریس متشکل از بردارهای حداکثر قابل تفکیک برای هر تعداد کلاس ترسیم می کنیم که می تواند با تلاش مهندسی ناچیز و سربار محاسباتی اضافه شود. علیرغم ماهیت ساده آن، این ضرب یک ماتریس تأثیر واقعی را ارائه می دهد. ما نشان میدهیم که پیشنهاد ما مستقیماً طبقهبندی، تشخیص طولانی مدت، تشخیص خارج از توزیع و شناسایی مجموعه باز را از CIFAR به ImageNet افزایش میدهد. ما به طور تجربی دریافتیم که تفکیک حداکثر به عنوان یک سوگیری ثابت بهترین کار را دارد. یادگیری ماتریس چیزی به عملکرد اضافه نمی کند. پیاده سازی فرم بسته و کد برای بازتولید آزمایش ها در GitHub موجود است.
شبکه های عصبی رگرسیون چندکی سانسور شده برای تجزیه و تحلیل بقای بدون توزیع
تیم پیرس، Jong-Hyeon Jeong، Yichen Jia، Jun Zhu
چکیده : این مقاله انجام رگرسیون کمی را روی دادههای سانسور شده با استفاده از شبکههای عصبی (NN) در نظر میگیرد. این امر با امکان پیشبینی مستقیم متغیر هدف، همراه با توصیف بدون توزیع عدم قطعیت، با استفاده از یک تقریبکننده تابع انعطافپذیر، به جعبه ابزار تحلیل بقا اضافه میکند. ما با نشان دادن اینکه چگونه یک الگوریتم محبوب در مدل های خطی را می توان برای NN ها اعمال کرد، شروع می کنیم. با این حال، روش به دست آمده ناکارآمد است و به بهینه سازی متوالی یک NN منفرد در هر چندک مورد نظر نیاز دارد. سهم عمده ما یک الگوریتم جدید است که به طور همزمان شبکه ای از چندک های خروجی را توسط یک NN واحد بهینه می کند. برای ارائه بینش نظری به الگوریتم خود، اولاً نشان میدهیم که میتوان آن را بهعنوان شکلی از حداکثر کردن انتظارات تفسیر کرد، و ثانیاً ویژگی «خود تصحیحکننده» مطلوبی را نشان میدهد. از نظر تجربی، این الگوریتم چندک هایی را تولید می کند که نسبت به روش های موجود در 10 از 12 مجموعه داده واقعی کالیبره بهتری دارند.
یادگیری (بسیار) مدل های مولد ساده سخت است
سیتان چن، جری لی، یوانژی لی
چکیده : با انگیزه موفقیتهای تجربی اخیر مدلهای مولد عمیق، پیچیدگی محاسباتی مسئله یادگیری بدون نظارت زیر را مطالعه میکنیم. برای یک شبکه عصبی ناشناخته (F:mathbb{R}^dtomathbb{R}^{d’})، اجازه دهید (D) توزیع روی (mathbb{R}^{ باشد. d’}) با فشار دادن گاوسی استاندارد (mathcal{N}(0,textrm{Id}_d)) از طریق (F) داده میشود. با توجه به i.i.d. نمونه از (D)، هدف خروجی توزیع ({any}) نزدیک به (D) در فاصله آماری است.
ما تحت مدل جستجوی آماری (SQ) نشان میدهیم که هیچ الگوریتم زمان چند جملهای نمیتواند این مشکل را حل کند حتی زمانی که مختصات خروجی (F) شبکههای ReLU یک لایه پنهان با (log(d) باشند. ) نورون ها قبلاً، بهترین کرانهای پایین برای این مشکل به سادگی از کرانهای پایینی برای (نظارتشده) (یادگیری) دنبال میشد و حداقل به دو لایه پنهان و نورون (poly(d)) نیاز داشت [Daniely-Vardi ’21, Chen -Gollakota-Klivans-Meka ’22].
عنصر کلیدی در اثبات ما یک ساختار مبتنی بر ODE از یک تابع خطی تکه تکهای با پشتیبانی فشرده (f) با شیبهای محدود چندجملهای است به طوری که فشار به جلو (mathcal{N}(0,1 )) زیر (f) با تمام لحظات درجه پایین (mathcal{N}(0,1) مطابقت دارد.