Artwork

Content provided by Mikhail. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by Mikhail or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://ro.player.fm/legal.
Player FM - Aplicație Podcast
Treceți offline cu aplicația Player FM !

#062 ML Александр Резанов. Генеративный ИИ в компьютерном зрении

1:04:25
 
Distribuie
 

Manage episode 441572580 series 2602683
Content provided by Mikhail. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by Mikhail or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://ro.player.fm/legal.
В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!

Ссылки выпуска:

Статья на arxiv про вариационные автоэнкодеры (https://arxiv.org/abs/1312.6114)

Статья на arxiv про генеративно-состязательные сети (https://arxiv.org/abs/1406.2661)

Сайт с фотографиями несуществующих людей (https://thispersondoesnotexist.com/)

Статья на arxiv про Latent Diffusion Model (https://arxiv.org/abs/2112.10752)

OpenSource интерфейсы для диффузионных сетей:

1. AUTOMATIC1111 (https://github.com/AUTOMATIC1111/stable-diffusion-webui)

2. ComfyUI (https://github.com/comfyanonymous/ComfyUI)

Буду благодарен за обратную связь!

Мой телеграм для связи (https://t.me/kmsint)

Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (https://t.me/toBeAnMLspecialist)

Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!

Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_62).

Выразить благодарность можно добрым словом и/или донатом (https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)

  continue reading

67 episoade

Artwork
iconDistribuie
 
Manage episode 441572580 series 2602683
Content provided by Mikhail. All podcast content including episodes, graphics, and podcast descriptions are uploaded and provided directly by Mikhail or their podcast platform partner. If you believe someone is using your copyrighted work without your permission, you can follow the process outlined here https://ro.player.fm/legal.
В гостях выпуска Александр Резанов - ML Engineer в Higgsfield AI, специалист по генеративному компьютерному зрению, о котором мы и будем говорить. Как развивалась область генеративного AI, какие подходы к генерации картинок применялись тогда и какие применяются сейчас. Нормализующие потоки, состязательные сети и диффузионные модели. Что с генерацией видео? Можно ли уже сейчас генерировать качественные видеоролики по текстовому описанию? Имеет ли смысл тягаться с корпорациями, вваливающими миллиарды долларов в вычислительные мощности, если у тебя одна не самая мощная видеокарточка? Где происходит все самое интересное по теме для обычного пользователя? Как учатся GAN'ы и как из шума получать фотореалистичные изображения? Reddit как источник идей и вдохновения для современных исследователей. Обо всем этом, и даже немного про сверхпроводимость в условиях комнатных температур, в выпуске!

Ссылки выпуска:

Статья на arxiv про вариационные автоэнкодеры (https://arxiv.org/abs/1312.6114)

Статья на arxiv про генеративно-состязательные сети (https://arxiv.org/abs/1406.2661)

Сайт с фотографиями несуществующих людей (https://thispersondoesnotexist.com/)

Статья на arxiv про Latent Diffusion Model (https://arxiv.org/abs/2112.10752)

OpenSource интерфейсы для диффузионных сетей:

1. AUTOMATIC1111 (https://github.com/AUTOMATIC1111/stable-diffusion-webui)

2. ComfyUI (https://github.com/comfyanonymous/ComfyUI)

Буду благодарен за обратную связь!

Мой телеграм для связи (https://t.me/kmsint)

Подписывайтесь на телеграм-канал "Стать специалистом по машинному обучению" (https://t.me/toBeAnMLspecialist)

Я сделал бесплатный курс по созданию телеграм-ботов на Python и aiogram на Степике (https://stepik.org/120924). Присоединяйтесь, если хотите научиться разрабатывать телеграм-ботов!

Также в соавторстве с крутыми разработчиками я пишу курс по продвинутой разработке телеграм-ботов с элементами микросервисной архитектуры (https://stepik.org/a/153850?utm_source=mlpodcast&utm_campaign=ep_62).

Выразить благодарность можно добрым словом и/или донатом (https://www.tinkoff.ru/rm/kryzhanovskiy.mikhail11/NkwE718878/)

  continue reading

67 episoade

Toate episoadele

×
 
Loading …

Bun venit la Player FM!

Player FM scanează web-ul pentru podcast-uri de înaltă calitate pentru a vă putea bucura acum. Este cea mai bună aplicație pentru podcast și funcționează pe Android, iPhone și pe web. Înscrieți-vă pentru a sincroniza abonamentele pe toate dispozitivele.

 

Ghid rapid de referință

Listen to this show while you explore
Play