Рубріки: Інтерв'юНовини

«Величезний ринок, але люди нічого не знають окрім ChatGPT»: кофаундер SPUNCH розповів про розробку і використання ШІ

Ігор Шелудченко

Штучний інтелект останнім часом все більше привертає нашу увагу, інтегруючись практично у всі сфери життя.

Найбільші дискусії прямо зараз — навколо ШІ. Вчені по-різному оцінюють його перспективи: деякі сповнені оптимізмом і вважають, що він здатен зробити наше життя продуктивнішим, інші ж бачать абсолютно антиутопічні сценарії.

Пропонуємо вашій увазі інтерв’ю з співзасновником та головою ШІ-департаменту стартапу SPUNCH , популяризатором ШІ в Україні з прикладним досвідом Анаром Лавреновим.

Під час чат-інтерв’ю питання могли задати всі охочі, не тільки редакція.  Самі запитання виділені курсивом.

Про SPUNCH, розробку та труднощі в роботі

Як почуває себе український стартап на такому висококонкурентному ринку? Скільки вас взагалі працює в SPUNCH? Наймали/звільняли в 2023?

Починали ми, на дивину, не як аутсорс агенція. Ми робили свій стартап IXNOME. А вже після цього ввійшли в сферу аутсорсу. Так як ми спеціалізуємося на ШІ-рішеннях, то конкуренція тут значно слабша, ніж в кастомній розробці. Головна проблема — це пояснити людям, що таке ШІ. Й що ШІ — це далеко не тільки ChatGPT.

Переглядаючи ваше портфоліо, побачив, що ви розробили чат-бота Zidy. Які технології/моделі використовували для цього? Що дозволяє йому бути конкурентним?

Кажучи про Zidy — наша робота в ньому полягала не в створенні ШІ рішень для цієї компанії, а в дизайні. Тому тут про ШІ сказати не можу, оскільки залучалася не наша команда. Але кажучи про чат-ботів, ми працюємо як з готовими рішеннями (предтреновані моделі, які файнтюняться), так і пишемо свої власні, якщо строки дозволяють. Особливо полюбляємо створювати власні моделі.

А як вирішуєте проблему з тестувальниками ШІ? Нігерійці по 10 центів? 

Ну тут питання насправді в тому, що, на відміну від software-історії, саме тестування дата сайнс частини часто лягає на руки самого інженера. Якщо казати про частину навчання моделі та її оптимізації.

Якщо казати про продакшн, коли модель вже задеплоїли на сервер, то рядовий QA (українець) впорається з цією задачею.

Інше питання —це дата-аннотатори, це більш затребована професія наразі.

Який у вас «етікал фреймворк»? Чи поставало це питання в розробці?

Наразі головні принципи, яких притримуємося — це безпека даних і розумна вартість. Це окремий вид мистецтва, оскільки постає питання про сервери, глибину моделі та інші штуки, які потрібно оптимізувати

Що по харду? Свій чи орендований? Чіпи купити виходить?

По харду насправді все просто. Більшість моделей можно побудувати на A100 GPU, якщо казати про детекцiю, сегментацiю, рекомендаційні системи, аналітику та класичний ML.

Якщо казати про важкі задачі по CV&NLP, де потрібні важкі моделі, то тут, окрім як віддалених GPU-серверів (навіть для інференсу) нічого не підійде.

Які зараз є труднощі та як з ними боретесь?

Ось, наприклад, один з останніх кейсів. Нещодавно викатили модель Mistral7B. Для інференсу на A100 GPU потребує 15 сек. Тому тут потрібно навіть більше ніж стандартні потужності.

Головна складність — потенційно є величезний ринок, якому потрібні ШІ-рішення. Але люди, не тільки тут, а й за кордоном, майже нічого про ШІ не знають окрім ChatGPT та Stabble Diffusion.

Є тонна банків, де ШІ майже не використовуються. Коли люди дізнаються більше про це — вони просто у шоці.

Copilot, ChatGPT, Bard

Який ШІ-помічник чи їх комбінації краще використовувати розробникам? Читав гарне про GitHub Copilot, але потім від знайомих програмістів чув, що й він на один і той самий промпт може різні результати видавати. І не завжди релевантні.

О, ну тут є дуже гаряче рішення. На днях OpenAI випустив так званих асистентів. Їх перевага над попередніми генераторами коду в тому, що вони можуть приймати в себе інформацію юзера у вигляді посібників по коду, технік та стандартів програмування й, базуючись на цьому, надавати куда більш кваліфіковану генерацію ніж той же Copilot.

Але ж Copilot вчився на тонах коду з GitHub…

Тона коду означає різнорівневий код по якості, тобто тут немає ніякого контексту. Якби була б змога відфільтрувати код під саме мої стандарти, які я хочу бачити як код-ревьювер, то так.

Але загалом треба розуміти, що всі ці помічники — це всього лише генератори тексту, які вчаться предіктити наступний токен. Помилки тут дуже вірогідні.

Питання про різні варіанти використання ШІ.
Великі компанії використовують ШІ для відбору кандидатів при рекрутингу. Наскільки цей процес дійсно можна довірити ШІ? І чи варто спішити підлаштовувати своє cv під алгоритми таких роботів?

Питання гаряче і відповідь прямо так сказати «із» печі. Декілька тижнів тому до нас звернувся клієнт, у якого больше 200 рекрутерів. Їх вже готовий продукт був повністю побудований на автоматизації: ШІ створює джоп пост, шукає кандидатів, задає їм питання через відео, аналізує їх відповіді та потім контактує з найкращими.

Так ось, цей клієнт використовував під капотом ChatGPT. Але з такими вхідними-вихідними даними, йому це вартувало, дуже грубо кажучи – в копійку. Тому він прийшов, щоб замінити цю модель на безкоштовну без значної втрати якості.

Кажучи про оптимізацію свого CV, то тут би не радив, оскільки ми не знаємо який алгоритм юзається в якій компанії. Та й компаній таких ще меньшість, рекрутери ще живі.

Але ж чи надовго…

Враховуючт темпи усвідомлення корисності ШІ в Укріїні — так, надовго, навіть єпітетів підбирати не буду. Я був нещодавно на конференціїї — Розвиток IT в Україні. Це, можна сказати, одна з наймасштабніших конференцій, де мені довелося бувати. Основною темою був ШІ. Нічого окрім чат ChatGPT не обговорювалося.

Бліц. Bard чи ChatGPT?

Bard.

Чому?

Ненавиджу ChatGPT, можу пояснити чому.

Дата сайнс спільнота завжди працювала на засадах опенсорс, щоб наступні розробники могли покращувати цей напрямок.

Ці розумні хлопці з OpenAI слідкували, брали собі на замітку та іноді просто переюзали готові рішення, щоб зробити модель комерційною. Це дуже неетично в нашій сфері, дії на грані фолу. Тут краще казати PaidAI. 

Я дуже сподіваюсь, що на Gemini від гугл буде працювати на рівні та OpenAI трохи «попуститься”

Є сервіс для озвучки текста (не будемо казати який), там вже є навчені моделі. І туди ж можна завантажити уривок свого голосу (або не свого). Як воно так швидко, на льоту адаптується і по уривку в 30 секунд генерує схожу озвучку? Мені здається, це ж не можливо так швидко обучити модель?

Дуже гарне питання. Тут скоріш усього, модель не навчається, а проводить інференс. Вона приймає ваш голос-розкладує на тензори мел спектрограмних коєфіціентів та генерує відповідні коефіцієнти для кожного слова.

Потім ці коефіцієнти переводятся в голос, я майже впевнений, що там саме такий алгоритм

Cкільки зусиль вартує навчити модель генерувати зображення по промпту? Хоча б примітивне.

Тут треба задіяти архітектуру GAN — генеративно змагальні сітки. Вони складаються з генератора, який на вхід буде приймати текст, конвертувати в скритий стан. Також є дискримінатор, якому подається згенерована картинка та реальна й він виступає бінарним класифікатором.

Ось так генератор буде намагатися згенерувати картинку, щоб дискримінатор вважав, що вона реальна, а дискримінатор буде намагатися бути максимально уважним.

Для цього потрібно багато картинок та тексту, який відповідає таким картинкам.

GAN-сітки навчаються достатьно важко та довго. Тому тут я би дав оцінку від 3 до 6 місяців в залежності від вимог різноманіття сітки

Чого чекати? Що читати?

Фантазуючи на тему «в найближчому майбутньому розробники розділяться на інженерів ШІ або операторів», що можете сказати? )

Ось тут сто відсотків таке буде. Здібності ШІ в генерації коду вже наразі просто неймовірні. З точки зору технологій можу сказати, що технологічно вже це абсолютно можливо. Але люди значно повільніші. В найближчий рік не думаю, що доповземо до цього точно.

Тобто, в найближчі роки коварний ШІ ще не відбере роботу у айтівців?

О ні. Зараз немає AGI – ШІ, який може імітувати здатності людського мозку повноцінно чи майже повноцінно. Якщо дивитися під капот, то наразі найпередовіша технолігя стосується NLP -> генерація текста ->  Увага (Attention), який достатньо вже старий по міркам IT. Тобто, ми маємо зараз справу виключно з генерацією текста.

Намаються створювати агентів, які здатні приймати рішення, проте вони дуже слабкі.

Спокійно, поки живем.

Які поради можете дати нам, як «звичайним користувачам»?

Читайте статті по Машинному навчанню:

1. Що таке Машинне навчання та які підрозділи в нього є.
2. Як працюють і навчаються нейромережі на простих прикладах.
3. Знаходити кейси використання ШІ не в NLP. Вони вас точно здивують

Які джерела інформації про ШІ вважаєте корисними та актуальними?

Якщо не брати ультранаукові (а в дата сайнсі більшість саме таких), рекомендую медіум дуже, як почнете читати про цю сферу, то полізуть рекомендалки схожі, буде дуже круто.

Та й я написую час від часу в LinkedIn. Cподіваюсь, простою мовою.

Читайте також:

ШІ-копілоти, чат-боти та віртуальні помічники для написання коду. Які бувають і що можуть

Користувачів Dropbox налякала нова ШІ-функція, яка зливає дані OpenAI

Meta запустила новий інструмент ШІ в Instagram: тепер можна редагувати фон

Долучайтесь до наступних інтерв’ю в чаті Highload!

Останні статті

Розробники хочуть створити «Дія. Канали» — альтернативу Telegram та іншим месенджерам

Розробники ГО «Аналітичний центр Інформаційних ресурсів» планують створити альтернативу Telegram та іншим месенджерам — «Дія.…

13.05.2024

Кількість заброньованих айтівців за два місяці збільшилась в півтора рази

В Україні станом на 10 травня трохи менше як 4050 айтівців мають актуальну бронь. Про…

13.05.2024

Brave1 збільшив гранти для оборонних розробок: можна отримати до 2 млн гривень

Кластер Brave1 збільшує гранти для оборонних розробок — тепер можна отримати від 500 тис до…

10.05.2024

Softserve, Luxoft та Infopulse. З’явився рейтинг найбільших платників податків серед IT-компаній

За 2023 рік IT-компанії сплатили сплатили в державний бюджет 20,8 мільярда гривень податків. Це 7,4%…

10.05.2024

«За заслуги перед компанією»: Microsoft розморозить підвищення зарплат співробітникам

Корпорація Microsoft планує відновити підвищення зарплат для найбільш ефективних співробітників. Про це повідомив Insider. Вірогідне…

10.05.2024

Мінекономіки запустило пільгові гранти для виробників дронів

Міністерство економіки запропонувало виробникам дронів пільгові гранти від держави за програмою «Переробка». Про це йдеться…

09.05.2024