09.03.2026
Kiinalainen tekoäly-yhtiö DeepSeek aikoo julkaista ensi viikolla uuden V4-multimodaalimallinsa, joka tukee natiivisti kuvan, videon ja tekstin tuottamista samassa järjestelmässä. Pandailyn mukaan DeepSeekin V4-malli edustaa uutta vaihetta generatiivisen tekoälyn kehityksessä, koska se ei rajoitu pelkkään tekstin käsittelyyn vaan yhdistää useita sisältömuotoja yhdeksi malliksi. Tällainen multimodaalinen rakenne voi helpottaa tekoälyn käyttöä esimerkiksi tutkimuksessa, suunnittelussa, opetuksessa ja audiovisuaalisessa sisällöntuotannossa, joissa saman järjestelmän on ymmärrettävä sekä kieltä että visuaalista informaatiota. Teknologisesti merkittävä piirre on se, että malli tukee natiivisti myös videon generointia. Tämä viittaa siihen, että tekoälymallien kehitys on siirtymässä kohti järjestelmiä, jotka pystyvät käsittelemään yhä monimutkaisempia ajallisia ja visuaalisia rakenteita. Videon tuottaminen vaatii huomattavasti enemmän laskentaa ja rakenteellista ymmärrystä kuin yksittäisen ku ...