Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima
Benchmark OfficeQA pokazao je da najnoviji AI agenti i dalje griješe u više od polovice zadataka koji oponašaju stvarne potrebe poduzeća.

min čitanja

Više