A atualização de primavera da OpenAI é um chatbot mais natural

Pense “Ela” (2013).

Por mais ou menos uma semana, parecia que a OpenAI estava pronta para enfrentar o Google e anunciar um mecanismo de busca baseado em ChatGPT . Neste caso, porém, o boato estava tudo errado. Em vez disso, durante o evento Spring Update da empresa hoje cedo, a OpenAI revelou algumas atualizações modestas no modelo subjacente do ChatGPT – mas de uma forma surpreendente e às vezes perturbadora.

Resumo do conteúdo

Apresentando o GPT-4o, o novo modelo carro-chefe

Também há um novo aplicativo de desktop ChatGPT

Apresentando o GPT-4o, o novo modelo carro-chefe

O grande anúncio da OpenAI foi um novo modelo, GPT-4o. Numa reviravolta, a empresa revelou que o GPT-4o não é apenas para clientes pagantes – está disponível para todos, gratuitamente. A empresa vê o GPT-4o como o primeiro passo para tornar a interação com IA muito mais “natural”, uma postura que fez sentido no decorrer da apresentação.

GPT-4o funciona com voz, texto e visão, para que você possa interagir com ChatGPT usando qualquer tipo de conteúdo que desejar. Além disso, a OpenAI está disponibilizando muitos de seus recursos premium gratuitamente para todos. Usuários gratuitos podem acessar GPTs pela primeira vez através da GPT Store, fazer upload de imagens (documentos ou fotos) e conversar com ChatGPT sobre elas, além de acessar o recurso de memória do ChatGPT. Este último é especialmente útil: o ChatGPT lembrará o que você falou em chats anteriores, para que seus chats futuros sejam informados por essas conversas.

Os usuários pagos ainda têm limites de capacidade de até 5x, então há algo que justifica gastar esses US$ 20 por mês.

OpenAI exibiu o novo modelo demonstrando um exercício respiratório. O demonstrador pediu ao ChatGPT algumas dicas de relaxamento, que incluíam uma instrução para inspirar profundamente. O demonstrador então respirou rápida e ruidosamente, na tentativa de verificar se o modelo identificaria a técnica incorreta. Na verdade, o modelo corrigiu o comportamento, mas ficou um pouco instável: o modelo continuou entrando e saindo enquanto dava feedback sobre a técnica de respiração. Dito isto, você pode interromper “naturalmente” o modelo enquanto ele fala, então é possível que o demonstrador tenha interrompido acidentalmente o tempo todo.

A partir daqui, os manifestantes pediram ao ChatGPT que inventasse uma história. Tudo começou como seria de esperar do ChatGPT, mas um manifestante interrompeu, pedindo mais emoção na voz. Verdade seja dita, foi impressionante como o modelo de voz começou a agir como um dublador de desenho animado, especialmente quando solicitado pela segunda vez para enfatizar as emoções. Ele até começou a falar como um robô estereotipado quando solicitado.

A parte que me incomodou um pouco foi quando os manifestantes mostraram como você pode fornecer ao ChatGPT uma transmissão ao vivo de sua câmera para analisar o ambiente. Eles usaram um exemplo simples de lição de casa de matemática, mas não sei se estou pronto para que o ChatGPT tenha acesso constante ao meu ambiente. Se eu quiser fazer uma pergunta sobre algo que está na minha frente, uma foto ou um vídeo servirá. Para aprofundar meu argumento, durante esta parte da demonstração, eles tentaram desligar o modelo, mas ele inesperadamente disse algo como “uau, essa é a roupa que você está usando”. Sim, realmente não estou aqui para ver a transmissão ao vivo da IA.

Ele também pode identificar expressões faciais na transmissão ao vivo, o que, novamente: assustador. Um manifestante colocou seu rosto no feed e perguntou como eles eram, e ChatGPT disse algo parecido com “um pedaço de madeira”, que o manifestante corrigiu rapidamente, dizendo que estava respondendo a uma imagem que ele havia enviado ao chatbot anteriormente . (Claro, janeiro) Depois que ele deu outra chance ao ChatGPT, ele conseguiu identificar sua expressão facial.

O GPT-4o também pode fazer traduções ao vivo, que a equipe demonstrou ao vivo. Uma pessoa fingiu que só falava italiano, enquanto a outra disse que só falava inglês: A tradução ao vivo funcionou bem, pelo que pude perceber: o ChatGPT falou em italiano, e tenho que acreditar na palavra da OpenAI de que tudo o que foi dito estava correto.

De acordo com a demonstração, o GPT-4o será lançado nas próximas semanas e estou ansioso para testá-lo. Até então, fico um pouco nervoso com essa experiência. Os efeitos de voz são bastante realistas e, às vezes, tudo parece bastante natural de uma forma totalmente antinatural. O ChatGPT vivenciará momentos “humanos”, como dizer algo “ah, que bobagem” ou “bem, isso faz mais sentido” após ser corrigido, por exemplo. Claro, é impressionante, mas não tenho certeza se quero essa tecnologia na minha vida. O que há de errado em os computadores serem distintamente computadores? Por que preciso fingir que minha IA está realmente viva? De qualquer forma, não vou manter a transmissão ao vivo aberta.

Também há um novo aplicativo de desktop ChatGPT

Embora tenha sido ofuscado pelo GPT-4o, a OpenAI também anunciou um aplicativo de desktop para ChatGPT, bem como uma nova IU, mas não se aprofundou muito nas mudanças.

O aplicativo parece semelhante às versões web e móvel do ChatGPT, além de alguns novos recursos. Os manifestantes exibiram um aplicativo de voz integrado nesta versão do ChatGPT; ele não consegue ver nada na tela, mas você pode conversar com ele da mesma maneira conversacional. Na demonstração, eles copiaram o código para o aplicativo de voz e o ChatGPT analisou o código e o explicou, como seria de esperar.