Google Gemini está sendo ainda mais integrada ao Android, conseguirá entender o contexto e suportará processamento de várias entradas.
Modelo de linguagem é o responsável pela inteligência artificial dos telefones da linha Pixel e dos Samsung tops de linha.
Mas agora o Google revelou algumas melhorias bem interessantes, que irão resultar em novos recursos e possibilidades de uso.
Gemini entende o contexto
Em breve, Gemini irá entender o contexto sobre outros aplicativos, o que deve gerar respostas e funções inéditas.
Será possível arrastar e soltar imagens geradas no Gmail, no Google Mensagens e em outros lugares, e ele irá entender que você quer pesquisar imagens parecidas.
No caso de vídeos do YouTube, se tocar em “perguntar sobre o vídeo”, será mostrado informações especifica sobre o conteúdo que está assistindo.
Para quem possui o Gemini Advanced (pago), ainda terá a opção “Perguntar sobre este PDF”, que irá trazer respostas sobre o que ele possui, trazendo as informações necessárias que você quer encontrar, mas sem precisar percorrer as páginas automaticamente.
Essas funções serão liberadas nos próximos meses para diversos aparelhos, inclusive para os modelos que já possuem o Circule para pesquisar instalado.
Recursos multimodais no Gemini Nano
Gemino Nano para Android além de entender contexto em muitas ações, também terá recursos multimodais.
Isso quer dizer que Gemini para dispositivos móveis está começando a entender som, linguagem falada e visão, além é claro, texto.
Ao começar entender tudo isso, mais recursos e funcionalidade inéditos podem ser utilizados pelos usuários dos Pixel ainda este ano.
Gemini 1.5 Flash é anunciado
Google afirma que o 1.5 Flash é o Gemini mais rápido servido de um servidor, sendo uma API totalmente otimizada para alto volume de tarefas e alta frequência em escala.
Empresa destaca que mesmo sendo o modelo mais leve, ele tem raciocínio multimodal, ou seja, reconhece texto, visão, linguagem falada e som.
Recursos como resumo, legendas de vídeos e imagem, aplicativos de bate-papo, tabelas longas, extrações de dados de documentos podem ser feitas sem problemas.
Gemma, modelo aberto de IA fica melhor
Para quem gosta de modelos aberto, o Gemma é a opção disponibilizada pelo Google.
Agora com o Gemma 2, temos a chegada de uma nova arquitetura que trouxe melhorias no desempenho, trazendo mais eficiência e até mesmo novos tamanhos.
Também está sendo liberado o PaliGemma, que é de linguagem de visão, que pode ser utilizado para vários novos usos.
Fonte: Blog Google e Blog Google