Pular para o conteúdo

Gemini se integra ainda mais ao Android, entenderá contexto e mais

Gemini Android

Google Gemini está sendo ainda mais integrada ao Android, conseguirá entender o contexto e suportará processamento de várias entradas.

Modelo de linguagem é o responsável pela inteligência artificial dos telefones da linha Pixel e dos Samsung tops de linha.

Mas agora o Google revelou algumas melhorias bem interessantes, que irão resultar em novos recursos e possibilidades de uso.

Gemini entende o contexto

Em breve, Gemini irá entender o contexto sobre outros aplicativos, o que deve gerar respostas e funções inéditas.

Gemini Nano reconhece foto

Será possível arrastar e soltar imagens geradas no Gmail, no Google Mensagens e em outros lugares, e ele irá entender que você quer pesquisar imagens parecidas.

No caso de vídeos do YouTube, se tocar em “perguntar sobre o vídeo”, será mostrado informações especifica sobre o conteúdo que está assistindo.

Gemini Nano reconhece vídeo

Para quem possui o Gemini Advanced (pago), ainda terá a opção “Perguntar sobre este PDF”, que irá trazer respostas sobre o que ele possui, trazendo as informações necessárias que você quer encontrar, mas sem precisar percorrer as páginas automaticamente.

Essas funções serão liberadas nos próximos meses para diversos aparelhos, inclusive para os modelos que já possuem o Circule para pesquisar instalado.

Recursos multimodais no Gemini Nano

Gemino Nano para Android além de entender contexto em muitas ações, também terá recursos multimodais.

Isso quer dizer que Gemini para dispositivos móveis está começando a entender som, linguagem falada e visão, além é claro, texto.

Ao começar entender tudo isso, mais recursos e funcionalidade inéditos podem ser utilizados pelos usuários dos Pixel ainda este ano.

Gemini 1.5 Flash é anunciado

Google Gemini 1.5 Flash

Google afirma que o 1.5 Flash é o Gemini mais rápido servido de um servidor, sendo uma API totalmente otimizada para alto volume de tarefas e alta frequência em escala.

Empresa destaca que mesmo sendo o modelo mais leve, ele tem raciocínio multimodal, ou seja, reconhece texto, visão, linguagem falada e som.

Recursos como resumo, legendas de vídeos e imagem, aplicativos de bate-papo, tabelas longas, extrações de dados de documentos podem ser feitas sem problemas.

Gemma, modelo aberto de IA fica melhor

Gemini e Gemma logo

Para quem gosta de modelos aberto, o Gemma é a opção disponibilizada pelo Google.

Agora com o Gemma 2, temos a chegada de uma nova arquitetura que trouxe melhorias no desempenho, trazendo mais eficiência e até mesmo novos tamanhos.

Também está sendo liberado o PaliGemma, que é de linguagem de visão, que pode ser utilizado para vários novos usos.

Fonte: Blog Google e Blog Google

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *