Vizio AI - AI Tinkerers São Paulo - Google Deepmind Hackathon
AI Tinkerers - São Paulo
Hackathon Showcase

Vizio AI

Vizio uses Gemini AI to give 6.5 million Brazilians with visual impairments faster, intuitive, and autonomous web browsing experiences.

3 members

A Vizio AI é uma extensão para Chrome que transforma o navegador em um sistema operado por voz, eliminando barreiras para cegos e idosos com baixo letramento digital. Através da infraestrutura do Vertex AI, nossa solução interpreta o DOM em tempo real para permitir uma navegação por intenção em linguagem natural. O projeto une criatividade e viabilidade técnica ao substituir comandos complexos de teclado por diálogos orgânicos, garantindo autonomia e privacidade. Desenvolvida em colaboração técnica sobre o Manifest V3, a ferramenta promove impacto social direto ao democratizar o acesso a serviços essenciais. A execução foca no uso responsável de IA para converter interfaces estáticas em experiências auditivas funcionais, inovadoras e acessíveis.
No backend, utilizamos JavaScript (Manifest V3) integrado ao modelo Gemini 2.5 Flash para interpretar o DOM e executar ações complexas via comandos de voz. A solução permite que o usuário gerencie ferramentas essenciais de forma autônoma; por exemplo, ao dizer “Acesse meu Gmail e leia o último e-mail” ou “Escreva um e-mail para [Nome] sobre a reunião”, a Vizio AI navega pela interface, identifica os campos de entrada e sintetiza as informações sem que o usuário precise tocar no teclado. Utilizamos a Web Speech API para garantir baixa latência na resposta. O foco na execução técnica garante que a ferramenta não seja apenas informativa, mas funcional, removendo barreiras técnicas para quem nunca teve letramento digital.

Gemini 2.5 Flash: O modelo específico que você está utilizando para a interpretação multimodal e processamento rápido do DOM. Google Chrome Extensions API (Manifest V3): O framework fundamental para a construção da extensão. Google Cloud Vertex AI: A plataforma principal onde você gerencia o modelo de IA e a infraestrutura de machine learning. JavaScript: A linguagem principal de desenvolvimento. Principais Ferramentas e Produtos Web Speech API: Utilizada para o reconhecimento de voz (Speech-to-Text) e a síntese de voz (Text-to-Speech).

Código no github

Summarizing URL...