Novidades do modelo mais recente da DeepSeek: DeepSeek-V3.2-Exp

Modelo Experimental da DeepSeek

A startup chinesa DeepSeek apresentou seu mais recente modelo experimental, que promete aumentar a eficiência e a capacidade da inteligência artificial (IA) de processar grandes volumes de informações a um custo reduzido. Contudo, permanecem dúvidas sobre a eficácia e a segurança desta nova arquitetura.

A empresa causou alvoroço no Vale do Silício ao lançar, de maneira inesperada, seu primeiro modelo, denominado R1, no ano passado. Este lançamento demonstrou que é possível treinar grandes modelos de linguagem (LLMs) de forma rápida, utilizando chips menos poderosos e com menor consumo de recursos.

Na última segunda-feira, a DeepSeek lançou o DeepSeek-V3.2-Exp, uma versão experimental de seu modelo atual, o DeepSeek-V3.1-Terminus. Esse lançamento se alinha à missão da empresa de melhorar a eficiência nos sistemas de IA, conforme divulgado em uma postagem no fórum de IA Hugging Face.

Adina Yakefu, líder da comunidade chinesa no Hugging Face, afirmou à CNBC: "O DeepSeek V3.2 mantém o foco na eficiência, na redução de custos e no compartilhamento de código aberto. A grande melhoria é um novo recurso denominado DSA (DeepSeek Sparse Attention), que torna a IA mais eficaz em lidar com documentos longos e conversas. Além disso, o custo de operar a IA é reduzido pela metade em comparação à versão anterior."

Nick Patience, vice-presidente e líder da prática de IA no The Futurum Group, destacou a importância dessa inovação: "Isso é significativo, pois deve tornar o modelo mais rápido e econômico, sem uma queda perceptível no desempenho. Essa melhoria torna a IA poderosa mais acessível para desenvolvedores, pesquisadores e pequenas empresas, potencialmente levando a uma onda de novas e inovadoras aplicações."

Vantagens e Desvantagens da Atenção Espacial

Um modelo de IA toma decisões com base em seus dados de treinamento e novas informações, como um prompt específico. Por exemplo, se uma companhia aérea desejar encontrar a melhor rota de A a B, existem muitas opções, mas nem todas são viáveis. Ao filtrar as rotas menos viáveis, é possível reduzir drasticamente o tempo, o combustível e o dinheiro necessários para realizar a viagem. Esse é precisamente o objetivo da atenção esparsa: ela considera apenas os dados que acredita serem importantes para a tarefa em questão, em oposição a outros modelos que processam todos os dados disponíveis.

Ekaterina Almasque, cofundadora e sócia-gerente do novo fundo de capital de risco BlankPage Capital, comentou: "Basicamente, você elimina informações que considera não relevantes."

A atenção esparsa apresenta benefícios significativos em termos de eficiência e escalabilidade da IA, já que demanda menos recursos. No entanto, uma preocupação é que essa abordagem possa levar a uma diminuição na confiabilidade dos modelos, devido à falta de supervisão em como e por que certas informações são desconsideradas. Almasque afirmou: "A realidade é que esses modelos de atenção esparsa perderam muitas nuances. E a questão real é: eles realmente têm o mecanismo correto para excluir os dados irrelevantes, ou estão excluindo dados que são realmente importantes, tornando o resultado muito menos relevante?"

Essa situação pode ser especialmente problemática para a segurança e a inclusão na IA, conforme observou a investidora, acrescentando que esses modelos podem não ser "os mais otimizados ou seguros" quando comparados a concorrentes ou arquiteturas tradicionais.

Por outro lado, a DeepSeek afirma que seu modelo experimental opera em paridade com o V3.1-Terminus. Embora haja especulações sobre a formação de uma bolha no setor, a inteligência artificial continua a ser um ponto central na competição geopolítica, com os Estados Unidos e a China disputando posições de liderança. Yakefu destacou que os modelos da DeepSeek funcionam "prontos para uso" com chips de IA fabricados na China, como Ascend e Cambricon, o que significa que podem ser executados localmente em hardware doméstico sem necessidade de configuração adicional.

Compartilhamento e Desafios da Tecnologia

A DeepSeek também disponibilizou o código fonte e as ferramentas necessárias para utilizar o modelo experimental. Yakefu comentou: "Isso significa que outras pessoas podem aprender com isso e desenvolver suas próprias melhorias."

Entretanto, Almasque expressou preocupações sobre a defensibilidade da tecnologia. "A abordagem não é tão nova assim", disse, enfatizando que a indústria discute modelos esparsos desde 2015. Além disso, a DeepSeek não pode patentear sua tecnologia devido à sua natureza de código aberto. Portanto, segundo Almasque, a vantagem competitiva da empresa deve estar em como ela decide que informações incluir nos modelos.

A própria DeepSeek reconhece que o V3.2-Exp é um "passo intermediário em direção à nossa arquitetura de próxima geração", conforme mencionado na postagem do Hugging Face.

Patience observou que "esse é o valor que a DeepSeek traz: a eficiência está se tornando tão importante quanto a potência bruta."

Yakefu também acrescentou: "A DeepSeek está jogando o jogo a longo prazo para manter a comunidade engajada em seu progresso. As pessoas sempre optarão pelo que é barato, confiável e eficaz."

Fonte: www.cnbc.com

Related posts

Amazon afirma que a Anthropic continua disponível fora do setor de defesa.

O grande negócio potencial da Boeing — além de sinais positivos para uma jogada em IA

Ações com as Maiores Oscilações ao Meio-Dia: MRVL, BLK, UAL, CF

Utilizamos cookies para melhorar sua experiência de navegação, personalizar conteúdo e analisar o tráfego do site. Ao continuar navegando em nosso site, você concorda com o uso de cookies conforme descrito em nossa Política de Privacidade. Você pode alterar suas preferências a qualquer momento nas configurações do seu navegador. Leia Mais