Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações
A próxima fase da IA de agente só pode ser avaliação e monitoramento, pois as empresas desejam que os agentes que estão começando a implantar sejam mais observáveis.
Embora os benchmarks do agente de IA possam ser enganosos, é de grande valor verificar se o agente está tendo o desempenho desejado. Para esse fim, as empresas estão começando a oferecer plataformas onde os clientes podem colocar agentes de IA em sandbox ou avaliar seu desempenho.
Força de vendas lançou sua plataforma de avaliação de agentes, Agentforce Testing Center, na quarta-feira em um programa piloto limitado. A disponibilidade geral está prevista para dezembro. O centro de testes permite que as empresas observem e criem protótipos de agentes de IA para garantir que tenham acesso aos fluxos de trabalho e aos dados de que precisam.
Os novos recursos do Testing Center incluem testes gerados por IA para Agentforce, Sandboxes para Agentforce e Data Cloud e monitoramento e observabilidade para Agentforce.
Os testes gerados por IA permitem que as empresas utilizem modelos de IA para gerar “centenas de interações sintéticas” para testar se os agentes acabam respondendo com a frequência que as empresas desejam. Como o nome sugere, os sandboxes oferecem um ambiente isolado para testar agentes enquanto espelham os dados de uma empresa para refletir melhor como um agente trabalhará para eles. O monitoramento e a rastreabilidade permitem que as empresas tragam uma trilha de auditoria para o sandbox quando os agentes entram em produção.
Patrick Stokes, vice-presidente executivo de marketing de produtos e indústria da Salesforce, disse à VentureBeat que o centro de testes faz parte de uma nova classe de agentes que a empresa chama de Agent Lifecycle Management.
“Vamos colocar o que achamos que será uma grande nova subcategoria de agentes”, disse Stokes. “Quando dizemos ciclo de vida, queremos dizer tudo, desde a gênese até o desenvolvimento e a implantação e, em seguida, iterar sua implantação à medida que você avança.”
Stokes disse que o Centro de Testes atualmente não possui insights específicos de fluxo de trabalho onde os desenvolvedores possam ver APIs, dados ou opções de modelo específicas que os agentes estavam usando. No entanto, o Salesforce coleta esse tipo de dados em seu Einstein Trust Layer.
“O que estamos fazendo é construir ferramentas de desenvolvedor para disponibilizar esses metadados aos nossos clientes, para que eles possam realmente usá-los para construir melhor seus agentes”, disse Stokes.
A Salesforce está apostando nos agentes de IA e concentrando grande parte de sua energia em sua oferta de agentes, Agentforce. Os clientes do Salesforce podem usar agentes predefinidos para se conectar às suas instâncias ou criar agentes personalizados no Agentforce.
Agentes de classificação
Os agentes de IA abordam muitos pontos de uma organização e, como bons ecossistemas de agentes visam automatizar uma grande parte dos fluxos de trabalho, é importante garantir que funcionem bem.
Se um agente decidir usar a API errada, isso poderá significar um desastre para os negócios. Os agentes de IA são inerentemente estocásticos, assim como os modelos que os orientam, e consideram todas as probabilidades potenciais antes de chegar a um resultado. Stokes disse que a Salesforce testa os agentes bloqueando agentes com versões das mesmas declarações ou perguntas. Suas respostas são avaliadas como bem ou malsucedidas, permitindo que o agente aprenda e evolua em um ambiente seguro que os desenvolvedores humanos possam controlar.
As plataformas que ajudam as empresas a avaliar os agentes de IA estão rapidamente se tornando um novo tipo de oferta de produtos. Em junho, uma empresa de IA com experiência do cliente Serra executou um benchmark de agente de IA chamado TAU-bench para observar o desempenho dos agentes de conversação. Empresa de automação UiPath liberou seu Plataforma Agent Builder em outubro que também ofereceu um meio de avaliar o desempenho do agente antes da implantação completa.
Testar aplicativos de IA não é novidade. Além de avaliar o desempenho do modelo, muitos repositórios de modelos de IA, como AWS Bedrock e Microsoft Azure, já permitem que os clientes testem modelos básicos em um ambiente controlado para ver qual deles funciona melhor para seus casos de uso.
Source link