Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações


Complexo nova pesquisa de pesquisadores da Microsoft e parceiros acadêmicos mostra que os agentes de inteligência artificial que usam grandes modelos de linguagem (LLMs) são cada vez mais capazes de controlar interfaces gráficas de usuário (GUIs), potencialmente mudando a forma como as pessoas interagem com o software.

Essencialmente, a tecnologia dá aos sistemas de IA a capacidade de ver e manipular interfaces de computador da mesma forma que os humanos fazem – clicando em botões, preenchendo formulários e navegando entre aplicativos. Em vez de os usuários terem que aprender comandos de software complexos, esses “agentes GUI” podem interpretar solicitações de linguagem natural e executar as ações necessárias automaticamente.

“Esses agentes representam uma mudança de paradigma, permitindo que os usuários executem tarefas complexas e de várias etapas por meio de comandos de conversação simples”, pesquisadores escrever. “Seus aplicativos abrangem navegação na web, interações de aplicativos móveis e automação de desktop, oferecendo uma experiência de usuário transformadora que revoluciona a maneira como os indivíduos interagem com o software”.

Pense nele como um assistente executivo altamente qualificado que pode operar qualquer programa de software para você. Você simplesmente diz ao assistente o que deseja alcançar e ele cuida de todos os detalhes técnicos de como alcançá-lo.

Esta linha do tempo traça o rápido crescimento de agentes de inteligência artificial capazes de controlar software, com um influxo de novos modelos de investigadores e empresas de tecnologia emergentes a partir de 2023, categorizados pelas suas aplicações em plataformas web, móveis e desktop. (Crédito: arxiv.org)

A ascensão dos assistentes de negócios de IA está mudando tudo

As grandes empresas tecnológicas já estão a correr para incorporar estas capacidades nos seus produtos. da Microsoft Automatização de energia usa LLM para ajudar os usuários a criar fluxos de trabalho automatizados entre aplicativos. Empresas Assistente de inteligência artificial copiloto pode controlar diretamente o software com base em comandos de texto. O uso de computador antrópico para Claude permite que a IA interaja com interfaces da web e execute tarefas complexas. Diz-se que o Google está desenvolvendo Projeto Jarvisum sistema de inteligência artificial que usaria o navegador Chrome para realizar tarefas da web, como pesquisar, fazer compras e reservar viagens, embora esse recurso ainda esteja em desenvolvimento e não tenha sido lançado publicamente.

“O advento de grandes modelos de linguagem, especialmente modelos multimodais, inaugurou uma nova era de automação de GUI”, observa o artigo. “Eles demonstraram habilidades excepcionais em compreensão de linguagem natural, geração de código, generalização de tarefas e processamento visual.”

Isto representa potencial Oportunidade de mercado de US$ 68,9 bilhões até 2028, de acordo com analistas da BCC Research, à medida que as empresas procuram automatizar tarefas repetitivas e tornar o seu software acessível a utilizadores não técnicos. Espera-se que o mercado cresça de US$ 8,3 bilhões em 2022 para este valor a uma taxa composta de crescimento anual (CAGR) de 43,9% durante o período de previsão.

Impacto nos negócios: desafios e oportunidades na automação de IA

No entanto, ainda existem obstáculos significativos antes que a tecnologia se torne generalizada. Os pesquisadores identificam várias limitações importantes, incluindo preocupações com privacidade quando os agentes lidam com dados confidenciais, as limitações de poder computacional e a necessidade de melhor segurança e confiabilidade.

“Embora eficazes para fluxos de trabalho predefinidos, esses métodos não tinham a flexibilidade e a adaptabilidade necessárias para aplicações dinâmicas do mundo real”, afirma o artigo sobre abordagens de automação anteriores.

A equipa de investigação fornece um roteiro detalhado para enfrentar estes desafios, enfatizando a importância de desenvolver modelos mais eficientes que possam ser executados localmente em dispositivos, implementando medidas de segurança robustas e criando estruturas de avaliação padronizadas.

“Ao incorporar segurança e ações customizáveis, esses agentes garantem eficiência e segurança no processamento de comandos complexos”, observam os pesquisadores, destacando os avanços recentes na preparação da tecnologia para as empresas.

Para os líderes de tecnologia empresarial, o surgimento de agentes GUI habilitados para LLM representa uma oportunidade e uma consideração estratégica. Embora esta tecnologia prometa ganhos de produtividade significativos através da automação, as organizações terão de avaliar cuidadosamente as implicações de segurança e os requisitos de infraestrutura da implementação destes sistemas de IA.

“O campo dos agentes GUI está avançando em direção a arquiteturas multiagentes, capacidades multimodais, diversos conjuntos de ações e novas estratégias de tomada de decisão”, explica o artigo. “Essas inovações representam passos significativos em direção à criação de agentes inteligentes e adaptáveis, capazes de alto desempenho em ambientes diversos e dinâmicos”.

Especialistas do setor presumem que pelo menos até 2025 60% das grandes empresas testará alguma forma de agentes de automação GUI, potencialmente levando a enormes ganhos de eficiência, mas também levantando questões importantes sobre privacidade de dados e deslocamento de empregos.

Uma pesquisa abrangente sugere que estamos num ponto de inflexão em que as interfaces conversacionais de IA podem mudar fundamentalmente a forma como as pessoas interagem com o software – embora percebamos que esse potencial exigirá avanços contínuos tanto na tecnologia subjacente como nas práticas de implementação de negócios.

“Estes desenvolvimentos estabelecem as bases para agentes mais versáteis e poderosos, capazes de lidar com ambientes complexos e dinâmicos”, concluem os investigadores, apontando para um futuro onde os assistentes de inteligência artificial se tornarão parte integrante da forma como trabalhamos com computadores.


Source link