"AI가 당신의 클릭을 대신한다: Microsoft가 제시하는 GUI 자동화의 새로운 시대!"


News Image
제목 "AI가 당신을 위해 클릭합니다: Microsoft의 연구가 GUI 자동화의 미래를 제시합니다"는 VentureBeat에서 Microsoft의 그래픽 사용자 인터페이스(GUI) 자동화 분야의 최근 발전과 연구에 대해 다룹니다. 특히 AI가 데스크탑 환경에서 복잡한 작업을 자동화할 수 있는 방법에 집중하고 있습니다.

주요 내용

- AssistGUI 벤치마크 : Microsoft 연구원들은 Windows 플랫폼에서 작업 자동화를 위해 AI 모델의 능력을 평가하는 새로운 벤치마크인 AssistGUI를 도입했습니다. 이 벤치마크는 After Effects와 MS Word와 같은 아홉 개의 널리 사용되는 소프트웨어 응용 프로그램에서 100개의 작업을 포함하며, 평가에 필요한 프로젝트 파일도 제공됩니다.

- Actor-Critic Embodied Agent 프레임워크 : 연구에서는 대형 언어 모델(LLM)을 기반으로 한 정교한 GUI 파서를 포함한 고급 Actor-Critic Embodied Agent 프레임워크를 제안합니다. 이 프레임워크는 긴 절차적 작업을 효과적으로 처리할 수 있으며, 기존 방법보다 더 나은 성능을 보였지만, 최종 모델은 AssistGUI 벤치마크에서 46%의 성공률을 기록했습니다.

- Power Automate와 AI 플로우 : Microsoft의 Power Automate는 생성형 AI를 활용하여 자동화 개발을 단순화하고 가속화하는 AI 플로우를 도입했습니다. 사용자는 자연어로 프로세스 목표를 설명할 수 있으며, AI가 자동화 계획을 개발합니다. 이 접근 방식은 복잡한 규칙 기반 프로세스를 수동으로 매핑할 필요성을 없애, 자동화를 더욱 접근 가능하고 유동적으로 만듭니다.

- 다중 모드 AI 레코딩 : Power Automate는 데스크탑 플로우를 위한 다중 모드 AI 레코딩 기능도 제공하며, 이는 화면 이해와 음성 처리를 사용합니다. 사용자는 화면을 공유하고 자신의 행동을 설명하여 데스크탑 레코더에게 프로세스를 자동화하는 방법을 가르칠 수 있습니다. 이는 마치 새로운 직원을 교육하는 것과 유사합니다. AI는 UI 요소가 변경될 때 스스로 복구할 수 있어 자동화가 효과적으로 유지됩니다.

- GUI 자동화의 미래 : 현재 AI 모델들이 GUI 자동화에서 상당한 진전을 이루고 있지만, 여전히 개선의 여지가 많다는 점을 강조합니다. 미래 연구는 Adobe와 같은 창의적 소프트웨어에서 요구되는 복잡하고 동적인 사용자 인터페이스 상호작용을 처리할 수 있도록 이러한 모델의 능력을 향상시키는 것을 목표로 합니다.

결론

Microsoft의 GUI 자동화에 대한 연구와 혁신은 사용자가 데스크탑에서 작업을 상호작용하고 자동화하는 방식을 혁신할 준비가 되어 있습니다. 고급 AI 모델과 프레임워크를 활용함으로써 Microsoft는 인간의 생산성을 크게 향상시킬 수 있는 더욱 지능적이고 유연하며 동적인 자동화 솔루션을 만들기 위해 노력하고 있습니다. 그러나 현재의 한계와 복잡한 UI 상호작용을 처리하는 데 필요한 추가 발전도 인정하고 있습니다.