AI

스마트폰 앱을 작동시키는 멀티모달 AI 에이전트 (LLM 기반)

grtnomad 2024. 1. 4. 15:58

https://github.com/mnotgod96/AppAgent

 

GitHub - mnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed t

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. - GitHub - mnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphon...

github.com

 

  • 탭핑과 스와이핑 같은 인간 사용자의 동작을 모방해서 앱 작동
  • 백엔드에 대한 접근이 불필요해서 다양한 앱에 적용 가능
  • 에이전트는 자율 탐색(autonomous exploration) 또는 인간 사용자의 시연 관찰을 통해 새로운 앱을 탐색하고 사용하는 법을 학습, 이 과정에서 복잡한 작업을 위해 참조할 수 있는 지식기반을 만듦

출처: https://github.com/mnotgod96/AppAgent

'AI' 카테고리의 다른 글

LLM (거대 언어 모델) 관련 학습자료 @ 깃허브  (0) 2024.01.04