ロビンソン・コンサルティングが独自開発のVLMを提供開始、GUI操作の自動化精度が業界標準を超える性能を実現

PR TIMES より
スポンサーリンク
記事の要約
- VisionCoreとTaskMindの2つのAIモデルを統合したVLMを開発
- GUI画面認識とタスク実行を自律的に遂行するAI基盤を実現
- SIerとRPA事業者向けに提供開始、業界標準を超える精度を実現
スポンサーリンク
ロビンソン・コンサルティングがGUI操作を自動化するVLMを開発
株式会社ロビンソン・コンサルティングは、GUI画面を視覚的に認識しタスクを推論・実行する2つの独自AIモデル「VisionCore」「TaskMind」を統合したVLMを2025年4月2日に提供開始した。このVLMは複雑なGUI操作や業務手順を人間のように理解し、マウス・キーボードによる操作をAIが自律的に実行可能とする次世代の画面自動操作エージェントの中核を担う技術である。[1]
VisionCoreはGUI画面上の構成要素をリアルタイムに検出し、DOM非依存で実際のビジュアルを基に操作対象を特定する視覚認識モデルとなっている。TaskMindは業務文脈やユーザー指示を理解し、操作手順を計画生成するタスク推論モデルであり、過去の実行履歴や画面状態をもとに動的に判断・適応する仕組みを備えているのだ。
両モデルを統合したVLMは、業務UIの複雑さや日本語環境への適応力において、GPT-4oをはじめとした汎用VLMと比較しても高いタスク遂行精度を示している。特に5ステップ以上のGUI操作や複数条件の判断が求められる業務において、より安定した実行成功率を記録しており、実運用を前提としたタスク実行性能で差別化を実現したのである。
VisionCore/TaskMindの特徴まとめ
VisionCore | TaskMind | |
---|---|---|
主な機能 | GUI画面の視覚認識 | タスク推論と実行計画 |
特徴 | DOM非依存のビジュアル認識 | 動的な判断と適応 |
性能 | リアルタイム検出 | 強化学習による継続進化 |
スポンサーリンク
VLMについて
VLMとは「Vision Language Model」の略称で、視覚情報と言語情報を統合的に処理できるAIモデルのことを指す。主な特徴として、以下のような点が挙げられる。
- 画像認識と自然言語処理を組み合わせた統合的な処理が可能
- 視覚的な文脈理解と言語的なタスク推論を実現
- マルチモーダルな入力に対する柔軟な対応力を持つ
VLMはGUI操作の自動化において、従来のルールベースのアプローチとは異なり、画面の視覚的な理解とタスクの文脈的な解釈を組み合わせることで、より柔軟で適応的な自動化を実現できる。特にVisionCoreとTaskMindの統合により、複雑なGUI操作や業務フローの自動化において、高い実行精度と安定性を確保することが可能となったのだ。
参考サイト
- ^ PR TIMES. 「【提供開始】画面認識×タスク実行のVLM「VisionCore/TaskMind」、SIer・RPA事業者向けに提供開始 | 株式会社ロビンソン・コンサルティングのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000025.000125282.html, (参照 25-04-03). 2129
※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。
- YOLO(You Only Look Once)とは?意味をわかりやすく簡単に解説
- XAI(説明可能なAI)とは?意味をわかりやすく簡単に解説
- Word2vecとは?意味をわかりやすく簡単に解説
- WideResNetとは?意味をわかりやすく簡単に解説
- WebSphereとは?意味をわかりやすく簡単に解説
- VGG(Visual Geometry Group)とは?意味をわかりやすく簡単に解説
- VisionTransformerとは?意味をわかりやすく簡単に解説
- W3C(World Wide Web Consortium)とは?意味をわかりやすく簡単に解説
- Watsonとは?意味をわかりやすく簡単に解説
- Watson Assistantとは?意味をわかりやすく簡単に解説
- 富士通とヘッドウォータース、JALの客室乗務員向け業務効率化AIソリューションの実証実験を実施、オフライン環境での生成AI活用に成功
- MicrosoftがAzure DatabricksにAnthropic Claude 3.7 Sonnetを統合、企業のAI活用基盤が強化
- 【CVE-2025-29121】Tenda AC6に深刻な脆弱性、スタックベースのバッファオーバーフローによる攻撃の危険性が明らかに
- 【CVE-2025-0312】Ollamaに深刻な脆弱性、カスタムモデルによるDoS攻撃のリスクが明らかに
- 【CVE-2025-0189】aimhubio/aim 3.25.0にDoS脆弱性、WebSocketメッセージサイズ制限の無効化による深刻な影響
- 【CVE-2025-1635】Devolutions Remote Desktop Managerに認証セッション情報漏洩の脆弱性、バージョン2024.3.29以前のWindows版が影響
- 【CVE-2025-27168】Adobe Illustrator 29.2.1と28.7.4以前のバージョンにスタックベースのバッファオーバーフロー脆弱性、任意のコード実行のリスク
- 【CVE-2025-2003】Devolutions Server 2024.3.12にPAMボルト認証バイパスの脆弱性、認証済みユーザーによるroot権限取得の危険性
- アジュバンが美容師向け情報プラットフォームアプリMiteppliを提供開始、業務効率化とスキルアップを支援
- アドバンがアプリのメディエーション運用サポート事業を開始、広告運用の効率化と収益最大化を実現へ
スポンサーリンク