ロビンソン・コンサルティングが独自開発のVLMを提供開始、GUI操作の自動化精度が業界標準を超える性能を実現

text: XEXEQ編集部
（記事は執筆時の情報に基づいており、現在では異なる場合があります）

IT・テックのコネクトメディア「ゼゼック」
カテゴリ毎のアーカイブ記事一覧
【カテゴリ別】2025年04月のアーカイブ一覧
ロビンソン・コンサルティングが独自開発のVLMを提供開始、GUI操作の自動化精度が業界標準を超える性能を実現

ロビンソン・コンサルティングが独自開発のVLMを提供開始、GUI操作の自動化精度が業界標準を超える性能を実現

PR TIMES より

記事の要約

VisionCoreとTaskMindの2つのAIモデルを統合したVLMを開発
GUI画面認識とタスク実行を自律的に遂行するAI基盤を実現
SIerとRPA事業者向けに提供開始、業界標準を超える精度を実現

ロビンソン・コンサルティングがGUI操作を自動化するVLMを開発

株式会社ロビンソン・コンサルティングは、GUI画面を視覚的に認識しタスクを推論・実行する2つの独自AIモデル「VisionCore」「TaskMind」を統合したVLMを2025年4月2日に提供開始した。このVLMは複雑なGUI操作や業務手順を人間のように理解し、マウス・キーボードによる操作をAIが自律的に実行可能とする次世代の画面自動操作エージェントの中核を担う技術である。^[1]

VisionCoreはGUI画面上の構成要素をリアルタイムに検出し、DOM非依存で実際のビジュアルを基に操作対象を特定する視覚認識モデルとなっている。TaskMindは業務文脈やユーザー指示を理解し、操作手順を計画生成するタスク推論モデルであり、過去の実行履歴や画面状態をもとに動的に判断・適応する仕組みを備えているのだ。

両モデルを統合したVLMは、業務UIの複雑さや日本語環境への適応力において、GPT-4oをはじめとした汎用VLMと比較しても高いタスク遂行精度を示している。特に5ステップ以上のGUI操作や複数条件の判断が求められる業務において、より安定した実行成功率を記録しており、実運用を前提としたタスク実行性能で差別化を実現したのである。

VisionCore/TaskMindの特徴まとめ

	VisionCore	TaskMind
主な機能	GUI画面の視覚認識	タスク推論と実行計画
特徴	DOM非依存のビジュアル認識	動的な判断と適応
性能	リアルタイム検出	強化学習による継続進化

VisionCore/TaskMindの詳細はこちら

VLMについて

VLMとは「Vision Language Model」の略称で、視覚情報と言語情報を統合的に処理できるAIモデルのことを指す。主な特徴として、以下のような点が挙げられる。

画像認識と自然言語処理を組み合わせた統合的な処理が可能
視覚的な文脈理解と言語的なタスク推論を実現
マルチモーダルな入力に対する柔軟な対応力を持つ

VLMはGUI操作の自動化において、従来のルールベースのアプローチとは異なり、画面の視覚的な理解とタスクの文脈的な解釈を組み合わせることで、より柔軟で適応的な自動化を実現できる。特にVisionCoreとTaskMindの統合により、複雑なGUI操作や業務フローの自動化において、高い実行精度と安定性を確保することが可能となったのだ。

参考サイト

^ PR TIMES. 「【提供開始】画面認識×タスク実行のVLM「VisionCore／TaskMind」、SIer・RPA事業者向けに提供開始 | 株式会社ロビンソン・コンサルティングのプレスリリース」. https://prtimes.jp/main/html/rd/p/000000025.000125282.html, (参照 25-04-03).

※上記コンテンツはAIで確認しておりますが、間違い等ある場合はコメントよりご連絡いただけますと幸いです。

「AI」に関するコラム