Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N/A, arXiv'24 #1275

Open
AkihikoWatanabe opened this issue Apr 8, 2024 · 0 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Apr 8, 2024

URL

Affiliations

  • Wenshan Wu, N/A
  • Shaoguang Mao, N/A
  • Yadong Zhang, N/A
  • Yan Xia, N/A
  • Li Dong, N/A
  • Lei Cui, N/A
  • Furu Wei, N/A

Abstract

  • Large language models (LLMs) have exhibited impressive performance inlanguage comprehension and various reasoning tasks. However, their abilities inspatial reasoning, a crucial aspect of human cognition, remain relativelyunexplored. Human possess a remarkable ability to create mental images ofunseen objects and actions through a process known as \textbf{the Mind's Eye},enabling the imagination of the unseen world. Inspired by this cognitivecapacity, we propose Visualization-of-Thought (\textbf{VoT}) prompting. VoTaims to elicit spatial reasoning of LLMs by visualizing their reasoning traces,thereby guiding subsequent reasoning steps. We employed VoT for multi-hopspatial reasoning tasks, including natural language navigation, visualnavigation, and visual tiling in 2D grid worlds. Experimental resultsdemonstrated that VoT significantly enhances the spatial reasoning abilities ofLLMs. Notably, VoT outperformed existing multimodal large language models(MLLMs) in these tasks. While VoT works surprisingly well on LLMs, the abilityto generate \textit{mental images} to facilitate spatial reasoning resemblesthe mind's eye process, suggesting its potential viability in MLLMs.

Translation (by gpt-3.5-turbo)

  • 大規模言語モデル(LLMs)は、言語理解やさまざまな推論タスクで印象的なパフォーマンスを発揮しています。しかし、人間の認知の重要な側面である空間推論における能力は比較的未開拓のままです。人間は、「心の目」として知られるプロセスを通じて、見たことのない物体や行動のメンタルイメージを作成するという驚異的な能力を持っており、これにより見たことのない世界を想像することができます。この認知能力に着想を得て、私たちはVisualization-of-Thought(VoT)プロンプティングを提案します。VoTは、LLMsの空間推論を喚起することを目的としており、彼らの推論トレースを可視化することで、後続の推論ステップをガイドします。私たちは、自然言語ナビゲーション、ビジュアルナビゲーション、および2Dグリッドワールドにおけるビジュアルタイリングなど、マルチホップの空間推論タスクにVoTを使用しました。実験結果は、VoTがLLMsの空間推論能力を大幅に向上させることを示しています。特筆すべきことに、VoTはこれらのタスクで既存のマルチモーダル大規模言語モデル(MLLMs)を上回りました。VoTはLLMsで驚くほどうまく機能しますが、空間推論を促進するために「メンタルイメージ」を生成する能力は、心の目プロセスに似ており、MLLMsでの潜在的な有効性を示唆しています。

Summary (by gpt-3.5-turbo)

  • LLMsの空間推論能力を向上させるために、Visualization-of-Thought(VoT)プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。
@AkihikoWatanabe AkihikoWatanabe changed the title Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N/A, arXiv'24 Apr 8, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant