diff --git a/content/authors/24_yufan/_index.md b/content/authors/24_yufan/_index.md
deleted file mode 100755
index 9d47872e..00000000
--- a/content/authors/24_yufan/_index.md
+++ /dev/null
@@ -1,15 +0,0 @@
----
-name: Yufan Wu
-
-superuser: true
-
-role: Visiting Student, 2024
-
-
-# website_url:   # 可以配置个人主页, 如果有的话
-
-user_groups:
-- Research Assistant
----
-
-Yufan is a 2024 master's graduate from Zhejiang University. She is passionate about image generation, cross-modal generation and multimodal learning.
\ No newline at end of file
diff --git a/content/authors/24_yufan/avatar.png b/content/authors/24_yufan/avatar.png
deleted file mode 100644
index e162df77..00000000
Binary files a/content/authors/24_yufan/avatar.png and /dev/null differ
diff --git a/content/publication/Can Textual Semantics Mitigate Sounding Object SegmentationPreference?/featured.jpg b/content/publication/Can Textual Semantics Mitigate Sounding Object SegmentationPreference?/featured.jpg
new file mode 100644
index 00000000..0e252023
Binary files /dev/null and b/content/publication/Can Textual Semantics Mitigate Sounding Object SegmentationPreference?/featured.jpg differ
diff --git a/content/publication/Can Textual Semantics Mitigate Sounding Object SegmentationPreference?/index.md b/content/publication/Can Textual Semantics Mitigate Sounding Object SegmentationPreference?/index.md
new file mode 100755
index 00000000..d970c2b0
--- /dev/null
+++ b/content/publication/Can Textual Semantics Mitigate Sounding Object SegmentationPreference?/index.md	
@@ -0,0 +1,17 @@
+---  
+title: "Can Textual Semantics Mitigate Sounding Object SegmentationPreference?"  
+authors:  
+ - Yaoting Wang
+ - Peiwen Sun
+ - Yuanchao Li
+ - Honggang Zhang
+ - Di Hu
+publication_types: ["1"]  
+publication: European Conference on Computer Vision(ECCV) 2024
+publication_types_name: Conference Paper  
+url_pdf: 
+url_code: 
+topic_types: ["3"]
+# topic_types_name: topic_hash
+rating : 2024_06_30
+---  
diff --git a/content/publication/Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection/featured.jpg b/content/publication/Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection/featured.jpg
new file mode 100644
index 00000000..1d62c3af
Binary files /dev/null and b/content/publication/Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection/featured.jpg differ
diff --git a/content/publication/Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection/index.md b/content/publication/Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection/index.md
new file mode 100755
index 00000000..a2bc34b6
--- /dev/null
+++ b/content/publication/Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection/index.md	
@@ -0,0 +1,19 @@
+---  
+title: "Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection"  
+authors:  
+ - Xincheng Pang
+ - Wenke Xia
+ - Zhigang Wang
+ - Bin Zhao
+ - Di Hu
+ - Dong Wang
+ - Xuelong Li
+publication_types: ["1"]  
+publication: The 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS) 2024
+publication_types_name: Conference Paper  
+url_pdf: 
+url_code: 
+topic_types: ["3"]
+# topic_types_name: topic_hash
+rating : 2024_06_28
+---  
diff --git a/content/publication/Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes/featured.jpg b/content/publication/Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes/featured.jpg
new file mode 100644
index 00000000..aacd0e03
Binary files /dev/null and b/content/publication/Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes/featured.jpg differ
diff --git a/content/publication/Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes/index.md b/content/publication/Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes/index.md
new file mode 100755
index 00000000..f6db8c17
--- /dev/null
+++ b/content/publication/Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes/index.md	
@@ -0,0 +1,18 @@
+---  
+title: "Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes"  
+authors:  
+ - Yaoting Wang
+ - Peiwen Sun
+ - Dongzhan Zhou
+ - Guangyao Li
+ - Honggang Zhang
+ - Di Hu
+publication_types: ["1"]  
+publication: European Conference on Computer Vision(ECCV) 2024
+publication_types_name: Conference Paper  
+url_pdf: 
+url_code: 
+topic_types: ["3"]
+# topic_types_name: topic_hash
+rating : 2024_06_30
+---  
diff --git a/docs/authors/bin-zhao/index.html b/docs/authors/bin-zhao/index.html
index 2b6f9a44..bdae136c 100644
--- a/docs/authors/bin-zhao/index.html
+++ b/docs/authors/bin-zhao/index.html
@@ -386,6 +386,10 @@ <h1>Bin Zhao</h1>
       <h3>Latest</h3>
       <ul>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/">Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</a>
         </li>
diff --git a/docs/authors/bin-zhao/index.xml b/docs/authors/bin-zhao/index.xml
index 7222473d..87fdd8f4 100644
--- a/docs/authors/bin-zhao/index.xml
+++ b/docs/authors/bin-zhao/index.xml
@@ -12,6 +12,14 @@
       <link>/authors/bin-zhao/</link>
     </image>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</title>
       <link>/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/</link>
diff --git a/docs/authors/di-hu/index.html b/docs/authors/di-hu/index.html
index c3d1d87c..037883b6 100755
--- a/docs/authors/di-hu/index.html
+++ b/docs/authors/di-hu/index.html
@@ -402,6 +402,10 @@ <h3>Latest</h3>
           <a href="/publication/balanced-multimodal-learning-via-on-the-fly-gradient-modulation/">Balanced Multimodal Learning via On-the-fly Gradient Modulation</a>
         </li>
         
+        <li>
+          <a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a>
+        </li>
+        
         <li>
           <a href="/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/">Class-aware Sounding Objects Localization via Audiovisual Correspondence</a>
         </li>
@@ -438,6 +442,10 @@ <h3>Latest</h3>
           <a href="/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/">Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation</a>
         </li>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/">Discrete Spectral Hashing for Efficient Similarity Retrieval</a>
         </li>
@@ -530,6 +538,10 @@ <h3>Latest</h3>
           <a href="/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/">Quantifying and Enhancing Multi-modal Robustness with Modality Preference</a>
         </li>
         
+        <li>
+          <a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a>
+        </li>
+        
         <li>
           <a href="/publication/revisiting-pre-training-in-audio-visual-learning/">Revisiting Pre-training in Audio-Visual Learning</a>
         </li>
diff --git a/docs/authors/di-hu/index.xml b/docs/authors/di-hu/index.xml
index 43950f1d..b8d7f664 100755
--- a/docs/authors/di-hu/index.xml
+++ b/docs/authors/di-hu/index.xml
@@ -44,6 +44,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Class-aware Sounding Objects Localization via Audiovisual Correspondence</title>
       <link>/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/</link>
@@ -116,6 +124,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Discrete Spectral Hashing for Efficient Similarity Retrieval</title>
       <link>/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/</link>
@@ -300,6 +316,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Revisiting Pre-training in Audio-Visual Learning</title>
       <link>/publication/revisiting-pre-training-in-audio-visual-learning/</link>
diff --git a/docs/authors/dong-wang/index.html b/docs/authors/dong-wang/index.html
index 5eebb4f4..3b74e1ab 100755
--- a/docs/authors/dong-wang/index.html
+++ b/docs/authors/dong-wang/index.html
@@ -394,6 +394,10 @@ <h3>Latest</h3>
           <a href="/publication/curriculum-audiovisual-learning/">Curriculum Audiovisual Learning</a>
         </li>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/">Heterogeneous Scene Analysis via Self-supervised Audiovisual Learning</a>
         </li>
diff --git a/docs/authors/dong-wang/index.xml b/docs/authors/dong-wang/index.xml
index 1462fb0f..7e82414a 100755
--- a/docs/authors/dong-wang/index.xml
+++ b/docs/authors/dong-wang/index.xml
@@ -28,6 +28,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Heterogeneous Scene Analysis via Self-supervised Audiovisual Learning</title>
       <link>/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/</link>
diff --git a/docs/authors/dongzhan-zhou/index.html b/docs/authors/dongzhan-zhou/index.html
index 73a343af..d6f06b2e 100755
--- a/docs/authors/dongzhan-zhou/index.html
+++ b/docs/authors/dongzhan-zhou/index.html
@@ -390,6 +390,10 @@ <h3>Latest</h3>
           <a href="/publication/exploiting-visual-context-semantics-for-sound-source-localization/">Exploiting Visual Context Semantics for Sound Source Localization</a>
         </li>
         
+        <li>
+          <a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a>
+        </li>
+        
         <li>
           <a href="/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/">SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance</a>
         </li>
diff --git a/docs/authors/dongzhan-zhou/index.xml b/docs/authors/dongzhan-zhou/index.xml
index c0534e29..c0f9d691 100755
--- a/docs/authors/dongzhan-zhou/index.xml
+++ b/docs/authors/dongzhan-zhou/index.xml
@@ -20,6 +20,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance</title>
       <link>/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/</link>
diff --git a/docs/authors/guangyao-li/index.html b/docs/authors/guangyao-li/index.html
index 86fa84c2..b35a7fcb 100755
--- a/docs/authors/guangyao-li/index.html
+++ b/docs/authors/guangyao-li/index.html
@@ -115,7 +115,7 @@
     
     <meta property="og:site_name" content="GeWu-Lab">
     <meta property="og:url" content="/authors/guangyao-li/">
-    <meta property="og:title" content="Guangyao Li* | GeWu-Lab">
+    <meta property="og:title" content="Guangyao Li | GeWu-Lab">
     <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
     <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
     
@@ -370,7 +370,7 @@ <h1>Search</h1>
   
 
 <div class="universal-wrapper pt-3">
-  <h1>Guangyao Li*</h1>
+  <h1>Guangyao Li</h1>
 </div>
 
 
@@ -402,6 +402,10 @@ <h3>Latest</h3>
           <a href="/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/">Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer</a>
         </li>
         
+        <li>
+          <a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a>
+        </li>
+        
         <li>
           <a href="/publication/self-supervised-audiovisual-representation-learning-for-remote-sensing-data/">Self-supervised Audiovisual Representation Learning for Remote Sensing Data</a>
         </li>
diff --git a/docs/authors/guangyao-li/index.xml b/docs/authors/guangyao-li/index.xml
index b39b8a4b..c9bb206e 100755
--- a/docs/authors/guangyao-li/index.xml
+++ b/docs/authors/guangyao-li/index.xml
@@ -1,14 +1,14 @@
 <?xml version="1.0" encoding="utf-8" standalone="yes" ?>
 <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
   <channel>
-    <title>Guangyao Li* | GeWu-Lab</title>
+    <title>Guangyao Li | GeWu-Lab</title>
     <link>/authors/guangyao-li/</link>
       <atom:link href="/authors/guangyao-li/index.xml" rel="self" type="application/rss+xml" />
-    <description>Guangyao Li*</description>
+    <description>Guangyao Li</description>
     <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
     <image>
       <url>/img/logo.png</url>
-      <title>Guangyao Li*</title>
+      <title>Guangyao Li</title>
       <link>/authors/guangyao-li/</link>
     </image>
     
@@ -44,6 +44,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Self-supervised Audiovisual Representation Learning for Remote Sensing Data</title>
       <link>/publication/self-supervised-audiovisual-representation-learning-for-remote-sensing-data/</link>
diff --git a/docs/authors/honggang-zhang/index.html b/docs/authors/honggang-zhang/index.html
new file mode 100644
index 00000000..05d6a012
--- /dev/null
+++ b/docs/authors/honggang-zhang/index.html
@@ -0,0 +1,520 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="Undergraduate, Since 2021">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/authors/honggang-zhang/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+    <link rel="alternate" href="/authors/honggang-zhang/index.xml" type="application/rss+xml" title="GeWu-Lab">
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/authors/honggang-zhang/">
+  
+    
+    
+    
+    
+      
+      
+    
+    
+    <meta property="twitter:card" content="summary">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/authors/honggang-zhang/">
+    <meta property="og:title" content="Honggang Zhang | GeWu-Lab">
+    <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
+    <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
+    
+      
+    
+  
+    
+
+
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  
+
+<div class="universal-wrapper pt-3">
+  <h1>Honggang Zhang</h1>
+</div>
+
+
+<section id="profile-page" class="pt-5">
+  <div class="container">
+    
+    
+
+    
+    
+    
+    <div class="article-widget content-widget-hr">
+      <h3>Latest</h3>
+      <ul>
+        
+        <li>
+          <a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a>
+        </li>
+        
+        <li>
+          <a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a>
+        </li>
+        
+      </ul>
+    </div>
+    
+  </div>
+</section>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/authors/honggang-zhang/index.xml b/docs/authors/honggang-zhang/index.xml
new file mode 100644
index 00000000..49a96576
--- /dev/null
+++ b/docs/authors/honggang-zhang/index.xml
@@ -0,0 +1,32 @@
+<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
+<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
+  <channel>
+    <title>Honggang Zhang | GeWu-Lab</title>
+    <link>/authors/honggang-zhang/</link>
+      <atom:link href="/authors/honggang-zhang/index.xml" rel="self" type="application/rss+xml" />
+    <description>Honggang Zhang</description>
+    <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
+    <image>
+      <url>/img/logo.png</url>
+      <title>Honggang Zhang</title>
+      <link>/authors/honggang-zhang/</link>
+    </image>
+    
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
+  </channel>
+</rss>
diff --git a/docs/authors/index.xml b/docs/authors/index.xml
index ed492dbb..622b23e6 100755
--- a/docs/authors/index.xml
+++ b/docs/authors/index.xml
@@ -238,15 +238,6 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
 </description>
     </item>
     
-    <item>
-      <title></title>
-      <link>/authors/24_yufan/</link>
-      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
-      <guid>/authors/24_yufan/</guid>
-      <description>&lt;p&gt;Yufan is a 2024 master&amp;rsquo;s graduate from Zhejiang University. She is passionate about image generation, cross-modal generation and multimodal learning.&lt;/p&gt;
-</description>
-    </item>
-    
     <item>
       <title></title>
       <link>/authors/admin/</link>
@@ -409,7 +400,7 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
     </item>
     
     <item>
-      <title>Guangyao Li*</title>
+      <title>Guangyao Li</title>
       <link>/authors/guangyao-li/</link>
       <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
       <guid>/authors/guangyao-li/</guid>
@@ -456,6 +447,14 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
       <description></description>
     </item>
     
+    <item>
+      <title>Honggang Zhang</title>
+      <link>/authors/honggang-zhang/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/authors/honggang-zhang/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Hongpeng Lin*</title>
       <link>/authors/hongpeng-lin/</link>
@@ -600,6 +599,14 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
       <description></description>
     </item>
     
+    <item>
+      <title>Peiwen Sun</title>
+      <link>/authors/peiwen-sun/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/authors/peiwen-sun/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Peiyu Liu</title>
       <link>/authors/peiyu-liu/</link>
@@ -761,7 +768,7 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
     </item>
     
     <item>
-      <title>Wenke Xia*</title>
+      <title>Wenke Xia</title>
       <link>/authors/wenke-xia/</link>
       <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
       <guid>/authors/wenke-xia/</guid>
@@ -913,7 +920,7 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
     </item>
     
     <item>
-      <title>Yake Wei*</title>
+      <title>Yake Wei</title>
       <link>/authors/yake-wei/</link>
       <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
       <guid>/authors/yake-wei/</guid>
@@ -921,7 +928,7 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
     </item>
     
     <item>
-      <title>Yaoting Wang*</title>
+      <title>Yaoting Wang</title>
       <link>/authors/yaoting-wang/</link>
       <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
       <guid>/authors/yaoting-wang/</guid>
@@ -929,7 +936,7 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
     </item>
     
     <item>
-      <title>Yapeng Tian*</title>
+      <title>Yapeng Tian</title>
       <link>/authors/yapeng-tian/</link>
       <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
       <guid>/authors/yapeng-tian/</guid>
@@ -952,6 +959,14 @@ He got his undergraduate degree at &lt;a href=&#34;https://www.ruc.edu.cn/&#34;
       <description></description>
     </item>
     
+    <item>
+      <title>Yuanchao Li</title>
+      <link>/authors/yuanchao-li/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/authors/yuanchao-li/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Yuansheng Hua</title>
       <link>/authors/yuansheng-hua/</link>
diff --git a/docs/authors/page/10/index.html b/docs/authors/page/10/index.html
index 5d37da0b..fbc3410b 100755
--- a/docs/authors/page/10/index.html
+++ b/docs/authors/page/10/index.html
@@ -406,7 +406,10 @@ <h1>Authors</h1>
     
     
       
-      <li><a href="/authors/wenke-xia/">Wenke Xia*</a></li>
+      <li><a href="/authors/weiyao-lin/">Weiyao Lin</a></li>
+    
+      
+      <li><a href="/authors/wenke-xia/">Wenke Xia</a></li>
     
       
       <li><a href="/authors/wenxuan-hou/">Wenxuan Hou</a></li>
@@ -432,9 +435,6 @@ <h1>Authors</h1>
       
       <li><a href="/authors/xiaowei-zhou/">Xiaowei Zhou</a></li>
     
-      
-      <li><a href="/authors/xiaoxiang-zhu/">Xiaoxiang Zhu</a></li>
-    
   </ul>
 
   
diff --git a/docs/authors/page/11/index.html b/docs/authors/page/11/index.html
index b7c88e45..f20d69d4 100644
--- a/docs/authors/page/11/index.html
+++ b/docs/authors/page/11/index.html
@@ -406,6 +406,9 @@ <h1>Authors</h1>
     
     
       
+      <li><a href="/authors/xiaoxiang-zhu/">Xiaoxiang Zhu</a></li>
+    
+      
       <li><a href="/authors/xincheng-pang/">Xincheng Pang</a></li>
     
       
@@ -432,9 +435,6 @@ <h1>Authors</h1>
       
       <li><a href="/authors/xuhong-li/">Xuhong Li</a></li>
     
-      
-      <li><a href="/authors/yake-wei/">Yake Wei*</a></li>
-    
   </ul>
 
   
diff --git a/docs/authors/page/12/index.html b/docs/authors/page/12/index.html
index b9adbbbe..a9e3117b 100644
--- a/docs/authors/page/12/index.html
+++ b/docs/authors/page/12/index.html
@@ -406,10 +406,13 @@ <h1>Authors</h1>
     
     
       
-      <li><a href="/authors/yaoting-wang/">Yaoting Wang*</a></li>
+      <li><a href="/authors/yake-wei/">Yake Wei</a></li>
     
       
-      <li><a href="/authors/yapeng-tian/">Yapeng Tian*</a></li>
+      <li><a href="/authors/yaoting-wang/">Yaoting Wang</a></li>
+    
+      
+      <li><a href="/authors/yapeng-tian/">Yapeng Tian</a></li>
     
       
       <li><a href="/authors/ying-shan/">Ying Shan</a></li>
@@ -418,6 +421,9 @@ <h1>Authors</h1>
       <li><a href="/authors/yixin-xu/">Yixin Xu</a></li>
     
       
+      <li><a href="/authors/yuanchao-li/">Yuanchao Li</a></li>
+    
+      
       <li><a href="/authors/yuansheng-hua/">Yuansheng Hua</a></li>
     
       
@@ -429,12 +435,6 @@ <h1>Authors</h1>
       
       <li><a href="/authors/zeyi-sun/">Zeyi Sun</a></li>
     
-      
-      <li><a href="/authors/zheng-wang/">Zheng Wang</a></li>
-    
-      
-      <li><a href="/authors/zhi-ye/">Zhi Ye</a></li>
-    
   </ul>
 
   
diff --git a/docs/authors/page/13/index.html b/docs/authors/page/13/index.html
index 93a9f9e4..e9fc199f 100644
--- a/docs/authors/page/13/index.html
+++ b/docs/authors/page/13/index.html
@@ -406,6 +406,12 @@ <h1>Authors</h1>
     
     
       
+      <li><a href="/authors/zheng-wang/">Zheng Wang</a></li>
+    
+      
+      <li><a href="/authors/zhi-ye/">Zhi Ye</a></li>
+    
+      
       <li><a href="/authors/zhigang-wang/">Zhigang Wang</a></li>
     
       
diff --git a/docs/authors/page/3/index.html b/docs/authors/page/3/index.html
index aa3fbce7..18329de8 100755
--- a/docs/authors/page/3/index.html
+++ b/docs/authors/page/3/index.html
@@ -421,9 +421,6 @@ <h1>Authors</h1>
       <li><a href="/authors/24_jirui/">JiRui Huang</a></li>
     
       
-      <li><a href="/authors/24_yufan/">Yufan Wu</a></li>
-    
-      
       <li><a href="/authors/admin/">Di Hu</a></li>
     
       
@@ -435,6 +432,9 @@ <h1>Authors</h1>
       
       <li><a href="/authors/bin-zhao/">Bin Zhao</a></li>
     
+      
+      <li><a href="/authors/bolei-zhou/">Bolei Zhou</a></li>
+    
   </ul>
 
   
diff --git a/docs/authors/page/4/index.html b/docs/authors/page/4/index.html
index 9228e920..c6e4c941 100755
--- a/docs/authors/page/4/index.html
+++ b/docs/authors/page/4/index.html
@@ -406,9 +406,6 @@ <h1>Authors</h1>
     
     
       
-      <li><a href="/authors/bolei-zhou/">Bolei Zhou</a></li>
-    
-      
       <li><a href="/authors/ce-liang/">Ce Liang</a></li>
     
       
@@ -435,6 +432,9 @@ <h1>Authors</h1>
       
       <li><a href="/authors/di-hu/">Di Hu</a></li>
     
+      
+      <li><a href="/authors/di-hu-chengze-wang-feiping-nie-xuelong-li/">Di Hu - Chengze Wang - Feiping Nie - Xuelong Li</a></li>
+    
   </ul>
 
   
diff --git a/docs/authors/page/5/index.html b/docs/authors/page/5/index.html
index d228974f..db99deac 100755
--- a/docs/authors/page/5/index.html
+++ b/docs/authors/page/5/index.html
@@ -406,9 +406,6 @@ <h1>Authors</h1>
     
     
       
-      <li><a href="/authors/di-hu-chengze-wang-feiping-nie-xuelong-li/">Di Hu - Chengze Wang - Feiping Nie - Xuelong Li</a></li>
-    
-      
       <li><a href="/authors/dong-chen/">Dong Chen</a></li>
     
       
@@ -424,7 +421,7 @@ <h1>Authors</h1>
       <li><a href="/authors/feiping-nie/">Feiping Nie</a></li>
     
       
-      <li><a href="/authors/guangyao-li/">Guangyao Li*</a></li>
+      <li><a href="/authors/guangyao-li/">Guangyao Li</a></li>
     
       
       <li><a href="/authors/han-zhang/">Han Zhang</a></li>
@@ -435,6 +432,9 @@ <h1>Authors</h1>
       
       <li><a href="/authors/haojin-yang/">Haojin Yang</a></li>
     
+      
+      <li><a href="/authors/haoyi-xiong/">Haoyi Xiong</a></li>
+    
   </ul>
 
   
diff --git a/docs/authors/page/6/index.html b/docs/authors/page/6/index.html
index 8677790e..14fb5896 100755
--- a/docs/authors/page/6/index.html
+++ b/docs/authors/page/6/index.html
@@ -406,10 +406,10 @@ <h1>Authors</h1>
     
     
       
-      <li><a href="/authors/haoyi-xiong/">Haoyi Xiong</a></li>
+      <li><a href="/authors/heinrich-dinkel/">Heinrich Dinkel</a></li>
     
       
-      <li><a href="/authors/heinrich-dinkel/">Heinrich Dinkel</a></li>
+      <li><a href="/authors/honggang-zhang/">Honggang Zhang</a></li>
     
       
       <li><a href="/authors/hongpeng-lin/">Hongpeng Lin*</a></li>
diff --git a/docs/authors/page/8/index.html b/docs/authors/page/8/index.html
index 73c90b99..2ff920e4 100755
--- a/docs/authors/page/8/index.html
+++ b/docs/authors/page/8/index.html
@@ -406,6 +406,9 @@ <h1>Authors</h1>
     
     
       
+      <li><a href="/authors/peiwen-sun/">Peiwen Sun</a></li>
+    
+      
       <li><a href="/authors/peiyu-liu/">Peiyu Liu</a></li>
     
       
@@ -432,9 +435,6 @@ <h1>Authors</h1>
       
       <li><a href="/authors/ruihua-song/">Ruihua Song</a></li>
     
-      
-      <li><a href="/authors/ruize-xu/">Ruize Xu</a></li>
-    
   </ul>
 
   
diff --git a/docs/authors/page/9/index.html b/docs/authors/page/9/index.html
index c49ddfe9..ac2b76fc 100755
--- a/docs/authors/page/9/index.html
+++ b/docs/authors/page/9/index.html
@@ -406,6 +406,9 @@ <h1>Authors</h1>
     
     
       
+      <li><a href="/authors/ruize-xu/">Ruize Xu</a></li>
+    
+      
       <li><a href="/authors/ruoxuan-feng/">Ruoxuan Feng</a></li>
     
       
@@ -432,9 +435,6 @@ <h1>Authors</h1>
       
       <li><a href="/authors/weisong-liu/">Weisong Liu*</a></li>
     
-      
-      <li><a href="/authors/weiyao-lin/">Weiyao Lin</a></li>
-    
   </ul>
 
   
diff --git a/docs/authors/peiwen-sun/index.html b/docs/authors/peiwen-sun/index.html
new file mode 100644
index 00000000..528f59e7
--- /dev/null
+++ b/docs/authors/peiwen-sun/index.html
@@ -0,0 +1,520 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="Undergraduate, Since 2021">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/authors/peiwen-sun/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+    <link rel="alternate" href="/authors/peiwen-sun/index.xml" type="application/rss+xml" title="GeWu-Lab">
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/authors/peiwen-sun/">
+  
+    
+    
+    
+    
+      
+      
+    
+    
+    <meta property="twitter:card" content="summary">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/authors/peiwen-sun/">
+    <meta property="og:title" content="Peiwen Sun | GeWu-Lab">
+    <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
+    <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
+    
+      
+    
+  
+    
+
+
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  
+
+<div class="universal-wrapper pt-3">
+  <h1>Peiwen Sun</h1>
+</div>
+
+
+<section id="profile-page" class="pt-5">
+  <div class="container">
+    
+    
+
+    
+    
+    
+    <div class="article-widget content-widget-hr">
+      <h3>Latest</h3>
+      <ul>
+        
+        <li>
+          <a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a>
+        </li>
+        
+        <li>
+          <a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a>
+        </li>
+        
+      </ul>
+    </div>
+    
+  </div>
+</section>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/authors/peiwen-sun/index.xml b/docs/authors/peiwen-sun/index.xml
new file mode 100644
index 00000000..6fbdbeaf
--- /dev/null
+++ b/docs/authors/peiwen-sun/index.xml
@@ -0,0 +1,32 @@
+<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
+<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
+  <channel>
+    <title>Peiwen Sun | GeWu-Lab</title>
+    <link>/authors/peiwen-sun/</link>
+      <atom:link href="/authors/peiwen-sun/index.xml" rel="self" type="application/rss+xml" />
+    <description>Peiwen Sun</description>
+    <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
+    <image>
+      <url>/img/logo.png</url>
+      <title>Peiwen Sun</title>
+      <link>/authors/peiwen-sun/</link>
+    </image>
+    
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
+  </channel>
+</rss>
diff --git a/docs/authors/wenke-xia/index.html b/docs/authors/wenke-xia/index.html
index d773ac1e..30abbe2d 100755
--- a/docs/authors/wenke-xia/index.html
+++ b/docs/authors/wenke-xia/index.html
@@ -115,7 +115,7 @@
     
     <meta property="og:site_name" content="GeWu-Lab">
     <meta property="og:url" content="/authors/wenke-xia/">
-    <meta property="og:title" content="Wenke Xia* | GeWu-Lab">
+    <meta property="og:title" content="Wenke Xia | GeWu-Lab">
     <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
     <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
     
@@ -370,7 +370,7 @@ <h1>Search</h1>
   
 
 <div class="universal-wrapper pt-3">
-  <h1>Wenke Xia*</h1>
+  <h1>Wenke Xia</h1>
 </div>
 
 
@@ -390,6 +390,10 @@ <h3>Latest</h3>
           <a href="/publication/balanced-audiovisual-dataset-for-imbalance-analysis/">Balanced Audiovisual Dataset for Imbalance Analysis</a>
         </li>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/">Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</a>
         </li>
diff --git a/docs/authors/wenke-xia/index.xml b/docs/authors/wenke-xia/index.xml
index 0ff987e0..5a8bdb20 100755
--- a/docs/authors/wenke-xia/index.xml
+++ b/docs/authors/wenke-xia/index.xml
@@ -1,14 +1,14 @@
 <?xml version="1.0" encoding="utf-8" standalone="yes" ?>
 <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
   <channel>
-    <title>Wenke Xia* | GeWu-Lab</title>
+    <title>Wenke Xia | GeWu-Lab</title>
     <link>/authors/wenke-xia/</link>
       <atom:link href="/authors/wenke-xia/index.xml" rel="self" type="application/rss+xml" />
-    <description>Wenke Xia*</description>
+    <description>Wenke Xia</description>
     <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
     <image>
       <url>/img/logo.png</url>
-      <title>Wenke Xia*</title>
+      <title>Wenke Xia</title>
       <link>/authors/wenke-xia/</link>
     </image>
     
@@ -20,6 +20,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</title>
       <link>/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/</link>
diff --git a/docs/authors/xincheng-pang/index.html b/docs/authors/xincheng-pang/index.html
index 2e61bf9f..a808b69a 100755
--- a/docs/authors/xincheng-pang/index.html
+++ b/docs/authors/xincheng-pang/index.html
@@ -390,6 +390,10 @@ <h3>Latest</h3>
           <a href="/publication/balanced-audiovisual-dataset-for-imbalance-analysis/">Balanced Audiovisual Dataset for Imbalance Analysis</a>
         </li>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/">Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</a>
         </li>
diff --git a/docs/authors/xincheng-pang/index.xml b/docs/authors/xincheng-pang/index.xml
index 91711c92..612fd697 100755
--- a/docs/authors/xincheng-pang/index.xml
+++ b/docs/authors/xincheng-pang/index.xml
@@ -20,6 +20,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</title>
       <link>/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/</link>
diff --git a/docs/authors/xuelong-li/index.html b/docs/authors/xuelong-li/index.html
index 0e08227d..bbb9e81d 100755
--- a/docs/authors/xuelong-li/index.html
+++ b/docs/authors/xuelong-li/index.html
@@ -402,6 +402,10 @@ <h3>Latest</h3>
           <a href="/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/">Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation</a>
         </li>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/">Discrete Spectral Hashing for Efficient Similarity Retrieval</a>
         </li>
diff --git a/docs/authors/xuelong-li/index.xml b/docs/authors/xuelong-li/index.xml
index 08f8591d..cf1f3b77 100755
--- a/docs/authors/xuelong-li/index.xml
+++ b/docs/authors/xuelong-li/index.xml
@@ -44,6 +44,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Discrete Spectral Hashing for Efficient Similarity Retrieval</title>
       <link>/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/</link>
diff --git a/docs/authors/yake-wei/index.html b/docs/authors/yake-wei/index.html
index e5c26626..2c7a24b6 100755
--- a/docs/authors/yake-wei/index.html
+++ b/docs/authors/yake-wei/index.html
@@ -115,7 +115,7 @@
     
     <meta property="og:site_name" content="GeWu-Lab">
     <meta property="og:url" content="/authors/yake-wei/">
-    <meta property="og:title" content="Yake Wei* | GeWu-Lab">
+    <meta property="og:title" content="Yake Wei | GeWu-Lab">
     <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
     <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
     
@@ -370,7 +370,7 @@ <h1>Search</h1>
   
 
 <div class="universal-wrapper pt-3">
-  <h1>Yake Wei*</h1>
+  <h1>Yake Wei</h1>
 </div>
 
 
diff --git a/docs/authors/yake-wei/index.xml b/docs/authors/yake-wei/index.xml
index d91a20a8..da2527f7 100755
--- a/docs/authors/yake-wei/index.xml
+++ b/docs/authors/yake-wei/index.xml
@@ -1,14 +1,14 @@
 <?xml version="1.0" encoding="utf-8" standalone="yes" ?>
 <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
   <channel>
-    <title>Yake Wei* | GeWu-Lab</title>
+    <title>Yake Wei | GeWu-Lab</title>
     <link>/authors/yake-wei/</link>
       <atom:link href="/authors/yake-wei/index.xml" rel="self" type="application/rss+xml" />
-    <description>Yake Wei*</description>
+    <description>Yake Wei</description>
     <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
     <image>
       <url>/img/logo.png</url>
-      <title>Yake Wei*</title>
+      <title>Yake Wei</title>
       <link>/authors/yake-wei/</link>
     </image>
     
diff --git a/docs/authors/yaoting-wang/index.html b/docs/authors/yaoting-wang/index.html
index bb73e519..47224d94 100644
--- a/docs/authors/yaoting-wang/index.html
+++ b/docs/authors/yaoting-wang/index.html
@@ -115,7 +115,7 @@
     
     <meta property="og:site_name" content="GeWu-Lab">
     <meta property="og:url" content="/authors/yaoting-wang/">
-    <meta property="og:title" content="Yaoting Wang* | GeWu-Lab">
+    <meta property="og:title" content="Yaoting Wang | GeWu-Lab">
     <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
     <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
     
@@ -370,7 +370,7 @@ <h1>Search</h1>
   
 
 <div class="universal-wrapper pt-3">
-  <h1>Yaoting Wang*</h1>
+  <h1>Yaoting Wang</h1>
 </div>
 
 
@@ -386,10 +386,18 @@ <h1>Yaoting Wang*</h1>
       <h3>Latest</h3>
       <ul>
         
+        <li>
+          <a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a>
+        </li>
+        
         <li>
           <a href="/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/">Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer</a>
         </li>
         
+        <li>
+          <a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a>
+        </li>
+        
       </ul>
     </div>
     
diff --git a/docs/authors/yaoting-wang/index.xml b/docs/authors/yaoting-wang/index.xml
index 6e7eb454..669c5fcc 100644
--- a/docs/authors/yaoting-wang/index.xml
+++ b/docs/authors/yaoting-wang/index.xml
@@ -1,17 +1,25 @@
 <?xml version="1.0" encoding="utf-8" standalone="yes" ?>
 <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
   <channel>
-    <title>Yaoting Wang* | GeWu-Lab</title>
+    <title>Yaoting Wang | GeWu-Lab</title>
     <link>/authors/yaoting-wang/</link>
       <atom:link href="/authors/yaoting-wang/index.xml" rel="self" type="application/rss+xml" />
-    <description>Yaoting Wang*</description>
+    <description>Yaoting Wang</description>
     <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
     <image>
       <url>/img/logo.png</url>
-      <title>Yaoting Wang*</title>
+      <title>Yaoting Wang</title>
       <link>/authors/yaoting-wang/</link>
     </image>
     
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer</title>
       <link>/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/</link>
@@ -20,5 +28,13 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
   </channel>
 </rss>
diff --git a/docs/authors/yapeng-tian/index.html b/docs/authors/yapeng-tian/index.html
index 93aaf475..6a55ebe2 100755
--- a/docs/authors/yapeng-tian/index.html
+++ b/docs/authors/yapeng-tian/index.html
@@ -115,7 +115,7 @@
     
     <meta property="og:site_name" content="GeWu-Lab">
     <meta property="og:url" content="/authors/yapeng-tian/">
-    <meta property="og:title" content="Yapeng Tian* | GeWu-Lab">
+    <meta property="og:title" content="Yapeng Tian | GeWu-Lab">
     <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
     <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
     
@@ -370,7 +370,7 @@ <h1>Search</h1>
   
 
 <div class="universal-wrapper pt-3">
-  <h1>Yapeng Tian*</h1>
+  <h1>Yapeng Tian</h1>
 </div>
 
 
diff --git a/docs/authors/yapeng-tian/index.xml b/docs/authors/yapeng-tian/index.xml
index 7c92e1b7..451a1056 100755
--- a/docs/authors/yapeng-tian/index.xml
+++ b/docs/authors/yapeng-tian/index.xml
@@ -1,14 +1,14 @@
 <?xml version="1.0" encoding="utf-8" standalone="yes" ?>
 <rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
   <channel>
-    <title>Yapeng Tian* | GeWu-Lab</title>
+    <title>Yapeng Tian | GeWu-Lab</title>
     <link>/authors/yapeng-tian/</link>
       <atom:link href="/authors/yapeng-tian/index.xml" rel="self" type="application/rss+xml" />
-    <description>Yapeng Tian*</description>
+    <description>Yapeng Tian</description>
     <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
     <image>
       <url>/img/logo.png</url>
-      <title>Yapeng Tian*</title>
+      <title>Yapeng Tian</title>
       <link>/authors/yapeng-tian/</link>
     </image>
     
diff --git a/docs/authors/yuanchao-li/index.html b/docs/authors/yuanchao-li/index.html
new file mode 100644
index 00000000..2a81fad5
--- /dev/null
+++ b/docs/authors/yuanchao-li/index.html
@@ -0,0 +1,516 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="Undergraduate, Since 2021">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/authors/yuanchao-li/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+    <link rel="alternate" href="/authors/yuanchao-li/index.xml" type="application/rss+xml" title="GeWu-Lab">
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/authors/yuanchao-li/">
+  
+    
+    
+    
+    
+      
+      
+    
+    
+    <meta property="twitter:card" content="summary">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/authors/yuanchao-li/">
+    <meta property="og:title" content="Yuanchao Li | GeWu-Lab">
+    <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
+    <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
+    
+      
+    
+  
+    
+
+
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  
+
+<div class="universal-wrapper pt-3">
+  <h1>Yuanchao Li</h1>
+</div>
+
+
+<section id="profile-page" class="pt-5">
+  <div class="container">
+    
+    
+
+    
+    
+    
+    <div class="article-widget content-widget-hr">
+      <h3>Latest</h3>
+      <ul>
+        
+        <li>
+          <a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a>
+        </li>
+        
+      </ul>
+    </div>
+    
+  </div>
+</section>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/authors/yuanchao-li/index.xml b/docs/authors/yuanchao-li/index.xml
new file mode 100644
index 00000000..d3f48e81
--- /dev/null
+++ b/docs/authors/yuanchao-li/index.xml
@@ -0,0 +1,24 @@
+<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
+<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
+  <channel>
+    <title>Yuanchao Li | GeWu-Lab</title>
+    <link>/authors/yuanchao-li/</link>
+      <atom:link href="/authors/yuanchao-li/index.xml" rel="self" type="application/rss+xml" />
+    <description>Yuanchao Li</description>
+    <generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>en-us</language><copyright>copyright © 2024 GeWu-Lab</copyright>
+    <image>
+      <url>/img/logo.png</url>
+      <title>Yuanchao Li</title>
+      <link>/authors/yuanchao-li/</link>
+    </image>
+    
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
+  </channel>
+</rss>
diff --git a/docs/authors/zhigang-wang/index.html b/docs/authors/zhigang-wang/index.html
index 361cf543..56cdc96b 100755
--- a/docs/authors/zhigang-wang/index.html
+++ b/docs/authors/zhigang-wang/index.html
@@ -386,6 +386,10 @@ <h1>Zhigang Wang</h1>
       <h3>Latest</h3>
       <ul>
         
+        <li>
+          <a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a>
+        </li>
+        
         <li>
           <a href="/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/">Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</a>
         </li>
diff --git a/docs/authors/zhigang-wang/index.xml b/docs/authors/zhigang-wang/index.xml
index 0121255a..0a2b2360 100755
--- a/docs/authors/zhigang-wang/index.xml
+++ b/docs/authors/zhigang-wang/index.xml
@@ -12,6 +12,14 @@
       <link>/authors/zhigang-wang/</link>
     </image>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</title>
       <link>/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/</link>
diff --git a/docs/index.json b/docs/index.json
index 9752f59b..b51dbc65 100755
--- a/docs/index.json
+++ b/docs/index.json
@@ -1 +1 @@
-[{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"4e73f707a3c1da0c5d8d165361161c7b","permalink":"/authors/19_ruize/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/19_ruize/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Ruize Xu","type":"authors"},{"authors":null,"categories":null,"content":"Guangyao is a Ph.D. Candidate at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He got his master degree at China Agricultural University in 2020 and got into GeWu-Lab since then. His recently research interests include audio-visual learning and scene understanding. And he hopes to brave the no-man\u0026rsquo;s land on the road of scientific research and make warm artificial intelligence research! People who are interested in my research domain are very welcome and do not hesitate to contact me actively. For more information, please visit his personal homepage. Valar Morghulis！\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"537de72d4cb178cea6fbf2b2a92ea589","permalink":"/authors/20_guangyao/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_guangyao/","section":"authors","summary":"Guangyao is a Ph.D. Candidate at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He got his master degree at China Agricultural University in 2020 and got into GeWu-Lab since then. His recently research interests include audio-visual learning and scene understanding. And he hopes to brave the no-man\u0026rsquo;s land on the road of scientific research and make warm artificial intelligence research! People who","tags":null,"title":"Guangyao Li","type":"authors"},{"authors":null,"categories":null,"content":"Xiaokang is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. He got his undergraduate degree at School of Information, Renmin University of China in 2020 and got into GeWu-Lab since then. He is interested in multi-modal learning and perception, and optimization mechanism design. And he is also devoted to help these visually impaired with AI in both technology and practice.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"22debf3f166bda4bfb28c8317489f918","permalink":"/authors/20_xiaokang/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_xiaokang/","section":"authors","summary":"Xiaokang is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. He got his undergraduate degree at School of Information, Renmin University of China in 2020 and got into GeWu-Lab since then. He is interested in multi-modal learning and perception, and optimization mechanism design. And he is also devoted to help these visually impaired with AI in both technology and practice.","tags":null,"title":"Xiaokang Peng","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"55a49bcd8ae300a0362a45302ca97c26","permalink":"/authors/20_xuemin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_xuemin/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Xuemin Liu","type":"authors"},{"authors":null,"categories":null,"content":"Yixin is a master student at Gaoling School of Artificial Intelligence, Renmin University of China. His main research topics are Multi-modal Scene Perception and Self-surpervised Representation Learning. Now he is working on video understanding and speaker diarization task for complex speech scenario. He is also interested in Internet finance, and has got his Bachelor of Finance in Renmin University of China besides the Computer Science degree.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"033ae9c233d8ca15172e0f0eb482735e","permalink":"/authors/20_yixin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_yixin/","section":"authors","summary":"Yixin is a master student at Gaoling School of Artificial Intelligence, Renmin University of China. His main research topics are Multi-modal Scene Perception and Self-surpervised Representation Learning. Now he is working on video understanding and speaker diarization task for complex speech scenario. He is also interested in Internet finance, and has got his Bachelor of Finance in Renmin University of China besides the Computer Science degree.","tags":null,"title":"Yixin Xu","type":"authors"},{"authors":null,"categories":null,"content":"Rui is interested in computer vision and machine learning, and has done some research on video representation learning and joint audio-visual learning. During his undergraduate he works with Prof. Di Hu. Now Rui is a Ph.D. student in Multi-Media Lab at The Chinese University of Hong Kong, supervised by Prof. Dahua Lin.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"9434b9dca31f1f23a676f2b869e0c881","permalink":"/authors/21_ruiqian/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/21_ruiqian/","section":"authors","summary":"Rui is interested in computer vision and machine learning, and has done some research on video representation learning and joint audio-visual learning. During his undergraduate he works with Prof. Di Hu. Now Rui is a Ph.D. student in Multi-Media Lab at The Chinese University of Hong Kong, supervised by Prof. Dahua Lin.","tags":null,"title":"Rui Qian","type":"authors"},{"authors":null,"categories":null,"content":"Yake is a PhD student at Gaoling School of Artificial Intelligence, Renmin University of China. She received her bachelor\u0026rsquo;s degree in Computer Science and Technology from University of Electronic Science and Technology of China in 2021. Now her research interests focus on the effective mechanism of multi-modal learning.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"57b1d4e29185f3870d53fc65c766173e","permalink":"/authors/21_yake/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/21_yake/","section":"authors","summary":"Yake is a PhD student at Gaoling School of Artificial Intelligence, Renmin University of China. She received her bachelor\u0026rsquo;s degree in Computer Science and Technology from University of Electronic Science and Technology of China in 2021. Now her research interests focus on the effective mechanism of multi-modal learning.","tags":null,"title":"Yake Wei","type":"authors"},{"authors":null,"categories":null,"content":"Andong Deng spent a wonderful year at GeWu Lab doing research about multimodal learning with Dr. Di Hu from 2021 to 2022. Now he is an upcoming PhD student in 2022 Fall at Center for Research in Computer Vision, University of Central Florida, advised by Dr. Chen Chen. His research interests include multi-modal learning, video understanding and 3D vision.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"c95476ad24cc214056b3d2c5e8c90f17","permalink":"/authors/22_andong/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_andong/","section":"authors","summary":"Andong Deng spent a wonderful year at GeWu Lab doing research about multimodal learning with Dr. Di Hu from 2021 to 2022. Now he is an upcoming PhD student in 2022 Fall at Center for Research in Computer Vision, University of Central Florida, advised by Dr. Chen Chen. His research interests include multi-modal learning, video understanding and 3D vision.","tags":null,"title":"Andong Deng","type":"authors"},{"authors":null,"categories":null,"content":"Wenke is a Ph.D student since 2022 Fall at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. His research interests include reinforcement learning and embodied AI. Now, he focus on building a generalizable manipulation policy with computer vision.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"a2791369e75b13b52139d9860293bdd5","permalink":"/authors/22_wenke/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_wenke/","section":"authors","summary":"Wenke is a Ph.D student since 2022 Fall at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. His research interests include reinforcement learning and embodied AI. Now, he focus on building a generalizable manipulation policy with computer vision.","tags":null,"title":"Wenke Xia","type":"authors"},{"authors":null,"categories":null,"content":"Wenxuan is a second-year Ph.D student in the GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He has got his bachelor\u0026rsquo;s degree and master\u0026rsquo;s degree in Northwestern Polytechnical University and Xi\u0026rsquo;an Jiaotong University, respectively. Now his main research focuses on multimodal learning towards real-world scene understanding, aiming to guide the machine to perceive and understand natural scenes like human beings.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"cd37724dba9b446f1c1307e40cd45632","permalink":"/authors/22_wenxuan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_wenxuan/","section":"authors","summary":"Wenxuan is a second-year Ph.D student in the GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He has got his bachelor\u0026rsquo;s degree and master\u0026rsquo;s degree in Northwestern Polytechnical University and Xi\u0026rsquo;an Jiaotong University, respectively. Now his main research focuses on multimodal learning towards real-world scene understanding, aiming to guide the machine to perceive and understand natural scenes like human beings.","tags":null,"title":"Wenxuan Hou","type":"authors"},{"authors":null,"categories":null,"content":"Xincheng is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. Currently his research interests focus on scene understanding in embodied ai with multi-modal.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"a389590984a0c3fb50de499f8df2d4c0","permalink":"/authors/22_xincheng/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_xincheng/","section":"authors","summary":"Xincheng is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. Currently his research interests focus on scene understanding in embodied ai with multi-modal.","tags":null,"title":"Xincheng Pang","type":"authors"},{"authors":null,"categories":null,"content":"Zequn is a second-year Ph.D. student at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He currently focuses on the mechanism of multi-modal learning, including theoretical comprehension and algorithm design. He also has a keen interest in developing efficient and effective multi-view clustering techniques utilizing machine learning methods.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"d884fc3eb1e2b2382def5073cec5e105","permalink":"/authors/22_zequn/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_zequn/","section":"authors","summary":"Zequn is a second-year Ph.D. student at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He currently focuses on the mechanism of multi-modal learning, including theoretical comprehension and algorithm design. He also has a keen interest in developing efficient and effective multi-view clustering techniques utilizing machine learning methods.","tags":null,"title":"Zequn Yang","type":"authors"},{"authors":null,"categories":null,"content":"Henghui is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He has got his bachelor\u0026rsquo;s degree in Dalian University of Technology in 2023. Currently his research instrests focus on Large language Models and cross-modal generation.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"0f875044223f8afd458b089859ba38d8","permalink":"/authors/23_henghui/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_henghui/","section":"authors","summary":"Henghui is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He has got his bachelor\u0026rsquo;s degree in Dalian University of Technology in 2023. Currently his research instrests focus on Large language Models and cross-modal generation.","tags":null,"title":"Henghui Du","type":"authors"},{"authors":null,"categories":null,"content":"Jiahao is a senior student of the School of Computer Science and Engineering, BUAA. He is interested in the interaction mechanism of multi-modal.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"8808a5aa1460c5cb4fad660d28f8520a","permalink":"/authors/23_jiahao/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jiahao/","section":"authors","summary":"Jiahao is a senior student of the School of Computer Science and Engineering, BUAA. He is interested in the interaction mechanism of multi-modal.","tags":null,"title":"Jiahao Li","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"1697602eb95e74d0fb1a9247c1f07489","permalink":"/authors/23_jianghan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jianghan/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Jianghan Chao","type":"authors"},{"authors":null,"categories":null,"content":"Jingxian is a fourth-year student of Gaoling School of Artificial Intelligence, Renmin University of China. He is interested in robot manipulation and perception from interaction.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"bdeafc1f9127d19078299ad17ddcf547","permalink":"/authors/23_jingxian/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jingxian/","section":"authors","summary":"Jingxian is a fourth-year student of Gaoling School of Artificial Intelligence, Renmin University of China. He is interested in robot manipulation and perception from interaction.","tags":null,"title":"Jingxian Lu","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"b1f3ebd7d0f58e6a501810a383c4a9ed","permalink":"/authors/23_jinlin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jinlin/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Jinlin Li","type":"authors"},{"authors":null,"categories":null,"content":"Juncheng is a third-year student of School of Artificial Intelligence, University of Chinese Academy of Sciences. His research interests include audio-visual localization and segmentation.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"874c09024781e4fd5375423eaef9c9e8","permalink":"/authors/23_juncheng/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_juncheng/","section":"authors","summary":"Juncheng is a third-year student of School of Artificial Intelligence, University of Chinese Academy of Sciences. His research interests include audio-visual localization and segmentation.","tags":null,"title":"Juncheng Ma","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"834fe556c30cd4180a6dc4c692fd63d9","permalink":"/authors/23_liangce/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_liangce/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Ce Liang","type":"authors"},{"authors":null,"categories":null,"content":"Peiwen is a second-year MPhil student of the Department of Artificial Intelligence, Beijing University of Posts and Telecommunications. He is interested in multimodal learning including sentiment, segmentation and foundation models.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"bf84fe39ef0b614af0ae82d08359c784","permalink":"/authors/23_peiwen/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_peiwen/","section":"authors","summary":"Peiwen is a second-year MPhil student of the Department of Artificial Intelligence, Beijing University of Posts and Telecommunications. He is interested in multimodal learning including sentiment, segmentation and foundation models.","tags":null,"title":"Peiwen Sun","type":"authors"},{"authors":null,"categories":null,"content":"Ruoxuan is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He is interested in multi-modal learning and embodied AI.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"c29a63de0242659b43a43451fc077046","permalink":"/authors/23_ruoxuan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_ruoxuan/","section":"authors","summary":"Ruoxuan is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He is interested in multi-modal learning and embodied AI.","tags":null,"title":"Ruoxuan Feng","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"364786f50ed04bbfb2309f8069cdbe90","permalink":"/authors/23_shaoxuan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_shaoxuan/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Shaoxuan Xu","type":"authors"},{"authors":null,"categories":null,"content":"Siwei is a fourth-year student of the Department of Electronic Engineering, Tsinghua University. He is interested in image editing with generative diffusion models and image deblurring.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"062e874f9d4216ee7c15e6afe41e1631","permalink":"/authors/23_siwei/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_siwei/","section":"authors","summary":"Siwei is a fourth-year student of the Department of Electronic Engineering, Tsinghua University. He is interested in image editing with generative diffusion models and image deblurring.","tags":null,"title":"Siwei Li","type":"authors"},{"authors":null,"categories":null,"content":"Yaoting is currently working as an intern at the Deepwise AI Lab for multimodal medical data processing. He received his master\u0026rsquo;s degree from the University of Edinburgh in 2022. His research interests include multimodal deep learning, cross-modal transformers, and affective computing.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"bda305ecfaa132f6e49d2dd2566d0f25","permalink":"/authors/23_yaoting/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_yaoting/","section":"authors","summary":"Yaoting is currently working as an intern at the Deepwise AI Lab for multimodal medical data processing. He received his master\u0026rsquo;s degree from the University of Edinburgh in 2022. His research interests include multimodal deep learning, cross-modal transformers, and affective computing.","tags":null,"title":"Yaoting Wang","type":"authors"},{"authors":null,"categories":null,"content":"Jirui is a second-year MPhil student of the School of Computer and Artificial Intelligence, Wuhan University of Technology. She is interested in multimodal understanding and cross-modal generation.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"7a6ee1988cb2fa93bfeee88a094c7489","permalink":"/authors/24_jirui/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/24_jirui/","section":"authors","summary":"Jirui is a second-year MPhil student of the School of Computer and Artificial Intelligence, Wuhan University of Technology. She is interested in multimodal understanding and cross-modal generation.","tags":null,"title":"JiRui Huang","type":"authors"},{"authors":null,"categories":null,"content":"Yufan is a 2024 master\u0026rsquo;s graduate from Zhejiang University. She is passionate about image generation, cross-modal generation and multimodal learning.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"c14f420ee1c389fe8957ee3db85085ee","permalink":"/authors/24_yufan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/24_yufan/","section":"authors","summary":"Yufan is a 2024 master\u0026rsquo;s graduate from Zhejiang University. She is passionate about image generation, cross-modal generation and multimodal learning.","tags":null,"title":"Yufan Wu","type":"authors"},{"authors":["dihu"],"categories":null,"content":"Di Hu is tenure-track faculty at Gaoling School of Artificial Intelligence, Renmin University of China. Before that, he was previously a research scientist at Baidu Research. Di Hu obtained the Ph.D degree from Northwestern Polytechnical University in 2019, supervised by Xuelong Li. Currently, Di Hu is leading the GeWu Lab and exploring how to understand and interact with the world via the natural multimodal messages. He is an aficionado of cognitive neuroscience and has wrote one study note during his undergraduate. Inspired by what he learned from cognitive neuroscience, and what he observed and deliberated from the daily-life, he strongly convinced that the pervasive, free, natural multimodal messages can provide sufficient information for perceiving, learning and understanding environment, even the agent itself, which promisingly makes multimodal learning become one of the key to achieve machine intelligence.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"2525497d367e79493fd32b198b28f040","permalink":"/authors/admin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/admin/","section":"authors","summary":"Di Hu is tenure-track faculty at Gaoling School of Artificial Intelligence, Renmin University of China. Before that, he was previously a research scientist at Baidu Research. Di Hu obtained the Ph.D degree from Northwestern Polytechnical University in 2019, supervised by Xuelong Li. Currently, Di Hu is leading the GeWu Lab and exploring how to understand and interact with the world via the natural multimodal messages. He is an aficionado of","tags":null,"title":"Di Hu","type":"authors"},{"authors":["Rui Qian","Di Hu","Heinrich Dinkel","Mengyue Wu","Ning Xu","Weiyao Lin"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"852b491b0dcadb44b8f099f931db74c4","permalink":"/publication/a-two-stage-framework-for-multiple-sound-source-localization/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/a-two-stage-framework-for-multiple-sound-source-localization/","section":"publication","summary":"","tags":null,"title":"A Two-Stage Framework for Multiple Sound-Source Localization","type":"publication"},{"authors":["Di Hu*","Lichao Mou*","Qingzhong Wang*","Junyu Gao","Yuansheng Hua","Dejing Dou","Xiao Xiang Zhu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"b21459d2cd2aa98d5a771a396df3c29e","permalink":"/publication/ambient-sound-helps_-audiovisual-crowd-counting-in-extreme-conditions/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/ambient-sound-helps_-audiovisual-crowd-counting-in-extreme-conditions/","section":"publication","summary":"","tags":null,"title":"Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions","type":"publication"},{"authors":["Wenke Xia*","Xu Zhao*","Xincheng Pang","Changqing Zhang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"7a5ff9681de843469038165a230c4f87","permalink":"/publication/balanced-audiovisual-dataset-for-imbalance-analysis/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/balanced-audiovisual-dataset-for-imbalance-analysis/","section":"publication","summary":"","tags":null,"title":"Balanced Audiovisual Dataset for Imbalance Analysis","type":"publication"},{"authors":["Xiaokang Peng*","Yake Wei*","Andong Deng","Dong Wang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"1cdda2159c4adeb4f31cb4e7f1a5ab8a","permalink":"/publication/balanced-multimodal-learning-via-on-the-fly-gradient-modulation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/balanced-multimodal-learning-via-on-the-fly-gradient-modulation/","section":"publication","summary":"","tags":null,"title":"Balanced Multimodal Learning via On-the-fly Gradient Modulation","type":"publication"},{"authors":["Di Hu","Yake Wei","Rui Qian","Weiyao Lin","Ruihua Song","Ji-Rong Wen"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"91e67073102678aec9799732ceef49f3","permalink":"/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/","section":"publication","summary":"","tags":null,"title":"Class-aware Sounding Objects Localization via Audiovisual Correspondence","type":"publication"},{"authors":["Yapeng Tian*","Di Hu*","Chenliang Xu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"c0d82a52007e4e9ab50a2cfafdc4ac17","permalink":"/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/","section":"publication","summary":"","tags":null,"title":"Co-Learn Sounding Object Visual Grounding and Visually Indicated Sound Separation in A Cycle","type":"publication"},{"authors":["Di Hu","Xuhong Li","Lichao Mou","Pu Jin","Dong Chen","Liping Jing","Xiaoxiang Zhu","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"c7688dd14aa743d0b927f94d97854f27","permalink":"/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/","section":"publication","summary":"","tags":null,"title":"Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition","type":"publication"},{"authors":["Di Hu","Zheng Wang","Haoyi Xiong","Dong Wang","Feiping Nie","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ac02b15b850ff085e6c9ad497f3a130c","permalink":"/publication/curriculum-audiovisual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/curriculum-audiovisual-learning/","section":"publication","summary":"","tags":null,"title":"Curriculum Audiovisual Learning","type":"publication"},{"authors":["Yapeng Tian","Di Hu","Chenliang Xu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"cd0308a1bfb55705c394057955f2375d","permalink":"/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/","section":"publication","summary":"","tags":null,"title":"Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"202776673a51788c119f1451c9e313c2","permalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing-journal/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing-journal/","section":"publication","summary":"","tags":null,"title":"Deep Binary Reconstruction for Cross-modal Hashing","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"00f72a8fe1deeb265958a59b94c2cd33","permalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing/","section":"publication","summary":"","tags":null,"title":"Deep Binary Reconstruction for Cross-modal Hashing","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"f6c0a9a658cdceee78bd291860181d99","permalink":"/publication/deep-linear-discriminant-analysis-hashing-supplemental-material/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-linear-discriminant-analysis-hashing-supplemental-material/","section":"publication","summary":"","tags":null,"title":"Deep Linear Discriminant Analysis Hashing","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d1466a6c42ba930502049d24243f8b62","permalink":"/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/","section":"publication","summary":"","tags":null,"title":"Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation","type":"publication"},{"authors":["Di Hu - Chengze Wang - Feiping Nie - Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"9e4cd76d6b972d54b50c190779f639a5","permalink":"/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/","section":"publication","summary":"","tags":null,"title":"Dense Multimodal Fusion for Hierarchically Joint Representation","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"4b1e10b4327cca00dfd58162571a2f8c","permalink":"/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/","section":"publication","summary":"","tags":null,"title":"Discrete Spectral Hashing for Efficient Similarity Retrieval","type":"publication"},{"authors":["Di Hu","Rui Qian","Minyue Jiang","Xiao Tan","Shilei Wen","Errui Ding","Weiyao Lin","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d6953eeac03ee85322e85eece2eeeb84","permalink":"/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/","section":"publication","summary":"","tags":null,"title":"Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching","type":"publication"},{"authors":["Di Hu*","Lichao Mou*","Qingzhong Wang*","Junyu Gao","Yuansheng Hua","Dejing Dou","Xiaoxiang Zhu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"3016d01c7b86e792f8778f7aba6fc44d","permalink":"/publication/does-ambient-sound-help_-audiovisual-crowd-counting/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/does-ambient-sound-help_-audiovisual-crowd-counting/","section":"publication","summary":"","tags":null,"title":"Does Ambient Sound Help? - Audiovisual Crowd Counting","type":"publication"},{"authors":["Yake Wei","Ruoxuan Feng","Zihe Wang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"0278c6a7c52909fa5c55eaf522569e7f","permalink":"/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/","section":"publication","summary":"","tags":null,"title":"Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation","type":"publication"},{"authors":["Xinchi Zhou","Dongzhan Zhou","Di Hu","Hang Zhou","Wanli Ouyang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"28bd51450c42258842f48363910f83c8","permalink":"/publication/exploiting-visual-context-semantics-for-sound-source-localization/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/exploiting-visual-context-semantics-for-sound-source-localization/","section":"publication","summary":"","tags":null,"title":"Exploiting Visual Context Semantics for Sound Source Localization","type":"publication"},{"authors":["Sijia Yang","Haoyi Xiong","Di Hu","Kaibo Xu","Licheng Wang","Peizhen Zhu","Zeyi Sun"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ed52bf34eef1f16fc89a0fc5c32fa152","permalink":"/publication/generalising-combinatorial-discriminant-analysis-through-conditioning-truncated-rayleigh-flow/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/generalising-combinatorial-discriminant-analysis-through-conditioning-truncated-rayleigh-flow/","section":"publication","summary":"","tags":null,"title":"Generalising Combinatorial Discriminant Analysis through Conditioning Truncated Rayleigh Flow","type":"publication"},{"authors":["Zequn Yang","Han Zhang","Yake Wei","Zheng Wang","Feiping Nie","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"76c72a76e4cf8516d166a780e270c79b","permalink":"/publication/geometric-inspired-graph-based-incomplete-multi-view-clustering/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/geometric-inspired-graph-based-incomplete-multi-view-clustering/","section":"publication","summary":"","tags":null,"title":"Geometric-Inspired Graph-based Incomplete Multi-view Clustering","type":"publication"},{"authors":["Di Hu","Zheng Wang","Haoyi Xiong","Dong Wang","Feiping Nie","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"8fe03bbbdab04c3ee4ecc7e01ecd723c","permalink":"/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/","section":"publication","summary":"","tags":null,"title":"Heterogeneous Scene Analysis via Self-supervised Audiovisual Learning","type":"publication"},{"authors":["Xuelong Li","Di Hu","Xiaoqiang Lu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"1850ab6a7473c571586aed28d796ac66","permalink":"/publication/image2song-song-retrieval-via-bridging-image-content-and-lyric-words/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/image2song-song-retrieval-via-bridging-image-content-and-lyric-words/","section":"publication","summary":"","tags":null,"title":"Image2song: Song Retrieval via Bridging Image Content and Lyric Words","type":"publication"},{"authors":["Wenke Xia","Dong Wang","Xincheng Pang","Zhigang Wang","Bin Zhao","Di Hu","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"82a334df3b6181644b600e4679ce595c","permalink":"/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/","section":"publication","summary":"","tags":null,"title":"Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs","type":"publication"},{"authors":["Xuelong Li","Di Hu","Feiping Nie"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"24881bb5f959ea9f061fb67469d72eb9","permalink":"/publication/large-graph-hashing-with-spectral-rotation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/large-graph-hashing-with-spectral-rotation/","section":"publication","summary":"","tags":null,"title":"Large Graph Hashing with Spectral Rotation","type":"publication"},{"authors":["Yake Wei","Di Hu","Yapeng Tian","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"67b2f40c745acaa698a385e2742a25bc","permalink":"/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/","section":"publication","summary":"","tags":null,"title":"Learning in Audio-visual Context: A Review, Analysis, and New Perspective","type":"publication"},{"authors":["Guangyao Li*","Yake Wei*","Yapeng Tian*","Chenliang Xu","Ji-Rong Wen","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"125a97cdaa82fb5a0ec455cfd53c1b46","permalink":"/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/","section":"publication","summary":"","tags":null,"title":"Learning to Answer Questions in Dynamic Audio-Visual Scenarios","type":"publication"},{"authors":["Di Hu","Dong Wang","Xuelong Li","Feiping Nie","Qi Wang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"c716bb52e5e46a2dbaebc46fda1517d6","permalink":"/publication/listen-to-the-image/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/listen-to-the-image/","section":"publication","summary":"","tags":null,"title":"Listen to the Image","type":"publication"},{"authors":["Ruize Xu","Ruoxuan Feng","Shi-xiong Zhang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"8e1ed6fc418000d90eed8231ce30fa73","permalink":"/publication/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning/","section":"publication","summary":"","tags":null,"title":"MMCosine: Multi-Modal Cosine Loss Towards Balanced Audio-Visual Fine-Grained Learning","type":"publication"},{"authors":["Yake Wei","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"6ad6411f0202e0562a67a75820ff098f","permalink":"/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/","section":"publication","summary":"","tags":null,"title":"MMPareto: Innocent Uni-modal Assistance for Enhanced Multi-modal Learning","type":"publication"},{"authors":["Guangyao Li","Yixin Xu","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"38daed7d60d2831123ddca90ac47d9b7","permalink":"/publication/multi-scale-attention-for-audio-question-answering/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/multi-scale-attention-for-audio-question-answering/","section":"publication","summary":"","tags":null,"title":"Multi-Scale Attention for Audio Question Answering","type":"publication"},{"authors":["Di Hu","Xiaoqiang Lu","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"09affd8c2ded11a4005e40db4e1b960d","permalink":"/publication/multimodal-learning-via-exploring-deep-semantic-similarity/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/multimodal-learning-via-exploring-deep-semantic-similarity/","section":"publication","summary":"","tags":null,"title":"Multimodal Learning via Exploring Deep Semantic Similarity","type":"publication"},{"authors":["Rui Qian","Di Hu","Heinrich Dinkel","Mengyue Wu","Ning Xu","Weiyao Lin"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"88c9d48496c44a5980763aa946676e9e","permalink":"/publication/multiple-sound-sources-localization-from-coarse-to-fine/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/multiple-sound-sources-localization-from-coarse-to-fine/","section":"publication","summary":"","tags":null,"title":"Multiple Sound Sources Localization from Coarse to Fine","type":"publication"},{"authors":["Ziyun Li","Xinshao Wang","Haojin Yang","Di Hu","Neil M Robertson","David A Clifton","Christoph Meinel","Haojin Yang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"a48ea4ca10463e6ef980903ef312977d","permalink":"/publication/not-all-knowledge-is-created-equal/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/not-all-knowledge-is-created-equal/","section":"publication","summary":"","tags":null,"title":"Not All Knowledge Is Created Equal","type":"publication"},{"authors":["Guangyao Li","Wenxuan Hou","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"545100c95da731d9faeb7037b5801449","permalink":"/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/","section":"publication","summary":"","tags":null,"title":"Progressive Spatio-temporal Perception for Audio-Visual Question Answering","type":"publication"},{"authors":["Yaoting Wang*","Weisong Liu*","Guangyao Li","Jian Ding","Di Hu","Xi Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"6d414aab41857970b60155d360ceac88","permalink":"/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/","section":"publication","summary":"","tags":null,"title":"Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer","type":"publication"},{"authors":["Zequn Yang","Yake Wei","Ce Liang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d069d78586930bf2dd726ae7c0b00c9b","permalink":"/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/","section":"publication","summary":"","tags":null,"title":"Quantifying and Enhancing Multi-modal Robustness with Modality Preference","type":"publication"},{"authors":["Ruoxuan Feng","Wenke Xia","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"450f11c7cb976aa1013ed40cd3963388","permalink":"/publication/revisiting-pre-training-in-audio-visual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/revisiting-pre-training-in-audio-visual-learning/","section":"publication","summary":"","tags":null,"title":"Revisiting Pre-training in Audio-Visual Learning","type":"publication"},{"authors":["Wenke Xia","Xingjian Li","Andong Deng","Haoyi Xiong","Dejing Dou","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"6d68814ab18c4fd432535b2592c31988","permalink":"/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/","section":"publication","summary":"","tags":null,"title":"Robust Cross-modal Knowledge Distillation for Unconstrained Videos","type":"publication"},{"authors":["Xinchi Zhou","Dongzhan Zhou","Wanli Ouyang","Hang Zhou","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"acd80d91071719018f44e8766871cb74","permalink":"/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/","section":"publication","summary":"","tags":null,"title":"SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance","type":"publication"},{"authors":["Konrad Heidler","Lichao Mou","Di Hu","Pu Jin","Guangyao Li","Chuang Gan","Ji-Rong Wen","Xiao Xiang Zhu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"36c9fd21445495f69bad705471393094","permalink":"/publication/self-supervised-audiovisual-representation-learning-for-remote-sensing-data/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/self-supervised-audiovisual-representation-learning-for-remote-sensing-data/","section":"publication","summary":"","tags":null,"title":"Self-supervised Audiovisual Representation Learning for Remote Sensing Data","type":"publication"},{"authors":["Di Hu","Zheng Wang","Feiping Nie","Rong Wang","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ac1ac86aa9c1772d446b7594a05d9100","permalink":"/publication/self-supervised-learning-for-heterogeneous-audiovisual-scene-analysis/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/self-supervised-learning-for-heterogeneous-audiovisual-scene-analysis/","section":"publication","summary":"","tags":null,"title":"Self-supervised Learning for Heterogeneous Audiovisual Scene Analysis","type":"publication"},{"authors":["Dongzhan Zhou","Xinchi Zhou","Di Hu","Hang Zhou","Lei Bai","Ziwei Liu","Wanli Ouyang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"3f2c9d5779b3cec3c9b69a845335b218","permalink":"/publication/sepfusion_-finding-optimal-fusion-structures-for-visual-sound-separation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/sepfusion_-finding-optimal-fusion-structures-for-visual-sound-separation/","section":"publication","summary":"","tags":null,"title":"SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation","type":"publication"},{"authors":["Tao Wu","Xuewei Li","Zhongang Qi","Di Hu","Xintao Wang","Ying Shan","Xi Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"75b3553d0dff4fb43ea7284e9d6f8d1c","permalink":"/publication/spherediffusion-spherical-geometry-aware-distortion-resilient-diffusion-model/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/spherediffusion-spherical-geometry-aware-distortion-resilient-diffusion-model/","section":"publication","summary":"","tags":null,"title":"SphereDiffusion: Spherical Geometry-aware Distortion Resilient Diffusion Model","type":"publication"},{"authors":["ZiYun Li","Jona Otholt","Ben Dai","Di Hu","Christoph Meinel","Haojin Yang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"50b53591fe6d761222acbe7d191d3e47","permalink":"/publication/supervised-knowledge-may-hurt-novel-class-discovery-performance/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/supervised-knowledge-may-hurt-novel-class-discovery-performance/","section":"publication","summary":"","tags":null,"title":"Supervised Knowledge May Hurt Novel Class Discovery Performance","type":"publication"},{"authors":["Di Hu","Xuelong Li","Xiaoqiang Lu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d6704b0eb55495bb979be6fcbb8243ae","permalink":"/publication/temporal-multimodal-learning-in-audiovisual-speech-recognition/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/temporal-multimodal-learning-in-audiovisual-speech-recognition/","section":"publication","summary":"","tags":null,"title":"Temporal Multimodal Learning in Audiovisual Speech Recognition","type":"publication"},{"authors":["Dong Wang","Di Hu","Xingjian Li","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"807bb234ac2724175550dbdf52f64d08","permalink":"/publication/temporal-relational-modeling-with-self-supervision-for-action-segmentation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/temporal-relational-modeling-with-self-supervision-for-action-segmentation/","section":"publication","summary":"","tags":null,"title":"Temporal Relational Modeling with Self-Supervision for Action Segmentation","type":"publication"},{"authors":["Hongpeng Lin*","Ludan Ruan*","Wenke Xia*","Peiyu Liu","Jingyuan Wen","Yixin Xu","Di Hu","Ruihua Song","Wayne Xin Zhao","Qin Jin","Zhiwu Lu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"dd91d75ebb359650640b7b6c75634dff","permalink":"/publication/tiktalk-a-video-based-dialogue-dataset-for-multi-modal-chitchat-in-real-world/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/tiktalk-a-video-based-dialogue-dataset-for-multi-modal-chitchat-in-real-world/","section":"publication","summary":"","tags":null,"title":"TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World","type":"publication"},{"authors":["Xingjian Li","Di Hu","Xuhong Li","Haoyi Xiong","Zhi Ye","Zhipeng Wang","Chengzhong Xu","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"5b40a464bbfccb601c6d4c37e85cf81e","permalink":"/publication/towards-accurate-knowledge-transfer-via-target-awareness-representation-disentanglement/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/towards-accurate-knowledge-transfer-via-target-awareness-representation-disentanglement/","section":"publication","summary":"","tags":null,"title":"Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement","type":"publication"},{"authors":["Andong Deng","Xingjian Li","Di Hu","Tianyang Wang","Haoyi Xiong","Chengzhong Xu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"113edd12d767a54c1fdd10685167cd5c","permalink":"/publication/towards-inadequately-pre-trained-models-in-transfer-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/towards-inadequately-pre-trained-models-in-transfer-learning/","section":"publication","summary":"","tags":null,"title":"Towards Inadequately Pre-trained Models in Transfer Learning","type":"publication"},{"authors":["Wenxuan Hou*","Guangyao Li*","Yapeng Tian","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"56c2e256bf8d4a20cdffe034f430aaef","permalink":"/publication/towards-long-form-audio-visual-video-understanding/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/towards-long-form-audio-visual-video-understanding/","section":"publication","summary":"","tags":null,"title":"Towards Long Form Audio-visual Video Understanding","type":"publication"},{"authors":["Zechen Bai","Zhigang Wang","Jian Wang","Di Hu","Errui Ding"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"9905f139a565b4f5eabfc5902965f851","permalink":"/publication/unsupervised-multi-source-domain-adaptation-for-person-re-identification/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/unsupervised-multi-source-domain-adaptation-for-person-re-identification/","section":"publication","summary":"","tags":null,"title":"Unsupervised Multi-Source Domain Adaptation for Person Re-Identification","type":"publication"},{"authors":["Xian Liu","Rui Qian","Hang Zhou","Di Hu","Weiyao Lin","Ziwei Liu","Bolei Zhou","Xiaowei Zhou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ca462fd19e2017e2ecb2b26a145ef250","permalink":"/publication/visual-sound-localization-in-the-wild-by-cross-modal-interference-erasing/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/visual-sound-localization-in-the-wild-by-cross-modal-interference-erasing/","section":"publication","summary":"","tags":null,"title":"Visual Sound Localization in-the-Wild by Cross-Modal Interference Erasing","type":"publication"}]
\ No newline at end of file
+[{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"4e73f707a3c1da0c5d8d165361161c7b","permalink":"/authors/19_ruize/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/19_ruize/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Ruize Xu","type":"authors"},{"authors":null,"categories":null,"content":"Guangyao is a Ph.D. Candidate at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He got his master degree at China Agricultural University in 2020 and got into GeWu-Lab since then. His recently research interests include audio-visual learning and scene understanding. And he hopes to brave the no-man\u0026rsquo;s land on the road of scientific research and make warm artificial intelligence research! People who are interested in my research domain are very welcome and do not hesitate to contact me actively. For more information, please visit his personal homepage. Valar Morghulis！\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"537de72d4cb178cea6fbf2b2a92ea589","permalink":"/authors/20_guangyao/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_guangyao/","section":"authors","summary":"Guangyao is a Ph.D. Candidate at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He got his master degree at China Agricultural University in 2020 and got into GeWu-Lab since then. His recently research interests include audio-visual learning and scene understanding. And he hopes to brave the no-man\u0026rsquo;s land on the road of scientific research and make warm artificial intelligence research! People who","tags":null,"title":"Guangyao Li","type":"authors"},{"authors":null,"categories":null,"content":"Xiaokang is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. He got his undergraduate degree at School of Information, Renmin University of China in 2020 and got into GeWu-Lab since then. He is interested in multi-modal learning and perception, and optimization mechanism design. And he is also devoted to help these visually impaired with AI in both technology and practice.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"22debf3f166bda4bfb28c8317489f918","permalink":"/authors/20_xiaokang/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_xiaokang/","section":"authors","summary":"Xiaokang is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. He got his undergraduate degree at School of Information, Renmin University of China in 2020 and got into GeWu-Lab since then. He is interested in multi-modal learning and perception, and optimization mechanism design. And he is also devoted to help these visually impaired with AI in both technology and practice.","tags":null,"title":"Xiaokang Peng","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"55a49bcd8ae300a0362a45302ca97c26","permalink":"/authors/20_xuemin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_xuemin/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Xuemin Liu","type":"authors"},{"authors":null,"categories":null,"content":"Yixin is a master student at Gaoling School of Artificial Intelligence, Renmin University of China. His main research topics are Multi-modal Scene Perception and Self-surpervised Representation Learning. Now he is working on video understanding and speaker diarization task for complex speech scenario. He is also interested in Internet finance, and has got his Bachelor of Finance in Renmin University of China besides the Computer Science degree.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"033ae9c233d8ca15172e0f0eb482735e","permalink":"/authors/20_yixin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/20_yixin/","section":"authors","summary":"Yixin is a master student at Gaoling School of Artificial Intelligence, Renmin University of China. His main research topics are Multi-modal Scene Perception and Self-surpervised Representation Learning. Now he is working on video understanding and speaker diarization task for complex speech scenario. He is also interested in Internet finance, and has got his Bachelor of Finance in Renmin University of China besides the Computer Science degree.","tags":null,"title":"Yixin Xu","type":"authors"},{"authors":null,"categories":null,"content":"Rui is interested in computer vision and machine learning, and has done some research on video representation learning and joint audio-visual learning. During his undergraduate he works with Prof. Di Hu. Now Rui is a Ph.D. student in Multi-Media Lab at The Chinese University of Hong Kong, supervised by Prof. Dahua Lin.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"9434b9dca31f1f23a676f2b869e0c881","permalink":"/authors/21_ruiqian/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/21_ruiqian/","section":"authors","summary":"Rui is interested in computer vision and machine learning, and has done some research on video representation learning and joint audio-visual learning. During his undergraduate he works with Prof. Di Hu. Now Rui is a Ph.D. student in Multi-Media Lab at The Chinese University of Hong Kong, supervised by Prof. Dahua Lin.","tags":null,"title":"Rui Qian","type":"authors"},{"authors":null,"categories":null,"content":"Yake is a PhD student at Gaoling School of Artificial Intelligence, Renmin University of China. She received her bachelor\u0026rsquo;s degree in Computer Science and Technology from University of Electronic Science and Technology of China in 2021. Now her research interests focus on the effective mechanism of multi-modal learning.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"57b1d4e29185f3870d53fc65c766173e","permalink":"/authors/21_yake/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/21_yake/","section":"authors","summary":"Yake is a PhD student at Gaoling School of Artificial Intelligence, Renmin University of China. She received her bachelor\u0026rsquo;s degree in Computer Science and Technology from University of Electronic Science and Technology of China in 2021. Now her research interests focus on the effective mechanism of multi-modal learning.","tags":null,"title":"Yake Wei","type":"authors"},{"authors":null,"categories":null,"content":"Andong Deng spent a wonderful year at GeWu Lab doing research about multimodal learning with Dr. Di Hu from 2021 to 2022. Now he is an upcoming PhD student in 2022 Fall at Center for Research in Computer Vision, University of Central Florida, advised by Dr. Chen Chen. His research interests include multi-modal learning, video understanding and 3D vision.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"c95476ad24cc214056b3d2c5e8c90f17","permalink":"/authors/22_andong/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_andong/","section":"authors","summary":"Andong Deng spent a wonderful year at GeWu Lab doing research about multimodal learning with Dr. Di Hu from 2021 to 2022. Now he is an upcoming PhD student in 2022 Fall at Center for Research in Computer Vision, University of Central Florida, advised by Dr. Chen Chen. His research interests include multi-modal learning, video understanding and 3D vision.","tags":null,"title":"Andong Deng","type":"authors"},{"authors":null,"categories":null,"content":"Wenke is a Ph.D student since 2022 Fall at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. His research interests include reinforcement learning and embodied AI. Now, he focus on building a generalizable manipulation policy with computer vision.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"a2791369e75b13b52139d9860293bdd5","permalink":"/authors/22_wenke/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_wenke/","section":"authors","summary":"Wenke is a Ph.D student since 2022 Fall at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. His research interests include reinforcement learning and embodied AI. Now, he focus on building a generalizable manipulation policy with computer vision.","tags":null,"title":"Wenke Xia","type":"authors"},{"authors":null,"categories":null,"content":"Wenxuan is a second-year Ph.D student in the GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He has got his bachelor\u0026rsquo;s degree and master\u0026rsquo;s degree in Northwestern Polytechnical University and Xi\u0026rsquo;an Jiaotong University, respectively. Now his main research focuses on multimodal learning towards real-world scene understanding, aiming to guide the machine to perceive and understand natural scenes like human beings.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"cd37724dba9b446f1c1307e40cd45632","permalink":"/authors/22_wenxuan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_wenxuan/","section":"authors","summary":"Wenxuan is a second-year Ph.D student in the GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He has got his bachelor\u0026rsquo;s degree and master\u0026rsquo;s degree in Northwestern Polytechnical University and Xi\u0026rsquo;an Jiaotong University, respectively. Now his main research focuses on multimodal learning towards real-world scene understanding, aiming to guide the machine to perceive and understand natural scenes like human beings.","tags":null,"title":"Wenxuan Hou","type":"authors"},{"authors":null,"categories":null,"content":"Xincheng is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. Currently his research interests focus on scene understanding in embodied ai with multi-modal.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"a389590984a0c3fb50de499f8df2d4c0","permalink":"/authors/22_xincheng/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_xincheng/","section":"authors","summary":"Xincheng is a master student in GeWu-Lab at Renmin University of China, advised by Prof. Di Hu. Currently his research interests focus on scene understanding in embodied ai with multi-modal.","tags":null,"title":"Xincheng Pang","type":"authors"},{"authors":null,"categories":null,"content":"Zequn is a second-year Ph.D. student at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He currently focuses on the mechanism of multi-modal learning, including theoretical comprehension and algorithm design. He also has a keen interest in developing efficient and effective multi-view clustering techniques utilizing machine learning methods.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"d884fc3eb1e2b2382def5073cec5e105","permalink":"/authors/22_zequn/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/22_zequn/","section":"authors","summary":"Zequn is a second-year Ph.D. student at GeWu-Lab, Gaoling School of Artificial Intelligence, Renmin University of China. He currently focuses on the mechanism of multi-modal learning, including theoretical comprehension and algorithm design. He also has a keen interest in developing efficient and effective multi-view clustering techniques utilizing machine learning methods.","tags":null,"title":"Zequn Yang","type":"authors"},{"authors":null,"categories":null,"content":"Henghui is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He has got his bachelor\u0026rsquo;s degree in Dalian University of Technology in 2023. Currently his research instrests focus on Large language Models and cross-modal generation.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"0f875044223f8afd458b089859ba38d8","permalink":"/authors/23_henghui/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_henghui/","section":"authors","summary":"Henghui is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He has got his bachelor\u0026rsquo;s degree in Dalian University of Technology in 2023. Currently his research instrests focus on Large language Models and cross-modal generation.","tags":null,"title":"Henghui Du","type":"authors"},{"authors":null,"categories":null,"content":"Jiahao is a senior student of the School of Computer Science and Engineering, BUAA. He is interested in the interaction mechanism of multi-modal.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"8808a5aa1460c5cb4fad660d28f8520a","permalink":"/authors/23_jiahao/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jiahao/","section":"authors","summary":"Jiahao is a senior student of the School of Computer Science and Engineering, BUAA. He is interested in the interaction mechanism of multi-modal.","tags":null,"title":"Jiahao Li","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"1697602eb95e74d0fb1a9247c1f07489","permalink":"/authors/23_jianghan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jianghan/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Jianghan Chao","type":"authors"},{"authors":null,"categories":null,"content":"Jingxian is a fourth-year student of Gaoling School of Artificial Intelligence, Renmin University of China. He is interested in robot manipulation and perception from interaction.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"bdeafc1f9127d19078299ad17ddcf547","permalink":"/authors/23_jingxian/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jingxian/","section":"authors","summary":"Jingxian is a fourth-year student of Gaoling School of Artificial Intelligence, Renmin University of China. He is interested in robot manipulation and perception from interaction.","tags":null,"title":"Jingxian Lu","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"b1f3ebd7d0f58e6a501810a383c4a9ed","permalink":"/authors/23_jinlin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_jinlin/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Jinlin Li","type":"authors"},{"authors":null,"categories":null,"content":"Juncheng is a third-year student of School of Artificial Intelligence, University of Chinese Academy of Sciences. His research interests include audio-visual localization and segmentation.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"874c09024781e4fd5375423eaef9c9e8","permalink":"/authors/23_juncheng/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_juncheng/","section":"authors","summary":"Juncheng is a third-year student of School of Artificial Intelligence, University of Chinese Academy of Sciences. His research interests include audio-visual localization and segmentation.","tags":null,"title":"Juncheng Ma","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"834fe556c30cd4180a6dc4c692fd63d9","permalink":"/authors/23_liangce/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_liangce/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Ce Liang","type":"authors"},{"authors":null,"categories":null,"content":"Peiwen is a second-year MPhil student of the Department of Artificial Intelligence, Beijing University of Posts and Telecommunications. He is interested in multimodal learning including sentiment, segmentation and foundation models.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"bf84fe39ef0b614af0ae82d08359c784","permalink":"/authors/23_peiwen/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_peiwen/","section":"authors","summary":"Peiwen is a second-year MPhil student of the Department of Artificial Intelligence, Beijing University of Posts and Telecommunications. He is interested in multimodal learning including sentiment, segmentation and foundation models.","tags":null,"title":"Peiwen Sun","type":"authors"},{"authors":null,"categories":null,"content":"Ruoxuan is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He is interested in multi-modal learning and embodied AI.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"c29a63de0242659b43a43451fc077046","permalink":"/authors/23_ruoxuan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_ruoxuan/","section":"authors","summary":"Ruoxuan is a first-year master student in GeWu-Lab at Gaoling School of Artificial Intelligence, Renmin University of China, advised by Prof. Di Hu. He is interested in multi-modal learning and embodied AI.","tags":null,"title":"Ruoxuan Feng","type":"authors"},{"authors":null,"categories":null,"content":"个人简介, 控制在600-800个英文字符之内\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"364786f50ed04bbfb2309f8069cdbe90","permalink":"/authors/23_shaoxuan/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_shaoxuan/","section":"authors","summary":"个人简介, 控制在600-800个英文字符之内","tags":null,"title":"Shaoxuan Xu","type":"authors"},{"authors":null,"categories":null,"content":"Siwei is a fourth-year student of the Department of Electronic Engineering, Tsinghua University. He is interested in image editing with generative diffusion models and image deblurring.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"062e874f9d4216ee7c15e6afe41e1631","permalink":"/authors/23_siwei/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_siwei/","section":"authors","summary":"Siwei is a fourth-year student of the Department of Electronic Engineering, Tsinghua University. He is interested in image editing with generative diffusion models and image deblurring.","tags":null,"title":"Siwei Li","type":"authors"},{"authors":null,"categories":null,"content":"Yaoting is currently working as an intern at the Deepwise AI Lab for multimodal medical data processing. He received his master\u0026rsquo;s degree from the University of Edinburgh in 2022. His research interests include multimodal deep learning, cross-modal transformers, and affective computing.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"bda305ecfaa132f6e49d2dd2566d0f25","permalink":"/authors/23_yaoting/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/23_yaoting/","section":"authors","summary":"Yaoting is currently working as an intern at the Deepwise AI Lab for multimodal medical data processing. He received his master\u0026rsquo;s degree from the University of Edinburgh in 2022. His research interests include multimodal deep learning, cross-modal transformers, and affective computing.","tags":null,"title":"Yaoting Wang","type":"authors"},{"authors":null,"categories":null,"content":"Jirui is a second-year MPhil student of the School of Computer and Artificial Intelligence, Wuhan University of Technology. She is interested in multimodal understanding and cross-modal generation.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"7a6ee1988cb2fa93bfeee88a094c7489","permalink":"/authors/24_jirui/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/24_jirui/","section":"authors","summary":"Jirui is a second-year MPhil student of the School of Computer and Artificial Intelligence, Wuhan University of Technology. She is interested in multimodal understanding and cross-modal generation.","tags":null,"title":"JiRui Huang","type":"authors"},{"authors":["dihu"],"categories":null,"content":"Di Hu is tenure-track faculty at Gaoling School of Artificial Intelligence, Renmin University of China. Before that, he was previously a research scientist at Baidu Research. Di Hu obtained the Ph.D degree from Northwestern Polytechnical University in 2019, supervised by Xuelong Li. Currently, Di Hu is leading the GeWu Lab and exploring how to understand and interact with the world via the natural multimodal messages. He is an aficionado of cognitive neuroscience and has wrote one study note during his undergraduate. Inspired by what he learned from cognitive neuroscience, and what he observed and deliberated from the daily-life, he strongly convinced that the pervasive, free, natural multimodal messages can provide sufficient information for perceiving, learning and understanding environment, even the agent itself, which promisingly makes multimodal learning become one of the key to achieve machine intelligence.\n","date":-62135596800,"expirydate":-62135596800,"kind":"taxonomy","lang":"en","lastmod":-62135596800,"objectID":"2525497d367e79493fd32b198b28f040","permalink":"/authors/admin/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/authors/admin/","section":"authors","summary":"Di Hu is tenure-track faculty at Gaoling School of Artificial Intelligence, Renmin University of China. Before that, he was previously a research scientist at Baidu Research. Di Hu obtained the Ph.D degree from Northwestern Polytechnical University in 2019, supervised by Xuelong Li. Currently, Di Hu is leading the GeWu Lab and exploring how to understand and interact with the world via the natural multimodal messages. He is an aficionado of","tags":null,"title":"Di Hu","type":"authors"},{"authors":["Rui Qian","Di Hu","Heinrich Dinkel","Mengyue Wu","Ning Xu","Weiyao Lin"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"852b491b0dcadb44b8f099f931db74c4","permalink":"/publication/a-two-stage-framework-for-multiple-sound-source-localization/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/a-two-stage-framework-for-multiple-sound-source-localization/","section":"publication","summary":"","tags":null,"title":"A Two-Stage Framework for Multiple Sound-Source Localization","type":"publication"},{"authors":["Di Hu*","Lichao Mou*","Qingzhong Wang*","Junyu Gao","Yuansheng Hua","Dejing Dou","Xiao Xiang Zhu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"b21459d2cd2aa98d5a771a396df3c29e","permalink":"/publication/ambient-sound-helps_-audiovisual-crowd-counting-in-extreme-conditions/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/ambient-sound-helps_-audiovisual-crowd-counting-in-extreme-conditions/","section":"publication","summary":"","tags":null,"title":"Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions","type":"publication"},{"authors":["Wenke Xia*","Xu Zhao*","Xincheng Pang","Changqing Zhang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"7a5ff9681de843469038165a230c4f87","permalink":"/publication/balanced-audiovisual-dataset-for-imbalance-analysis/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/balanced-audiovisual-dataset-for-imbalance-analysis/","section":"publication","summary":"","tags":null,"title":"Balanced Audiovisual Dataset for Imbalance Analysis","type":"publication"},{"authors":["Xiaokang Peng*","Yake Wei*","Andong Deng","Dong Wang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"1cdda2159c4adeb4f31cb4e7f1a5ab8a","permalink":"/publication/balanced-multimodal-learning-via-on-the-fly-gradient-modulation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/balanced-multimodal-learning-via-on-the-fly-gradient-modulation/","section":"publication","summary":"","tags":null,"title":"Balanced Multimodal Learning via On-the-fly Gradient Modulation","type":"publication"},{"authors":["Yaoting Wang","Peiwen Sun","Yuanchao Li","Honggang Zhang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"e2d14df72502e78a30f83d09310b98b6","permalink":"/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/","section":"publication","summary":"","tags":null,"title":"Can Textual Semantics Mitigate Sounding Object SegmentationPreference?","type":"publication"},{"authors":["Di Hu","Yake Wei","Rui Qian","Weiyao Lin","Ruihua Song","Ji-Rong Wen"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"91e67073102678aec9799732ceef49f3","permalink":"/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/","section":"publication","summary":"","tags":null,"title":"Class-aware Sounding Objects Localization via Audiovisual Correspondence","type":"publication"},{"authors":["Yapeng Tian*","Di Hu*","Chenliang Xu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"c0d82a52007e4e9ab50a2cfafdc4ac17","permalink":"/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/","section":"publication","summary":"","tags":null,"title":"Co-Learn Sounding Object Visual Grounding and Visually Indicated Sound Separation in A Cycle","type":"publication"},{"authors":["Di Hu","Xuhong Li","Lichao Mou","Pu Jin","Dong Chen","Liping Jing","Xiaoxiang Zhu","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"c7688dd14aa743d0b927f94d97854f27","permalink":"/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/","section":"publication","summary":"","tags":null,"title":"Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition","type":"publication"},{"authors":["Di Hu","Zheng Wang","Haoyi Xiong","Dong Wang","Feiping Nie","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ac02b15b850ff085e6c9ad497f3a130c","permalink":"/publication/curriculum-audiovisual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/curriculum-audiovisual-learning/","section":"publication","summary":"","tags":null,"title":"Curriculum Audiovisual Learning","type":"publication"},{"authors":["Yapeng Tian","Di Hu","Chenliang Xu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"cd0308a1bfb55705c394057955f2375d","permalink":"/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/","section":"publication","summary":"","tags":null,"title":"Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"202776673a51788c119f1451c9e313c2","permalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing-journal/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing-journal/","section":"publication","summary":"","tags":null,"title":"Deep Binary Reconstruction for Cross-modal Hashing","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"00f72a8fe1deeb265958a59b94c2cd33","permalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-binary-reconstruction-for-cross-modal-hashing/","section":"publication","summary":"","tags":null,"title":"Deep Binary Reconstruction for Cross-modal Hashing","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"f6c0a9a658cdceee78bd291860181d99","permalink":"/publication/deep-linear-discriminant-analysis-hashing-supplemental-material/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-linear-discriminant-analysis-hashing-supplemental-material/","section":"publication","summary":"","tags":null,"title":"Deep Linear Discriminant Analysis Hashing","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d1466a6c42ba930502049d24243f8b62","permalink":"/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/","section":"publication","summary":"","tags":null,"title":"Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation","type":"publication"},{"authors":["Di Hu - Chengze Wang - Feiping Nie - Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"9e4cd76d6b972d54b50c190779f639a5","permalink":"/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/","section":"publication","summary":"","tags":null,"title":"Dense Multimodal Fusion for Hierarchically Joint Representation","type":"publication"},{"authors":["Xincheng Pang","Wenke Xia","Zhigang Wang","Bin Zhao","Di Hu","Dong Wang","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"832f5776c5daa77fa5df21ce843a3196","permalink":"/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/","section":"publication","summary":"","tags":null,"title":"Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection","type":"publication"},{"authors":["Di Hu","Feiping Nie","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"4b1e10b4327cca00dfd58162571a2f8c","permalink":"/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/","section":"publication","summary":"","tags":null,"title":"Discrete Spectral Hashing for Efficient Similarity Retrieval","type":"publication"},{"authors":["Di Hu","Rui Qian","Minyue Jiang","Xiao Tan","Shilei Wen","Errui Ding","Weiyao Lin","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d6953eeac03ee85322e85eece2eeeb84","permalink":"/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/","section":"publication","summary":"","tags":null,"title":"Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching","type":"publication"},{"authors":["Di Hu*","Lichao Mou*","Qingzhong Wang*","Junyu Gao","Yuansheng Hua","Dejing Dou","Xiaoxiang Zhu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"3016d01c7b86e792f8778f7aba6fc44d","permalink":"/publication/does-ambient-sound-help_-audiovisual-crowd-counting/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/does-ambient-sound-help_-audiovisual-crowd-counting/","section":"publication","summary":"","tags":null,"title":"Does Ambient Sound Help? - Audiovisual Crowd Counting","type":"publication"},{"authors":["Yake Wei","Ruoxuan Feng","Zihe Wang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"0278c6a7c52909fa5c55eaf522569e7f","permalink":"/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/","section":"publication","summary":"","tags":null,"title":"Enhancing Multi-modal Cooperation via Fine-grained Modality Valuation","type":"publication"},{"authors":["Xinchi Zhou","Dongzhan Zhou","Di Hu","Hang Zhou","Wanli Ouyang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"28bd51450c42258842f48363910f83c8","permalink":"/publication/exploiting-visual-context-semantics-for-sound-source-localization/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/exploiting-visual-context-semantics-for-sound-source-localization/","section":"publication","summary":"","tags":null,"title":"Exploiting Visual Context Semantics for Sound Source Localization","type":"publication"},{"authors":["Sijia Yang","Haoyi Xiong","Di Hu","Kaibo Xu","Licheng Wang","Peizhen Zhu","Zeyi Sun"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ed52bf34eef1f16fc89a0fc5c32fa152","permalink":"/publication/generalising-combinatorial-discriminant-analysis-through-conditioning-truncated-rayleigh-flow/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/generalising-combinatorial-discriminant-analysis-through-conditioning-truncated-rayleigh-flow/","section":"publication","summary":"","tags":null,"title":"Generalising Combinatorial Discriminant Analysis through Conditioning Truncated Rayleigh Flow","type":"publication"},{"authors":["Zequn Yang","Han Zhang","Yake Wei","Zheng Wang","Feiping Nie","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"76c72a76e4cf8516d166a780e270c79b","permalink":"/publication/geometric-inspired-graph-based-incomplete-multi-view-clustering/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/geometric-inspired-graph-based-incomplete-multi-view-clustering/","section":"publication","summary":"","tags":null,"title":"Geometric-Inspired Graph-based Incomplete Multi-view Clustering","type":"publication"},{"authors":["Di Hu","Zheng Wang","Haoyi Xiong","Dong Wang","Feiping Nie","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"8fe03bbbdab04c3ee4ecc7e01ecd723c","permalink":"/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/","section":"publication","summary":"","tags":null,"title":"Heterogeneous Scene Analysis via Self-supervised Audiovisual Learning","type":"publication"},{"authors":["Xuelong Li","Di Hu","Xiaoqiang Lu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"1850ab6a7473c571586aed28d796ac66","permalink":"/publication/image2song-song-retrieval-via-bridging-image-content-and-lyric-words/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/image2song-song-retrieval-via-bridging-image-content-and-lyric-words/","section":"publication","summary":"","tags":null,"title":"Image2song: Song Retrieval via Bridging Image Content and Lyric Words","type":"publication"},{"authors":["Wenke Xia","Dong Wang","Xincheng Pang","Zhigang Wang","Bin Zhao","Di Hu","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"82a334df3b6181644b600e4679ce595c","permalink":"/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/","section":"publication","summary":"","tags":null,"title":"Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs","type":"publication"},{"authors":["Xuelong Li","Di Hu","Feiping Nie"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"24881bb5f959ea9f061fb67469d72eb9","permalink":"/publication/large-graph-hashing-with-spectral-rotation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/large-graph-hashing-with-spectral-rotation/","section":"publication","summary":"","tags":null,"title":"Large Graph Hashing with Spectral Rotation","type":"publication"},{"authors":["Yake Wei","Di Hu","Yapeng Tian","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"67b2f40c745acaa698a385e2742a25bc","permalink":"/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/","section":"publication","summary":"","tags":null,"title":"Learning in Audio-visual Context: A Review, Analysis, and New Perspective","type":"publication"},{"authors":["Guangyao Li*","Yake Wei*","Yapeng Tian*","Chenliang Xu","Ji-Rong Wen","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"125a97cdaa82fb5a0ec455cfd53c1b46","permalink":"/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/","section":"publication","summary":"","tags":null,"title":"Learning to Answer Questions in Dynamic Audio-Visual Scenarios","type":"publication"},{"authors":["Di Hu","Dong Wang","Xuelong Li","Feiping Nie","Qi Wang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"c716bb52e5e46a2dbaebc46fda1517d6","permalink":"/publication/listen-to-the-image/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/listen-to-the-image/","section":"publication","summary":"","tags":null,"title":"Listen to the Image","type":"publication"},{"authors":["Ruize Xu","Ruoxuan Feng","Shi-xiong Zhang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"8e1ed6fc418000d90eed8231ce30fa73","permalink":"/publication/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning/","section":"publication","summary":"","tags":null,"title":"MMCosine: Multi-Modal Cosine Loss Towards Balanced Audio-Visual Fine-Grained Learning","type":"publication"},{"authors":["Yake Wei","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"6ad6411f0202e0562a67a75820ff098f","permalink":"/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/","section":"publication","summary":"","tags":null,"title":"MMPareto: Innocent Uni-modal Assistance for Enhanced Multi-modal Learning","type":"publication"},{"authors":["Guangyao Li","Yixin Xu","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"38daed7d60d2831123ddca90ac47d9b7","permalink":"/publication/multi-scale-attention-for-audio-question-answering/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/multi-scale-attention-for-audio-question-answering/","section":"publication","summary":"","tags":null,"title":"Multi-Scale Attention for Audio Question Answering","type":"publication"},{"authors":["Di Hu","Xiaoqiang Lu","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"09affd8c2ded11a4005e40db4e1b960d","permalink":"/publication/multimodal-learning-via-exploring-deep-semantic-similarity/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/multimodal-learning-via-exploring-deep-semantic-similarity/","section":"publication","summary":"","tags":null,"title":"Multimodal Learning via Exploring Deep Semantic Similarity","type":"publication"},{"authors":["Rui Qian","Di Hu","Heinrich Dinkel","Mengyue Wu","Ning Xu","Weiyao Lin"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"88c9d48496c44a5980763aa946676e9e","permalink":"/publication/multiple-sound-sources-localization-from-coarse-to-fine/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/multiple-sound-sources-localization-from-coarse-to-fine/","section":"publication","summary":"","tags":null,"title":"Multiple Sound Sources Localization from Coarse to Fine","type":"publication"},{"authors":["Ziyun Li","Xinshao Wang","Haojin Yang","Di Hu","Neil M Robertson","David A Clifton","Christoph Meinel","Haojin Yang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"a48ea4ca10463e6ef980903ef312977d","permalink":"/publication/not-all-knowledge-is-created-equal/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/not-all-knowledge-is-created-equal/","section":"publication","summary":"","tags":null,"title":"Not All Knowledge Is Created Equal","type":"publication"},{"authors":["Guangyao Li","Wenxuan Hou","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"545100c95da731d9faeb7037b5801449","permalink":"/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/","section":"publication","summary":"","tags":null,"title":"Progressive Spatio-temporal Perception for Audio-Visual Question Answering","type":"publication"},{"authors":["Yaoting Wang*","Weisong Liu*","Guangyao Li","Jian Ding","Di Hu","Xi Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"6d414aab41857970b60155d360ceac88","permalink":"/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/","section":"publication","summary":"","tags":null,"title":"Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer","type":"publication"},{"authors":["Zequn Yang","Yake Wei","Ce Liang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d069d78586930bf2dd726ae7c0b00c9b","permalink":"/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/","section":"publication","summary":"","tags":null,"title":"Quantifying and Enhancing Multi-modal Robustness with Modality Preference","type":"publication"},{"authors":["Yaoting Wang","Peiwen Sun","Dongzhan Zhou","Guangyao Li","Honggang Zhang","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"e787cc7b340511ed0ad617eaf61af942","permalink":"/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/","section":"publication","summary":"","tags":null,"title":"Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes","type":"publication"},{"authors":["Ruoxuan Feng","Wenke Xia","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"450f11c7cb976aa1013ed40cd3963388","permalink":"/publication/revisiting-pre-training-in-audio-visual-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/revisiting-pre-training-in-audio-visual-learning/","section":"publication","summary":"","tags":null,"title":"Revisiting Pre-training in Audio-Visual Learning","type":"publication"},{"authors":["Wenke Xia","Xingjian Li","Andong Deng","Haoyi Xiong","Dejing Dou","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"6d68814ab18c4fd432535b2592c31988","permalink":"/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/","section":"publication","summary":"","tags":null,"title":"Robust Cross-modal Knowledge Distillation for Unconstrained Videos","type":"publication"},{"authors":["Xinchi Zhou","Dongzhan Zhou","Wanli Ouyang","Hang Zhou","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"acd80d91071719018f44e8766871cb74","permalink":"/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/","section":"publication","summary":"","tags":null,"title":"SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance","type":"publication"},{"authors":["Konrad Heidler","Lichao Mou","Di Hu","Pu Jin","Guangyao Li","Chuang Gan","Ji-Rong Wen","Xiao Xiang Zhu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"36c9fd21445495f69bad705471393094","permalink":"/publication/self-supervised-audiovisual-representation-learning-for-remote-sensing-data/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/self-supervised-audiovisual-representation-learning-for-remote-sensing-data/","section":"publication","summary":"","tags":null,"title":"Self-supervised Audiovisual Representation Learning for Remote Sensing Data","type":"publication"},{"authors":["Di Hu","Zheng Wang","Feiping Nie","Rong Wang","Xuelong Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ac1ac86aa9c1772d446b7594a05d9100","permalink":"/publication/self-supervised-learning-for-heterogeneous-audiovisual-scene-analysis/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/self-supervised-learning-for-heterogeneous-audiovisual-scene-analysis/","section":"publication","summary":"","tags":null,"title":"Self-supervised Learning for Heterogeneous Audiovisual Scene Analysis","type":"publication"},{"authors":["Dongzhan Zhou","Xinchi Zhou","Di Hu","Hang Zhou","Lei Bai","Ziwei Liu","Wanli Ouyang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"3f2c9d5779b3cec3c9b69a845335b218","permalink":"/publication/sepfusion_-finding-optimal-fusion-structures-for-visual-sound-separation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/sepfusion_-finding-optimal-fusion-structures-for-visual-sound-separation/","section":"publication","summary":"","tags":null,"title":"SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation","type":"publication"},{"authors":["Tao Wu","Xuewei Li","Zhongang Qi","Di Hu","Xintao Wang","Ying Shan","Xi Li"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"75b3553d0dff4fb43ea7284e9d6f8d1c","permalink":"/publication/spherediffusion-spherical-geometry-aware-distortion-resilient-diffusion-model/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/spherediffusion-spherical-geometry-aware-distortion-resilient-diffusion-model/","section":"publication","summary":"","tags":null,"title":"SphereDiffusion: Spherical Geometry-aware Distortion Resilient Diffusion Model","type":"publication"},{"authors":["ZiYun Li","Jona Otholt","Ben Dai","Di Hu","Christoph Meinel","Haojin Yang"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"50b53591fe6d761222acbe7d191d3e47","permalink":"/publication/supervised-knowledge-may-hurt-novel-class-discovery-performance/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/supervised-knowledge-may-hurt-novel-class-discovery-performance/","section":"publication","summary":"","tags":null,"title":"Supervised Knowledge May Hurt Novel Class Discovery Performance","type":"publication"},{"authors":["Di Hu","Xuelong Li","Xiaoqiang Lu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"d6704b0eb55495bb979be6fcbb8243ae","permalink":"/publication/temporal-multimodal-learning-in-audiovisual-speech-recognition/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/temporal-multimodal-learning-in-audiovisual-speech-recognition/","section":"publication","summary":"","tags":null,"title":"Temporal Multimodal Learning in Audiovisual Speech Recognition","type":"publication"},{"authors":["Dong Wang","Di Hu","Xingjian Li","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"807bb234ac2724175550dbdf52f64d08","permalink":"/publication/temporal-relational-modeling-with-self-supervision-for-action-segmentation/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/temporal-relational-modeling-with-self-supervision-for-action-segmentation/","section":"publication","summary":"","tags":null,"title":"Temporal Relational Modeling with Self-Supervision for Action Segmentation","type":"publication"},{"authors":["Hongpeng Lin*","Ludan Ruan*","Wenke Xia*","Peiyu Liu","Jingyuan Wen","Yixin Xu","Di Hu","Ruihua Song","Wayne Xin Zhao","Qin Jin","Zhiwu Lu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"dd91d75ebb359650640b7b6c75634dff","permalink":"/publication/tiktalk-a-video-based-dialogue-dataset-for-multi-modal-chitchat-in-real-world/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/tiktalk-a-video-based-dialogue-dataset-for-multi-modal-chitchat-in-real-world/","section":"publication","summary":"","tags":null,"title":"TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World","type":"publication"},{"authors":["Xingjian Li","Di Hu","Xuhong Li","Haoyi Xiong","Zhi Ye","Zhipeng Wang","Chengzhong Xu","Dejing Dou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"5b40a464bbfccb601c6d4c37e85cf81e","permalink":"/publication/towards-accurate-knowledge-transfer-via-target-awareness-representation-disentanglement/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/towards-accurate-knowledge-transfer-via-target-awareness-representation-disentanglement/","section":"publication","summary":"","tags":null,"title":"Towards Accurate Knowledge Transfer via Target-awareness Representation Disentanglement","type":"publication"},{"authors":["Andong Deng","Xingjian Li","Di Hu","Tianyang Wang","Haoyi Xiong","Chengzhong Xu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"113edd12d767a54c1fdd10685167cd5c","permalink":"/publication/towards-inadequately-pre-trained-models-in-transfer-learning/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/towards-inadequately-pre-trained-models-in-transfer-learning/","section":"publication","summary":"","tags":null,"title":"Towards Inadequately Pre-trained Models in Transfer Learning","type":"publication"},{"authors":["Wenxuan Hou*","Guangyao Li*","Yapeng Tian","Di Hu"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"56c2e256bf8d4a20cdffe034f430aaef","permalink":"/publication/towards-long-form-audio-visual-video-understanding/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/towards-long-form-audio-visual-video-understanding/","section":"publication","summary":"","tags":null,"title":"Towards Long Form Audio-visual Video Understanding","type":"publication"},{"authors":["Zechen Bai","Zhigang Wang","Jian Wang","Di Hu","Errui Ding"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"9905f139a565b4f5eabfc5902965f851","permalink":"/publication/unsupervised-multi-source-domain-adaptation-for-person-re-identification/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/unsupervised-multi-source-domain-adaptation-for-person-re-identification/","section":"publication","summary":"","tags":null,"title":"Unsupervised Multi-Source Domain Adaptation for Person Re-Identification","type":"publication"},{"authors":["Xian Liu","Rui Qian","Hang Zhou","Di Hu","Weiyao Lin","Ziwei Liu","Bolei Zhou","Xiaowei Zhou"],"categories":null,"content":"","date":-62135596800,"expirydate":-62135596800,"kind":"page","lang":"en","lastmod":-62135596800,"objectID":"ca462fd19e2017e2ecb2b26a145ef250","permalink":"/publication/visual-sound-localization-in-the-wild-by-cross-modal-interference-erasing/","publishdate":"0001-01-01T00:00:00Z","relpermalink":"/publication/visual-sound-localization-in-the-wild-by-cross-modal-interference-erasing/","section":"publication","summary":"","tags":null,"title":"Visual Sound Localization in-the-Wild by Cross-Modal Interference Erasing","type":"publication"}]
\ No newline at end of file
diff --git a/docs/index.xml b/docs/index.xml
index 5f12e291..f91c9686 100755
--- a/docs/index.xml
+++ b/docs/index.xml
@@ -44,6 +44,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Class-aware Sounding Objects Localization via Audiovisual Correspondence</title>
       <link>/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/</link>
@@ -124,6 +132,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Discrete Spectral Hashing for Efficient Similarity Retrieval</title>
       <link>/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/</link>
@@ -308,6 +324,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Revisiting Pre-training in Audio-Visual Learning</title>
       <link>/publication/revisiting-pre-training-in-audio-visual-learning/</link>
diff --git a/docs/member/index.html b/docs/member/index.html
index 583df2fa..401e98d2 100755
--- a/docs/member/index.html
+++ b/docs/member/index.html
@@ -850,40 +850,6 @@ <h1>Research Assistant</h1>
                     </div>
                 </div>
             
-                
-                
-                
-                
-                    
-                
-                <div class="row">
-                    <div class="col-12 col-lg-4 people-person">
-                        <div id="profile">
-                            
-                            
-                                
-                                
-                            
-                            
-                                <div class="people-widget">
-                                    
-                                        <img class="portrait" src="/authors/24_yufan/avatar_hue778fd63f31c493f6c95f5fb2c0594e6_288184_150x150_fill_lanczos_center_2.png" alt="Avatar">
-                                    
-                                </div>
-                            
-                
-                            <div class="portrait-title">
-                                <p style="font-size: 1.3rem;">Yufan Wu</p>
-                                <p>Visiting Student, 2024</p>
-                            </div>
-                        </div>
-                    </div>
-                    <div style="display: flex; align-items: center;" class="col-12 col-lg-8">
-                        <p><p>Yufan is a 2024 master&rsquo;s graduate from Zhejiang University. She is passionate about image generation, cross-modal generation and multimodal learning.</p>
-</p>
-                    </div>
-                </div>
-            
         
     
 </div>
diff --git a/docs/publication/balanced-audiovisual-dataset-for-imbalance-analysis/index.html b/docs/publication/balanced-audiovisual-dataset-for-imbalance-analysis/index.html
index 07bbdd46..6f5aed89 100755
--- a/docs/publication/balanced-audiovisual-dataset-for-imbalance-analysis/index.html
+++ b/docs/publication/balanced-audiovisual-dataset-for-imbalance-analysis/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Wenke Xia*"
+    "name": "Wenke Xia"
   },
   
   "publisher": {
diff --git a/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg b/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg
new file mode 100644
index 00000000..0e252023
Binary files /dev/null and b/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg differ
diff --git a/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured_hufd4a65e8fdf109f57110242e18504833_651369_720x0_resize_q90_lanczos.jpg b/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured_hufd4a65e8fdf109f57110242e18504833_651369_720x0_resize_q90_lanczos.jpg
new file mode 100644
index 00000000..56142f6a
Binary files /dev/null and b/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured_hufd4a65e8fdf109f57110242e18504833_651369_720x0_resize_q90_lanczos.jpg differ
diff --git a/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/index.html b/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/index.html
new file mode 100644
index 00000000..1576faa6
--- /dev/null
+++ b/docs/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/index.html
@@ -0,0 +1,699 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">
+  
+    
+    
+    
+    
+      
+    
+    
+    <meta property="twitter:card" content="summary_large_image">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">
+    <meta property="og:title" content="Can Textual Semantics Mitigate Sounding Object SegmentationPreference? | GeWu-Lab">
+    <meta property="og:description" content=""><meta property="og:image" content="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg">
+    <meta property="twitter:image" content="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg"><meta property="og:locale" content="en-us">
+    
+      
+      
+    
+  
+    
+
+
+    
+
+
+
+
+
+
+
+
+
+
+
+<script type="application/ld+json">
+{
+  "@context": "https://schema.org",
+  "@type": "Article",
+  "mainEntityOfPage": {
+    "@type": "WebPage",
+    "@id": "/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/"
+  },
+  "headline": "Can Textual Semantics Mitigate Sounding Object SegmentationPreference?",
+  
+  "image": [
+    "/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg"
+  ],
+  
+  "datePublished": "0001-01-01T00:00:00Z",
+  "dateModified": "0001-01-01T00:00:00Z",
+  
+  "author": {
+    "@type": "Person",
+    "name": "Yaoting Wang"
+  },
+  
+  "publisher": {
+    "@type": "Organization",
+    "name": "GeWu-Lab",
+    "logo": {
+      "@type": "ImageObject",
+      "url": "/img/logo.png"
+    }
+  },
+  "description": ""
+}
+</script>
+
+  
+
+  
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link  active" href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  <div class="pub">
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+  
+    
+  
+
+
+<div class="article-container pt-3">
+  <h1>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</h1>
+
+  
+
+  
+
+
+<div class="article-metadata">
+
+  
+  
+  
+  
+  <div>
+    
+
+
+
+  
+  <span>
+        Yaoting Wang
+      
+    </span>, <span>
+        Peiwen Sun
+      
+    </span>, <span>
+        Yuanchao Li
+      
+    </span>, <span>
+        Honggang Zhang
+      
+    </span>, <span>
+        Di Hu
+      
+    </span>
+
+  </div>
+  <div>
+    <span>European Conference on Computer Vision(ECCV) 2024</span>
+  </div>
+  
+  
+
+</div>
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+</div>
+
+
+
+
+
+<div class="article-header article-container featured-image-wrapper mt-4 mb-4" style="max-width: 720px; max-height: 413px;">
+  <div style="position: relative">
+    <img src="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured_hufd4a65e8fdf109f57110242e18504833_651369_720x0_resize_q90_lanczos.jpg" alt="" class="featured-image">
+    
+  </div>
+</div>
+
+
+
+
+
+  <div class="article-container">
+
+    
+
+    
+    <div class="row">
+      <div class="col-md-1"></div>
+      <div class="col-md-10">
+        <div class="row">
+          <div class="col-12 col-md-3 pub-row-heading">All</div>
+          <div class="col-12 col-md-9">
+            
+            
+            <a href="/publication/#1">
+              Conference paper
+            </a>
+            
+          </div>
+        </div>
+      </div>
+      <div class="col-md-1"></div>
+    </div>
+    <div class="d-md-none space-below"></div>
+    
+
+    
+    <div class="row">
+      <div class="col-md-1"></div>
+      <div class="col-md-10">
+        <div class="row">
+          <div class="col-12 col-md-3 pub-row-heading">Publication</div>
+          <div class="col-12 col-md-9">European Conference on Computer Vision(ECCV) 2024</div>
+        </div>
+      </div>
+      <div class="col-md-1"></div>
+    </div>
+    <div class="d-md-none space-below"></div>
+    
+
+    <div class="space-below"></div>
+
+    <div class="article-style"></div>
+
+    
+
+
+
+
+  
+  
+
+
+
+  </div>
+</div>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/index.html b/docs/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/index.html
index bc80c9b9..b4d02177 100755
--- a/docs/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/index.html
+++ b/docs/publication/co-learn-sounding-object-visual-grounding-and-visually-indicated-sound-separation-in-a-cycle/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Yapeng Tian*"
+    "name": "Yapeng Tian"
   },
   
   "publisher": {
diff --git a/docs/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/index.html b/docs/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/index.html
index 8be06258..9286afb7 100755
--- a/docs/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/index.html
+++ b/docs/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Yapeng Tian*"
+    "name": "Yapeng Tian"
   },
   
   "publisher": {
diff --git a/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg b/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg
new file mode 100644
index 00000000..1d62c3af
Binary files /dev/null and b/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg differ
diff --git a/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured_hud61968a1a1f311915190fe8da37d7b04_488685_720x0_resize_q90_lanczos.jpg b/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured_hud61968a1a1f311915190fe8da37d7b04_488685_720x0_resize_q90_lanczos.jpg
new file mode 100644
index 00000000..6eb4aee2
Binary files /dev/null and b/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured_hud61968a1a1f311915190fe8da37d7b04_488685_720x0_resize_q90_lanczos.jpg differ
diff --git a/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/index.html b/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/index.html
new file mode 100644
index 00000000..fda94d04
--- /dev/null
+++ b/docs/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/index.html
@@ -0,0 +1,705 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">
+  
+    
+    
+    
+    
+      
+    
+    
+    <meta property="twitter:card" content="summary_large_image">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">
+    <meta property="og:title" content="Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection | GeWu-Lab">
+    <meta property="og:description" content=""><meta property="og:image" content="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg">
+    <meta property="twitter:image" content="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg"><meta property="og:locale" content="en-us">
+    
+      
+      
+    
+  
+    
+
+
+    
+
+
+
+
+
+
+
+
+
+
+
+<script type="application/ld+json">
+{
+  "@context": "https://schema.org",
+  "@type": "Article",
+  "mainEntityOfPage": {
+    "@type": "WebPage",
+    "@id": "/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/"
+  },
+  "headline": "Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection",
+  
+  "image": [
+    "/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg"
+  ],
+  
+  "datePublished": "0001-01-01T00:00:00Z",
+  "dateModified": "0001-01-01T00:00:00Z",
+  
+  "author": {
+    "@type": "Person",
+    "name": "Xincheng Pang"
+  },
+  
+  "publisher": {
+    "@type": "Organization",
+    "name": "GeWu-Lab",
+    "logo": {
+      "@type": "ImageObject",
+      "url": "/img/logo.png"
+    }
+  },
+  "description": ""
+}
+</script>
+
+  
+
+  
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link  active" href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  <div class="pub">
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+  
+    
+  
+
+
+<div class="article-container pt-3">
+  <h1>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</h1>
+
+  
+
+  
+
+
+<div class="article-metadata">
+
+  
+  
+  
+  
+  <div>
+    
+
+
+
+  
+  <span>
+        Xincheng Pang
+      
+    </span>, <span>
+        Wenke Xia
+      
+    </span>, <span>
+        Zhigang Wang
+      
+    </span>, <span>
+        Bin Zhao
+      
+    </span>, <span>
+        Di Hu
+      
+    </span>, <span>
+        Dong Wang
+      
+    </span>, <span>
+        Xuelong Li
+      
+    </span>
+
+  </div>
+  <div>
+    <span>The 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS) 2024</span>
+  </div>
+  
+  
+
+</div>
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+</div>
+
+
+
+
+
+<div class="article-header article-container featured-image-wrapper mt-4 mb-4" style="max-width: 720px; max-height: 504px;">
+  <div style="position: relative">
+    <img src="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured_hud61968a1a1f311915190fe8da37d7b04_488685_720x0_resize_q90_lanczos.jpg" alt="" class="featured-image">
+    
+  </div>
+</div>
+
+
+
+
+
+  <div class="article-container">
+
+    
+
+    
+    <div class="row">
+      <div class="col-md-1"></div>
+      <div class="col-md-10">
+        <div class="row">
+          <div class="col-12 col-md-3 pub-row-heading">All</div>
+          <div class="col-12 col-md-9">
+            
+            
+            <a href="/publication/#1">
+              Conference paper
+            </a>
+            
+          </div>
+        </div>
+      </div>
+      <div class="col-md-1"></div>
+    </div>
+    <div class="d-md-none space-below"></div>
+    
+
+    
+    <div class="row">
+      <div class="col-md-1"></div>
+      <div class="col-md-10">
+        <div class="row">
+          <div class="col-12 col-md-3 pub-row-heading">Publication</div>
+          <div class="col-12 col-md-9">The 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS) 2024</div>
+        </div>
+      </div>
+      <div class="col-md-1"></div>
+    </div>
+    <div class="d-md-none space-below"></div>
+    
+
+    <div class="space-below"></div>
+
+    <div class="article-style"></div>
+
+    
+
+
+
+
+  
+  
+
+
+
+  </div>
+</div>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/index.html b/docs/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/index.html
index a1490ede..49fa56d7 100644
--- a/docs/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/index.html
+++ b/docs/publication/enhancing-multi-modal-cooperation-via-fine-grained-modality-valuation/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Yake Wei*"
+    "name": "Yake Wei"
   },
   
   "publisher": {
diff --git a/docs/publication/index.html b/docs/publication/index.html
index e32d4c1c..07838c0f 100755
--- a/docs/publication/index.html
+++ b/docs/publication/index.html
@@ -556,6 +556,15 @@ <h1>Publications</h1>
       
         
         
+      
+        
+        
+      
+        
+        
+      
+        
+        
       
         
         
@@ -616,6 +625,444 @@ <h1>Publications</h1>
           
         
 
+        <div class="grid-sizer col-lg-12 isotope-item pubtype-1 topictype-3">
+          
+            
+
+
+
+
+
+
+
+
+  
+  
+
+
+
+
+
+
+<div class="media stream-item">
+  <div class="ml-3">
+    
+    
+    
+        <img style="max-width: 350px;" src="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg" alt="">
+    
+  </div>
+  <div style="margin-left: 16px;" class="media-body">
+
+    <p class="article-title mb-0 mt-0">
+      Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
+    </p>
+
+    
+
+    <div class="stream-meta article-metadata">
+
+      
+
+
+      
+        
+
+
+<div class="article-metadata">
+
+  
+  
+  
+  
+  <div>
+    
+
+
+
+  
+  <span>
+        Yaoting Wang
+      
+    </span>, <span>
+        Peiwen Sun
+      
+    </span>, <span>
+        Dongzhan Zhou
+      
+    </span>, <span>
+        Guangyao Li
+      
+    </span>, <span>
+        Honggang Zhang
+      
+    </span>, <span>
+        Di Hu
+      
+    </span>
+
+  </div>
+  <div>
+    <span>European Conference on Computer Vision(ECCV) 2024</span>
+  </div>
+  
+  
+
+</div>
+
+      
+    </div>
+
+    
+    <div class="btn-links">
+      
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+    </div>
+    
+
+  </div>
+  
+</div>
+
+          
+        </div>
+
+        
+        
+        
+          
+          
+        
+
+        <div class="grid-sizer col-lg-12 isotope-item pubtype-1 topictype-3">
+          
+            
+
+
+
+
+
+
+
+
+  
+  
+
+
+
+
+
+
+<div class="media stream-item">
+  <div class="ml-3">
+    
+    
+    
+        <img style="max-width: 350px;" src="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/featured.jpg" alt="">
+    
+  </div>
+  <div style="margin-left: 16px;" class="media-body">
+
+    <p class="article-title mb-0 mt-0">
+      Can Textual Semantics Mitigate Sounding Object SegmentationPreference?
+    </p>
+
+    
+
+    <div class="stream-meta article-metadata">
+
+      
+
+
+      
+        
+
+
+<div class="article-metadata">
+
+  
+  
+  
+  
+  <div>
+    
+
+
+
+  
+  <span>
+        Yaoting Wang
+      
+    </span>, <span>
+        Peiwen Sun
+      
+    </span>, <span>
+        Yuanchao Li
+      
+    </span>, <span>
+        Honggang Zhang
+      
+    </span>, <span>
+        Di Hu
+      
+    </span>
+
+  </div>
+  <div>
+    <span>European Conference on Computer Vision(ECCV) 2024</span>
+  </div>
+  
+  
+
+</div>
+
+      
+    </div>
+
+    
+    <div class="btn-links">
+      
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+    </div>
+    
+
+  </div>
+  
+</div>
+
+          
+        </div>
+
+        
+        
+        
+          
+          
+        
+
+        <div class="grid-sizer col-lg-12 isotope-item pubtype-1 topictype-3">
+          
+            
+
+
+
+
+
+
+
+
+  
+  
+
+
+
+
+
+
+<div class="media stream-item">
+  <div class="ml-3">
+    
+    
+    
+        <img style="max-width: 350px;" src="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/featured.jpg" alt="">
+    
+  </div>
+  <div style="margin-left: 16px;" class="media-body">
+
+    <p class="article-title mb-0 mt-0">
+      Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection
+    </p>
+
+    
+
+    <div class="stream-meta article-metadata">
+
+      
+
+
+      
+        
+
+
+<div class="article-metadata">
+
+  
+  
+  
+  
+  <div>
+    
+
+
+
+  
+  <span>
+        Xincheng Pang
+      
+    </span>, <span>
+        Wenke Xia
+      
+    </span>, <span>
+        Zhigang Wang
+      
+    </span>, <span>
+        Bin Zhao
+      
+    </span>, <span>
+        Di Hu
+      
+    </span>, <span>
+        Dong Wang
+      
+    </span>, <span>
+        Xuelong Li
+      
+    </span>
+
+  </div>
+  <div>
+    <span>The 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS) 2024</span>
+  </div>
+  
+  
+
+</div>
+
+      
+    </div>
+
+    
+    <div class="btn-links">
+      
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+    </div>
+    
+
+  </div>
+  
+</div>
+
+          
+        </div>
+
+        
+        
+        
+          
+          
+        
+
         <div class="grid-sizer col-lg-12 isotope-item pubtype-1 topictype-2">
           
             
diff --git a/docs/publication/index.xml b/docs/publication/index.xml
index f2623080..ea58cc31 100755
--- a/docs/publication/index.xml
+++ b/docs/publication/index.xml
@@ -44,6 +44,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Class-aware Sounding Objects Localization via Audiovisual Correspondence</title>
       <link>/publication/class-aware-sounding-objects-localization-via-audiovisual-correspondence/</link>
@@ -124,6 +132,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Discrete Spectral Hashing for Efficient Similarity Retrieval</title>
       <link>/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/</link>
@@ -308,6 +324,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Revisiting Pre-training in Audio-Visual Learning</title>
       <link>/publication/revisiting-pre-training-in-audio-visual-learning/</link>
diff --git a/docs/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/index.html b/docs/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/index.html
index 5fc59214..3fabd17a 100644
--- a/docs/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/index.html
+++ b/docs/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Wenke Xia*"
+    "name": "Wenke Xia"
   },
   
   "publisher": {
diff --git a/docs/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/index.html b/docs/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/index.html
index a86fda7c..b144a1b9 100755
--- a/docs/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/index.html
+++ b/docs/publication/learning-in-audio-visual-context-a-review-analysis-and-new-perspective/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Yake Wei*"
+    "name": "Yake Wei"
   },
   
   "publisher": {
diff --git a/docs/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/index.html b/docs/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/index.html
index aaa61c90..a873a7ab 100755
--- a/docs/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/index.html
+++ b/docs/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Guangyao Li*"
+    "name": "Guangyao Li"
   },
   
   "publisher": {
diff --git a/docs/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/index.html b/docs/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/index.html
index 1117cc0a..70ad99ab 100644
--- a/docs/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/index.html
+++ b/docs/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Yake Wei*"
+    "name": "Yake Wei"
   },
   
   "publisher": {
diff --git a/docs/publication/multi-scale-attention-for-audio-question-answering/index.html b/docs/publication/multi-scale-attention-for-audio-question-answering/index.html
index 91f945ea..e3fac170 100644
--- a/docs/publication/multi-scale-attention-for-audio-question-answering/index.html
+++ b/docs/publication/multi-scale-attention-for-audio-question-answering/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Guangyao Li*"
+    "name": "Guangyao Li"
   },
   
   "publisher": {
diff --git a/docs/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/index.html b/docs/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/index.html
index 6df36ea8..606c7a8b 100644
--- a/docs/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/index.html
+++ b/docs/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Guangyao Li*"
+    "name": "Guangyao Li"
   },
   
   "publisher": {
diff --git a/docs/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/index.html b/docs/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/index.html
index d1db0059..b29a2688 100644
--- a/docs/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/index.html
+++ b/docs/publication/prompting-segmentation-with-sound-is-generalizable-audio-visual-source-localizer/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Yaoting Wang*"
+    "name": "Yaoting Wang"
   },
   
   "publisher": {
diff --git a/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg b/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg
new file mode 100644
index 00000000..aacd0e03
Binary files /dev/null and b/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg differ
diff --git a/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured_huf3db66af0d88d2dd71ae8956a5a70414_440955_720x0_resize_q90_lanczos.jpg b/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured_huf3db66af0d88d2dd71ae8956a5a70414_440955_720x0_resize_q90_lanczos.jpg
new file mode 100644
index 00000000..c28989b7
Binary files /dev/null and b/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured_huf3db66af0d88d2dd71ae8956a5a70414_440955_720x0_resize_q90_lanczos.jpg differ
diff --git a/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/index.html b/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/index.html
new file mode 100644
index 00000000..57fb17c4
--- /dev/null
+++ b/docs/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/index.html
@@ -0,0 +1,702 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">
+  
+    
+    
+    
+    
+      
+    
+    
+    <meta property="twitter:card" content="summary_large_image">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">
+    <meta property="og:title" content="Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes | GeWu-Lab">
+    <meta property="og:description" content=""><meta property="og:image" content="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg">
+    <meta property="twitter:image" content="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg"><meta property="og:locale" content="en-us">
+    
+      
+      
+    
+  
+    
+
+
+    
+
+
+
+
+
+
+
+
+
+
+
+<script type="application/ld+json">
+{
+  "@context": "https://schema.org",
+  "@type": "Article",
+  "mainEntityOfPage": {
+    "@type": "WebPage",
+    "@id": "/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/"
+  },
+  "headline": "Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes",
+  
+  "image": [
+    "/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured.jpg"
+  ],
+  
+  "datePublished": "0001-01-01T00:00:00Z",
+  "dateModified": "0001-01-01T00:00:00Z",
+  
+  "author": {
+    "@type": "Person",
+    "name": "Yaoting Wang"
+  },
+  
+  "publisher": {
+    "@type": "Organization",
+    "name": "GeWu-Lab",
+    "logo": {
+      "@type": "ImageObject",
+      "url": "/img/logo.png"
+    }
+  },
+  "description": ""
+}
+</script>
+
+  
+
+  
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link  active" href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  <div class="pub">
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+  
+    
+  
+
+
+<div class="article-container pt-3">
+  <h1>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</h1>
+
+  
+
+  
+
+
+<div class="article-metadata">
+
+  
+  
+  
+  
+  <div>
+    
+
+
+
+  
+  <span>
+        Yaoting Wang
+      
+    </span>, <span>
+        Peiwen Sun
+      
+    </span>, <span>
+        Dongzhan Zhou
+      
+    </span>, <span>
+        Guangyao Li
+      
+    </span>, <span>
+        Honggang Zhang
+      
+    </span>, <span>
+        Di Hu
+      
+    </span>
+
+  </div>
+  <div>
+    <span>European Conference on Computer Vision(ECCV) 2024</span>
+  </div>
+  
+  
+
+</div>
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+</div>
+
+
+
+
+
+<div class="article-header article-container featured-image-wrapper mt-4 mb-4" style="max-width: 720px; max-height: 273px;">
+  <div style="position: relative">
+    <img src="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/featured_huf3db66af0d88d2dd71ae8956a5a70414_440955_720x0_resize_q90_lanczos.jpg" alt="" class="featured-image">
+    
+  </div>
+</div>
+
+
+
+
+
+  <div class="article-container">
+
+    
+
+    
+    <div class="row">
+      <div class="col-md-1"></div>
+      <div class="col-md-10">
+        <div class="row">
+          <div class="col-12 col-md-3 pub-row-heading">All</div>
+          <div class="col-12 col-md-9">
+            
+            
+            <a href="/publication/#1">
+              Conference paper
+            </a>
+            
+          </div>
+        </div>
+      </div>
+      <div class="col-md-1"></div>
+    </div>
+    <div class="d-md-none space-below"></div>
+    
+
+    
+    <div class="row">
+      <div class="col-md-1"></div>
+      <div class="col-md-10">
+        <div class="row">
+          <div class="col-12 col-md-3 pub-row-heading">Publication</div>
+          <div class="col-12 col-md-9">European Conference on Computer Vision(ECCV) 2024</div>
+        </div>
+      </div>
+      <div class="col-md-1"></div>
+    </div>
+    <div class="d-md-none space-below"></div>
+    
+
+    <div class="space-below"></div>
+
+    <div class="article-style"></div>
+
+    
+
+
+
+
+  
+  
+
+
+
+  </div>
+</div>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/index.html b/docs/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/index.html
index 9447ff49..e07b7b2c 100644
--- a/docs/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/index.html
+++ b/docs/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/index.html
@@ -154,7 +154,7 @@
   
   "author": {
     "@type": "Person",
-    "name": "Wenke Xia*"
+    "name": "Wenke Xia"
   },
   
   "publisher": {
diff --git a/docs/publication_types/1/index.html b/docs/publication_types/1/index.html
index 5b47cbc5..a0950d0f 100755
--- a/docs/publication_types/1/index.html
+++ b/docs/publication_types/1/index.html
@@ -412,63 +412,63 @@ <h2><a href="/publication/balanced-multimodal-learning-via-on-the-fly-gradient-m
   </div>
   
   <div>
-    <h2><a href="/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/">Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition</a></h2>
+    <h2><a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/">Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation</a></h2>
+    <h2><a href="/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/">Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/deep-binary-reconstruction-for-cross-modal-hashing/">Deep Binary Reconstruction for Cross-modal Hashing</a></h2>
+    <h2><a href="/publication/cyclic-co-learning-of-sounding-object-visual-grounding-and-sound-separation/">Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/">Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation</a></h2>
+    <h2><a href="/publication/deep-binary-reconstruction-for-cross-modal-hashing/">Deep Binary Reconstruction for Cross-modal Hashing</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/">Dense Multimodal Fusion for Hierarchically Joint Representation</a></h2>
+    <h2><a href="/publication/deep-multimodal-clustering-for-unsupervised-audiovisual-learning/">Deep Multimodal Clustering for Unsupervised Audiovisual Learning Representation</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/">Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching</a></h2>
+    <h2><a href="/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/">Dense Multimodal Fusion for Hierarchically Joint Representation</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/exploiting-visual-context-semantics-for-sound-source-localization/">Exploiting Visual Context Semantics for Sound Source Localization</a></h2>
+    <h2><a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/image2song-song-retrieval-via-bridging-image-content-and-lyric-words/">Image2song: Song Retrieval via Bridging Image Content and Lyric Words</a></h2>
+    <h2><a href="/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/">Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/">Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</a></h2>
+    <h2><a href="/publication/exploiting-visual-context-semantics-for-sound-source-localization/">Exploiting Visual Context Semantics for Sound Source Localization</a></h2>
     <div class="article-style">
       
     </div>
diff --git a/docs/publication_types/1/index.xml b/docs/publication_types/1/index.xml
index 6ecd6048..f8a72d41 100755
--- a/docs/publication_types/1/index.xml
+++ b/docs/publication_types/1/index.xml
@@ -20,6 +20,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition</title>
       <link>/publication/cross-task-transfer-for-geotagged-audiovisual-aerial-scene-recognition/</link>
@@ -60,6 +68,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching</title>
       <link>/publication/discriminative-sounding-objects-localization-via-self-supervised-audiovisual-matching/</link>
@@ -172,6 +188,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Robust Cross-modal Knowledge Distillation for Unconstrained Videos</title>
       <link>/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/</link>
diff --git a/docs/publication_types/1/page/2/index.html b/docs/publication_types/1/page/2/index.html
index f166e9e5..ff20bb9e 100755
--- a/docs/publication_types/1/page/2/index.html
+++ b/docs/publication_types/1/page/2/index.html
@@ -405,70 +405,70 @@ <h1>1</h1>
   
   
   <div>
-    <h2><a href="/publication/large-graph-hashing-with-spectral-rotation/">Large Graph Hashing with Spectral Rotation</a></h2>
+    <h2><a href="/publication/image2song-song-retrieval-via-bridging-image-content-and-lyric-words/">Image2song: Song Retrieval via Bridging Image Content and Lyric Words</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/">Learning to Answer Questions in Dynamic Audio-Visual Scenarios</a></h2>
+    <h2><a href="/publication/kinematic-aware-prompting-for-generalizable-articulated-object-manipulation-with-llms/">Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/listen-to-the-image/">Listen to the Image</a></h2>
+    <h2><a href="/publication/large-graph-hashing-with-spectral-rotation/">Large Graph Hashing with Spectral Rotation</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning/">MMCosine: Multi-Modal Cosine Loss Towards Balanced Audio-Visual Fine-Grained Learning</a></h2>
+    <h2><a href="/publication/learning-to-answer-questions-in-dynamic-audio-visual-scenarios/">Learning to Answer Questions in Dynamic Audio-Visual Scenarios</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/">MMPareto: Innocent Uni-modal Assistance for Enhanced Multi-modal Learning</a></h2>
+    <h2><a href="/publication/listen-to-the-image/">Listen to the Image</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/multi-scale-attention-for-audio-question-answering/">Multi-Scale Attention for Audio Question Answering</a></h2>
+    <h2><a href="/publication/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning/">MMCosine: Multi-Modal Cosine Loss Towards Balanced Audio-Visual Fine-Grained Learning</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/multimodal-learning-via-exploring-deep-semantic-similarity/">Multimodal Learning via Exploring Deep Semantic Similarity</a></h2>
+    <h2><a href="/publication/mmpareto-innocent-uni-modal-assistance-for-enhanced-multi-modal-learning/">MMPareto: Innocent Uni-modal Assistance for Enhanced Multi-modal Learning</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/multiple-sound-sources-localization-from-coarse-to-fine/">Multiple Sound Sources Localization from Coarse to Fine</a></h2>
+    <h2><a href="/publication/multi-scale-attention-for-audio-question-answering/">Multi-Scale Attention for Audio Question Answering</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/">Progressive Spatio-temporal Perception for Audio-Visual Question Answering</a></h2>
+    <h2><a href="/publication/multimodal-learning-via-exploring-deep-semantic-similarity/">Multimodal Learning via Exploring Deep Semantic Similarity</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/">Quantifying and Enhancing Multi-modal Robustness with Modality Preference</a></h2>
+    <h2><a href="/publication/multiple-sound-sources-localization-from-coarse-to-fine/">Multiple Sound Sources Localization from Coarse to Fine</a></h2>
     <div class="article-style">
       
     </div>
diff --git a/docs/publication_types/1/page/3/index.html b/docs/publication_types/1/page/3/index.html
index aed768a2..adc1f8b1 100644
--- a/docs/publication_types/1/page/3/index.html
+++ b/docs/publication_types/1/page/3/index.html
@@ -405,63 +405,70 @@ <h1>1</h1>
   
   
   <div>
-    <h2><a href="/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/">Robust Cross-modal Knowledge Distillation for Unconstrained Videos</a></h2>
+    <h2><a href="/publication/progressive-spatio-temporal-perception-for-audio-visual-question-answering/">Progressive Spatio-temporal Perception for Audio-Visual Question Answering</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/">SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance</a></h2>
+    <h2><a href="/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/">Quantifying and Enhancing Multi-modal Robustness with Modality Preference</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/sepfusion_-finding-optimal-fusion-structures-for-visual-sound-separation/">SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation</a></h2>
+    <h2><a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/temporal-multimodal-learning-in-audiovisual-speech-recognition/">Temporal Multimodal Learning in Audiovisual Speech Recognition</a></h2>
+    <h2><a href="/publication/robust-cross-modal-knowledge-distillation-for-unconstrained-videos/">Robust Cross-modal Knowledge Distillation for Unconstrained Videos</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/temporal-relational-modeling-with-self-supervision-for-action-segmentation/">Temporal Relational Modeling with Self-Supervision for Action Segmentation</a></h2>
+    <h2><a href="/publication/seco-separating-unknown-musical-visual-sounds-with-consistency-guidance/">SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/tiktalk-a-video-based-dialogue-dataset-for-multi-modal-chitchat-in-real-world/">TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World</a></h2>
+    <h2><a href="/publication/sepfusion_-finding-optimal-fusion-structures-for-visual-sound-separation/">SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/towards-inadequately-pre-trained-models-in-transfer-learning/">Towards Inadequately Pre-trained Models in Transfer Learning</a></h2>
+    <h2><a href="/publication/temporal-multimodal-learning-in-audiovisual-speech-recognition/">Temporal Multimodal Learning in Audiovisual Speech Recognition</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/unsupervised-multi-source-domain-adaptation-for-person-re-identification/">Unsupervised Multi-Source Domain Adaptation for Person Re-Identification</a></h2>
+    <h2><a href="/publication/temporal-relational-modeling-with-self-supervision-for-action-segmentation/">Temporal Relational Modeling with Self-Supervision for Action Segmentation</a></h2>
+    <div class="article-style">
+      
+    </div>
+  </div>
+  
+  <div>
+    <h2><a href="/publication/tiktalk-a-video-based-dialogue-dataset-for-multi-modal-chitchat-in-real-world/">TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World</a></h2>
     <div class="article-style">
       
     </div>
   </div>
   
   <div>
-    <h2><a href="/publication/visual-sound-localization-in-the-wild-by-cross-modal-interference-erasing/">Visual Sound Localization in-the-Wild by Cross-Modal Interference Erasing</a></h2>
+    <h2><a href="/publication/towards-inadequately-pre-trained-models-in-transfer-learning/">Towards Inadequately Pre-trained Models in Transfer Learning</a></h2>
     <div class="article-style">
       
     </div>
@@ -475,6 +482,8 @@ <h2><a href="/publication/visual-sound-localization-in-the-wild-by-cross-modal-i
     <li class="page-item"><a class="page-link" href="/publication_types/1/page/2/">&laquo;</a></li>
     
     
+    <li class="page-item"><a class="page-link" href="/publication_types/1/page/4/">&raquo;</a></li>
+    
   </ul>
 </nav>
 
diff --git a/docs/publication_types/1/page/4/index.html b/docs/publication_types/1/page/4/index.html
new file mode 100644
index 00000000..64b3681f
--- /dev/null
+++ b/docs/publication_types/1/page/4/index.html
@@ -0,0 +1,552 @@
+<!DOCTYPE html>
+<html lang="en-us">
+<head>
+
+    <meta charset="utf-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1">
+    <meta http-equiv="X-UA-Compatible" content="IE=edge">
+    <meta name="generator" content="Source Themes Academic 4.6.3">
+  
+    
+  
+    
+    
+    
+    
+    
+      
+      
+      
+    
+    
+  
+    <meta name="author" content="Ruize Xu">
+  
+    
+    
+    
+      
+    
+    <meta name="description" content="Undergraduate, Since 2021">
+  
+    
+    <link rel="alternate" hreflang="en-us" href="/publication_types/1/">
+  
+    
+
+
+    
+    
+    
+    <meta name="theme-color" content="#2962ff">
+    
+  
+    
+    
+    
+    
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/academicons/1.8.6/css/academicons.min.css" integrity="sha256-uFVgMKfistnJAfoCUQigIl+JfUaP47GrRKjf6CTPVmw=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.11.2/css/all.min.css" integrity="sha256-+N4/V/SbAFiW1MPBCXnfnP9QSN3+Keu+NlB+0ev/YKQ=" crossorigin="anonymous">
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.css" integrity="sha256-Vzbj7sDDS/woiFS3uNKo8eIuni59rjyNGtXfstRzStA=" crossorigin="anonymous">
+  
+      
+      
+      
+        
+      
+      
+        
+        
+          
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/github.min.css" crossorigin="anonymous" title="hl-light">
+            <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/styles/dracula.min.css" crossorigin="anonymous" title="hl-dark" disabled>
+          
+        
+      
+  
+      
+      <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.css" integrity="sha256-SHMGCYmST46SoyGgo4YR/9AlK1vf3ff84Aq9yK4hdqM=" crossorigin="anonymous">
+      
+  
+      
+  
+    
+  
+    
+    
+    
+    <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Montserrat:400,700%7CRoboto:400,400italic,700%7CRoboto+Mono&display=swap">
+    
+  
+    
+    
+    
+    
+    <link rel="stylesheet" href="/css/academic.css">
+  
+    
+
+
+
+
+    
+
+  
+    
+    <link rel="alternate" href="/publication_types/1/index.xml" type="application/rss+xml" title="GeWu-Lab">
+    
+  
+    <link rel="manifest" href="/index.webmanifest">
+    <link rel="icon" type="image/png" href="/img/icon-32.png">
+    <link rel="apple-touch-icon" type="image/png" href="/img/icon-192.png">
+  
+    <link rel="canonical" href="/publication_types/1/">
+  
+    
+    
+    
+    
+      
+      
+    
+    
+    <meta property="twitter:card" content="summary">
+    
+    <meta property="og:site_name" content="GeWu-Lab">
+    <meta property="og:url" content="/publication_types/1/">
+    <meta property="og:title" content="1 | GeWu-Lab">
+    <meta property="og:description" content="Undergraduate, Since 2021"><meta property="og:image" content="/img/logo.png">
+    <meta property="twitter:image" content="/img/logo.png"><meta property="og:locale" content="en-us">
+    
+      
+    
+  
+    
+
+
+
+  
+    
+
+  
+    
+
+
+
+
+  
+    
+    <title>GeWu-Lab</title>
+  
+  </head>
+  
+<body id="top" data-spy="scroll" data-offset="70" data-target="#TableOfContents" >
+
+  <aside class="search-results" id="search">
+  <div class="container">
+    <section class="search-header">
+
+      <div class="row no-gutters justify-content-between mb-3">
+        <div class="col-6">
+          <h1>Search</h1>
+        </div>
+        <div class="col-6 col-search-close">
+          <a class="js-search" href="#"><i class="fas fa-times-circle text-muted" aria-hidden="true"></i></a>
+        </div>
+      </div>
+
+      <div id="search-box">
+        
+        
+        
+      </div>
+
+    </section>
+    <section class="section-search-results">
+
+      <div id="search-hits">
+        
+      </div>
+
+    </section>
+  </div>
+</aside>
+
+
+  
+
+<nav class="navbar navbar-expand-lg navbar-light compensate-for-scrollbar" id="navbar-main">
+  <div class="container">
+
+    
+    <div class="d-none d-lg-inline-flex">
+      <a class="navbar-brand" href="/"><div style="display: flex; align-items: center;">
+            <img src="/img/logo.png" alt="GeWu-Lab" style="zoom:80%;">
+            <div style="margin-left: 20px; color: #2C298B; letter-spacing: 2px">GeWu-Lab</div>
+          </div></a>
+    </div>
+    
+
+    
+    <button type="button" class="navbar-toggler" data-toggle="collapse"
+            data-target="#navbar-content" aria-controls="navbar" aria-expanded="false" aria-label="Toggle navigation">
+    <span><i class="fas fa-bars"></i></span>
+    </button>
+    
+
+    
+    <div class="navbar-brand-mobile-wrapper d-inline-flex d-lg-none">
+      <a class="navbar-brand" href="/"><img src="/img/logo.png" alt="GeWu-Lab"></a>
+    </div>
+    
+
+    
+    
+    <div class="navbar-collapse main-menu-item collapse justify-content-end" id="navbar-content">
+
+      
+      <ul class="navbar-nav d-md-inline-flex">
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+          
+          
+          
+            
+          
+          
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/#hero"><span>Home</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/member/"><span>Members</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/publication/"><span>Publications</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/dataset/"><span>Datasets</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/project/"><span>Projects</span></a>
+        </li>
+
+        
+        
+
+        
+
+        
+        
+        
+          
+        
+
+        
+        
+        
+        
+        
+        
+
+        <li class="nav-item">
+          <a class="nav-link " href="/gallery/"><span>Gallery</span></a>
+        </li>
+
+        
+        
+
+      
+
+        
+      </ul>
+    </div>
+
+    <ul class="nav-icons navbar-nav flex-row ml-auto d-flex pl-md-2">
+      
+
+      
+
+      
+
+    </ul>
+
+  </div>
+</nav>
+
+
+  
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+  
+
+  
+  
+  
+    
+  
+
+<div class="universal-wrapper pt-3">
+  <h1>1</h1>
+
+  
+  
+</div>
+
+
+
+<div class="universal-wrapper">
+  
+
+  
+  
+  <div>
+    <h2><a href="/publication/unsupervised-multi-source-domain-adaptation-for-person-re-identification/">Unsupervised Multi-Source Domain Adaptation for Person Re-Identification</a></h2>
+    <div class="article-style">
+      
+    </div>
+  </div>
+  
+  <div>
+    <h2><a href="/publication/visual-sound-localization-in-the-wild-by-cross-modal-interference-erasing/">Visual Sound Localization in-the-Wild by Cross-Modal Interference Erasing</a></h2>
+    <div class="article-style">
+      
+    </div>
+  </div>
+  
+
+  
+<nav>
+  <ul class="pagination justify-content-center">
+    
+    <li class="page-item"><a class="page-link" href="/publication_types/1/page/3/">&laquo;</a></li>
+    
+    
+  </ul>
+</nav>
+
+
+</div>
+
+      
+
+    
+    
+
+    
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.4.1/jquery.min.js" integrity="sha256-CSXorXvZcTkaix6Yvo6HppcZGetbYMGWSFlBw8HfCJo=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.imagesloaded/4.1.4/imagesloaded.pkgd.min.js" integrity="sha256-lqvxZrPLtfffUl2G/e7szqSvPBILGbwmsGE1MKlOi0Q=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/jquery.isotope/3.0.6/isotope.pkgd.min.js" integrity="sha256-CBrpuqrMhXwcLLUd5tvQ4euBHCdh7wGlDfNz8vbu/iI=" crossorigin="anonymous"></script>
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/fancybox/3.5.7/jquery.fancybox.min.js" integrity="sha256-yt2kYMy0w8AbtF89WXb2P1rfjcP/HTHLT7097U8Y5b8=" crossorigin="anonymous"></script>
+
+      
+
+      
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/highlight.min.js" integrity="sha256-1zu+3BnLYV9LdiY85uXMzii3bdrkelyp37e0ZyTAQh0=" crossorigin="anonymous"></script>
+        
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/9.15.10/languages/r.min.js"></script>
+        
+      
+
+      
+      
+    
+
+    
+    
+      <script src="https://cdnjs.cloudflare.com/ajax/libs/leaflet/1.5.1/leaflet.js" integrity="sha256-EErZamuLefUnbMBQbsEqu1USa+btR2oIlCpBJbyD4/g=" crossorigin="anonymous"></script>
+    
+
+    
+    
+    <script>const code_highlighting = true;</script>
+    
+
+    
+
+    
+    
+
+    
+
+    
+    
+
+    
+    
+
+    
+    
+
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    
+    <script src="/js/academic.min.9bd6658f553ad8328726cf536e172917.js"></script>
+
+    
+
+
+
+
+
+
+  
+  
+  <div class="container">
+    <footer class="site-footer">
+    
+    <p class="powered-by">
+      copyright &copy; 2024 GeWu-Lab 
+      <br/>
+      
+      Gaoling School of Artificial Intelligence, Renmin University of China, Beijing 100872
+    </p>
+  </footer>
+  
+  </div>
+  
+
+  
+<div id="modal" class="modal fade" role="dialog">
+  <div class="modal-dialog">
+    <div class="modal-content">
+      <div class="modal-header">
+        <h5 class="modal-title">Cite</h5>
+        <button type="button" class="close" data-dismiss="modal" aria-label="Close">
+          <span aria-hidden="true">&times;</span>
+        </button>
+      </div>
+      <div class="modal-body">
+        <pre><code class="tex hljs"></code></pre>
+      </div>
+      <div class="modal-footer">
+        <a class="btn btn-outline-primary my-1 js-copy-cite" href="#" target="_blank">
+          <i class="fas fa-copy"></i> Copy
+        </a>
+        <a class="btn btn-outline-primary my-1 js-download-cite" href="#" target="_blank">
+          <i class="fas fa-download"></i> Download
+        </a>
+        <div id="modal-error"></div>
+      </div>
+    </div>
+  </div>
+</div>
+
+</body>
+</html>
diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index dd42d34f..143ca9f4 100755
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -162,10 +162,6 @@
     <loc>/authors/24_jirui/</loc>
   </url>
   
-  <url>
-    <loc>/authors/24_yufan/</loc>
-  </url>
-  
   <url>
     <loc>/authors/admin/</loc>
   </url>
@@ -179,19 +175,19 @@
   </url>
   
   <url>
-    <loc>/topic_types/1/</loc>
+    <loc>/publication_types/1/</loc>
   </url>
   
   <url>
-    <loc>/publication_types/1/</loc>
+    <loc>/topic_types/1/</loc>
   </url>
   
   <url>
-    <loc>/publication_types/2/</loc>
+    <loc>/topic_types/2/</loc>
   </url>
   
   <url>
-    <loc>/topic_types/2/</loc>
+    <loc>/publication_types/2/</loc>
   </url>
   
   <url>
@@ -242,6 +238,10 @@
     <loc>/authors/bolei-zhou/</loc>
   </url>
   
+  <url>
+    <loc>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</loc>
+  </url>
+  
   <url>
     <loc>/categories/</loc>
   </url>
@@ -322,6 +322,10 @@
     <loc>/publication/dense-multimodal-fusion-for-hierarchically-joint-representation/</loc>
   </url>
   
+  <url>
+    <loc>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</loc>
+  </url>
+  
   <url>
     <loc>/authors/di-hu/</loc>
   </url>
@@ -410,6 +414,10 @@
     <loc>/publication/heterogeneous-scene-analysis-via-self-supervised-audiovisual-learning/</loc>
   </url>
   
+  <url>
+    <loc>/authors/honggang-zhang/</loc>
+  </url>
+  
   <url>
     <loc>/authors/hongpeng-lin/</loc>
   </url>
@@ -534,6 +542,10 @@
     <loc>/publication/not-all-knowledge-is-created-equal/</loc>
   </url>
   
+  <url>
+    <loc>/authors/peiwen-sun/</loc>
+  </url>
+  
   <url>
     <loc>/authors/peiyu-liu/</loc>
   </url>
@@ -582,6 +594,10 @@
     <loc>/publication/quantifying-and-enhancing-multi-modal-robustness-with-modality-preference/</loc>
   </url>
   
+  <url>
+    <loc>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</loc>
+  </url>
+  
   <url>
     <loc>/publication/revisiting-pre-training-in-audio-visual-learning/</loc>
   </url>
@@ -806,6 +822,10 @@
     <loc>/authors/yixin-xu/</loc>
   </url>
   
+  <url>
+    <loc>/authors/yuanchao-li/</loc>
+  </url>
+  
   <url>
     <loc>/authors/yuansheng-hua/</loc>
   </url>
diff --git a/docs/topic_types/3/index.html b/docs/topic_types/3/index.html
index c1707d7c..9db281ed 100755
--- a/docs/topic_types/3/index.html
+++ b/docs/topic_types/3/index.html
@@ -404,6 +404,13 @@ <h1>3</h1>
 
   
   
+  <div>
+    <h2><a href="/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/">Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</a></h2>
+    <div class="article-style">
+      
+    </div>
+  </div>
+  
   <div>
     <h2><a href="/publication/deep-binary-reconstruction-for-cross-modal-hashing-journal/">Deep Binary Reconstruction for Cross-modal Hashing</a></h2>
     <div class="article-style">
@@ -425,6 +432,13 @@ <h2><a href="/publication/deep-linear-discriminant-analysis-hashing-supplemental
     </div>
   </div>
   
+  <div>
+    <h2><a href="/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/">Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</a></h2>
+    <div class="article-style">
+      
+    </div>
+  </div>
+  
   <div>
     <h2><a href="/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/">Discrete Spectral Hashing for Efficient Similarity Retrieval</a></h2>
     <div class="article-style">
@@ -453,6 +467,13 @@ <h2><a href="/publication/quantifying-and-enhancing-multi-modal-robustness-with-
     </div>
   </div>
   
+  <div>
+    <h2><a href="/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/">Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</a></h2>
+    <div class="article-style">
+      
+    </div>
+  </div>
+  
 
   
 
diff --git a/docs/topic_types/3/index.xml b/docs/topic_types/3/index.xml
index 16cc3a25..e5baa727 100755
--- a/docs/topic_types/3/index.xml
+++ b/docs/topic_types/3/index.xml
@@ -12,6 +12,14 @@
       <link>/topic_types/3/</link>
     </image>
     
+    <item>
+      <title>Can Textual Semantics Mitigate Sounding Object SegmentationPreference?</title>
+      <link>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/can-textual-semantics-mitigate-sounding-object-segmentationpreference/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Deep Binary Reconstruction for Cross-modal Hashing</title>
       <link>/publication/deep-binary-reconstruction-for-cross-modal-hashing-journal/</link>
@@ -36,6 +44,14 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Depth Helps: Improving Pre-trained RGB-based Policy with Depth Information Injection</title>
+      <link>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/depth-helps-improving-pre-trained-rgb-based-policy-with-depth-information-injection/</guid>
+      <description></description>
+    </item>
+    
     <item>
       <title>Discrete Spectral Hashing for Efficient Similarity Retrieval</title>
       <link>/publication/discrete-spectral-hashing-for-efficient-similarity-retrieval/</link>
@@ -68,5 +84,13 @@
       <description></description>
     </item>
     
+    <item>
+      <title>Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes</title>
+      <link>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</link>
+      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
+      <guid>/publication/ref-avs-refer-and-segment-objects-in-audio-visual-scenes/</guid>
+      <description></description>
+    </item>
+    
   </channel>
 </rss>