-
Notifications
You must be signed in to change notification settings - Fork 40
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230312] Weekly AI ArXiv 만담 시즌2 - 9회차 #75
Comments
News
ArXivVisual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
Scaling up GANs for Text-to-Image Synthesis
|
가벼운 소식 찍먹
LLaMA최신 소식 공유 맥북에서 LLMhttps://github.com/gyunggyung/KoChatLLaMA.cpp llama.cpp Hot topics
DescriptionThe main goal is to run the model using 4-bit quantization on a MacBook.
This was hacked in an evening - I have no idea if it works correctly. Please do not make conclusions about the models based on the results from this implementation. For all I know, it can be completely wrong. This project is for educational purposes and is not going to be maintained properly. New features will probably be added mostly through community contributions, if any. Here is a typical run using LLaMA-7B:
And here is another demo of running both LLaMA-7B and whisper.cpp on a single M1 Pro MacBook: UsageHere are the step for the LLaMA-7B model:
LLaMA의 한계와 발전 방향Coming soon. Google USM우리의 인코더는 사전 훈련을 통해 300개 이상의 언어를 통합한다. 우리는 YouTube Caption의 다국어 음성 데이터에 대한 미세 조정을 통해 사전 훈련된 인코더의 효과를 입증한다. 감독된 유튜브 데이터는 73개 언어를 포함하고 있으며 언어당 평균 3,000시간 미만의 데이터를 가지고 있다. 제한된 감독 데이터에도 불구하고, 이 모델은 73개 언어에서 평균 30% 미만의 단어 오류율(WER; 낮은 것이 더 좋다)을 달성하며, 이는 우리가 이전에 달성한 적이 없는 이정표이다. en-US의 경우 USM은 현재 내부 최첨단 모델에 비해 상대적으로 WER이 6% 낮다. 마지막으로, 우리는 최근 출시된 대형 모델인 Whisper(large-v2)와 비교하는데, 이 모델은 40만 시간 이상의 레이블링된 데이터로 훈련되었다. 비교를 위해, 우리는 위스퍼가 40% 미만의 WER로 성공적으로 디코딩할 수 있는 18개 언어만 사용한다. 우리 모델은 이러한 18개 언어의 Whisper에 비해 평균적으로 32.7% 낮은 WER을 가지고 있다. -- Google USM: Scaling Automatic Speech Recognition Beyond 100 LanguagesYu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Françoise Beaufays, Yonghui Wu Key insights and lessons learned from the paper include: Multilingual pre-training with random-projection quantization and speech-text modality matching can achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. How does USM compare to other large-scale multilingual speech recognition models, such as Facebook's wav2vec and wav2vec 2.0 models? Investigate the transfer learning capabilities of USM for other natural language processing tasks, such as text classification or named entity recognition. Baevski, A., & Auli, M. (2020). wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations. arXiv preprint arXiv:2006.11477. MuAViC뭐가 더 좋은지 확인 요망. API 신청 완료. 대부분 + 다국어는 구글, 이상 값은 메타?
|
(오랜만에 돌아왔습니다..) Upcoming Conferences/Deadlines
Papers (emphasis on diffusion models)
|
소식
논문
|
Hyena Hierarchy: Towards Larger Convolutional Language Models Blog: https://hazyresearch.stanford.edu/blog/2023-03-07-hyena |
No description provided.
The text was updated successfully, but these errors were encountered: