This page lists the models and datasets registered with Haggingface that are specific to Japanese NLP. At present, 1050 models and 356 datasets are listed.
English | 日本語 (Japanese) | 繁體中文 (Chinese) | 简体中文 (Chinese)
Models 12 models have been added.
- dahara1/Qwen2.5-3B-Instruct-gguf-japanese-imatrix-128K
- mmnga/tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf
- tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2
- litagin/anime-whisper
- tokyotech-llm/Llama-3.1-Swallow-8B-v0.2
- hakuhodo-tech/japanese-clip-vit-h-14-bert-base
- Mizuiro-sakura/luke-japanese-large-finetuned-QA
- llm-jp/llm-jp-3-172b-beta2-instruct2
- Nikolajvestergaard/Japanese_Fine_Tuned_Whisper_Model
- sbtom/karakuri-midroze-mg
- furnqse/elyza-fork2
- sbtom/karakuri-midrose-CV
Datasets 11 datasets have been added.
- Kendamarron/multiturn-qwen2.5-32b
- FrancophonIA/Jibiki_fr_ja
- weblab-GENIAC/aya-ja-nemotron-dpo-masked
- hpprc/mmarco-ja
- weblab-GENIAC/OpenBookQA-Japanese-masked
- weblab-GENIAC/Open-Platypus-Japanese-masked
- weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked
- weblab-GENIAC/jwinogrande
- weblab-GENIAC/jbbh
- weblab-GENIAC/jarc
- weblab-GENIAC/jhellaswag
This list is sorted by downloads as of November 19, 2024. 1050 models are listed.
- tohoku-nlp/bert-base-japanese
- BERT base Japanese (IPA dictionary)
- Downloads: 2,194,076
- jonatasgrosman/wav2vec2-large-xlsr-53-japanese
- Fine-tuned XLSR-53 large model for speech recognition in Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the train and validation splits of Common Voice 6.1, CSS10 and JSUT.
- Downloads: 1,288,000
- tsmatz/xlm-roberta-ner-japanese
- xlm-roberta-ner-japanese (Japanese caption : 日本語の固有表現抽出のモデル)
- Downloads: 1,215,060
- rinna/japanese-cloob-vit-b-16
- rinna/japanese-cloob-vit-b-16
- Downloads: 443,901
- OrionStarAI/Orion-14B-Base
- Orion-14B 🌐English | 🇨
- Downloads: 331,870
- tohoku-nlp/bert-base-japanese-whole-word-masking
- BERT base Japanese (IPA dictionary, whole word masking enabled)
- Downloads: 323,271
- tohoku-nlp/bert-base-japanese-v3
- BERT base Japanese (unidic-lite with whole word masking, CC-100 and jawiki-20230102)
- Downloads: 302,213
- reazon-research/reazonspeech-nemo-v2
- reazonspeech-nemo-v2 reazonspeech-nemo-v2 is an automatic speech recognition model trained on ReazonSpeech v2.0 corpus.
- Downloads: 246,485
- sonoisa/sentence-bert-base-ja-mean-tokens-v2
- This is a Japanese sentence-BERT model.
- Downloads: 163,111
- tohoku-nlp/bert-base-japanese-char
- BERT base Japanese (character tokenization)
- Downloads: 127,567
- pkshatech/GLuCoSE-base-ja
- GLuCoSE (General Luke-based Contrastive Sentence Embedding)-base-Japanese 日本語のREADME/Japanese README GLuCoSE (General LUke-based COntrastive Sentence Embedding, "glucose") is a Japanese text embedding model based on LUKE.
- Downloads: 118,515
- tohoku-nlp/bert-base-japanese-char-v2
- BERT base Japanese (character-level tokenization with whole word masking, jawiki-20200831)
- Downloads: 115,342
- tohoku-nlp/bert-base-japanese-char-v3
- BERT base Japanese (character-level tokenization with whole word masking, CC-100 and jawiki-20230102)
- Downloads: 113,900
- kha-white/manga-ocr-base
- Manga OCR Optical character recognition for Japanese text, with the main focus being Japanese manga.
- Downloads: 79,047
- sonoisa/sentence-bert-base-ja-mean-tokens
- This is a Japanese sentence-BERT model.
- Downloads: 71,679
- rinna/japanese-hubert-base
- rinna/japanese-hubert-base Overview This is a Japanese HuBERT Base model trained by rinna Co.
- Downloads: 66,634
- staka/fugumt-en-ja
- FuguMT
- Downloads: 61,347
- elyza/Llama-3-ELYZA-JP-8B-GGUF
- Llama-3-ELYZA-JP-8B-GGUF Model Description Llama-3-ELYZA-JP-8B is a large language model trained by ELYZA, Inc.
- Downloads: 57,339
- rinna/japanese-clip-vit-b-16
- rinna/japanese-clip-vit-b-16
- Downloads: 56,757
- staka/fugumt-ja-en
- FuguMT
- Downloads: 56,294
- llm-book/bert-base-japanese-v3-ner-wikipedia-dataset
- llm-book/bert-base-japanese-v3-ner-wikipedia-dataset 「大規模言語モデル入門」の第6章で紹介している固有表現認識のモデルです。
- Downloads: 53,432
- elyza/Llama-3-ELYZA-JP-8B
- Llama-3-ELYZA-JP-8B Model Description Llama-3-ELYZA-JP-8B is a large language model trained by ELYZA, Inc.
- Downloads: 52,784
- pkshatech/GLuCoSE-base-ja-v2
- GLuCoSE v2
- Downloads: 51,855
- sociocom/MedNER-CR-JA
- This is a model for named entity recognition of Japanese medical documents.
- Downloads: 48,903
- ku-nlp/deberta-v2-base-japanese
- Model Card for Japanese DeBERTa V2 base Model description This is a Japanese DeBERTa V2 base model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 45,161
- mmnga/tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.1-gguf
- tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.1-gguf tokyotech-llmさんが公開しているLlama-3.1-Swallow-8B-Instruct-v0.1のggufフォーマット変換版です。
- Downloads: 43,325
- colorfulscoop/sbert-base-ja
- Sentence BERT base Japanese model This repository contains a Sentence BERT base model for Japanese.
- Downloads: 39,583
- tohoku-nlp/bert-base-japanese-v2
- BERT base Japanese (unidic-lite with whole word masking, jawiki-20200831)
- Downloads: 39,109
- ku-nlp/deberta-v2-large-japanese-char-wwm
- Model Card for Japanese character-level DeBERTa V2 large Model description This is a Japanese DeBERTa V2 large model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 35,524
- line-corporation/clip-japanese-base
- clip-japanese-base This is a Japanese CLIP (Contrastive Language-Image Pre-training) model developed by LY Corporation.
- Downloads: 34,877
- tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.1
- Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 31,349
- alfredplpl/gemma-2-2b-jpn-it-gguf
- Model Card For gemma-2-2b-jpn-it-gguf Googleさんのgemma-2-2b-jpn-itを量子化したものたちです。
- Downloads: 25,109
- christian-phu/bert-finetuned-japanese-sentiment
- bert-finetuned-japanese-sentiment This model is a fine-tuned version of cl-tohoku/bert-base-japanese-v2 on product amazon reviews japanese dataset.
- Downloads: 22,113
- rinna/japanese-gpt2-medium
- japanese-gpt2-medium This repository provides a medium-sized Japanese GPT-2 model.
- Downloads: 19,822
- retrieva-jp/t5-large-medium
- Model card for model ID
- Downloads: 16,866
- jarvisx17/japanese-sentiment-analysis
- japanese-sentiment-analysis This model was trained from scratch on the chABSA dataset.
- Downloads: 16,330
- elyza/ELYZA-japanese-Llama-2-7b-instruct
- ELYZA-japanese-Llama-2-7b Model Description ELYZA-japanese-Llama-2-7b は、 Llama2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 14,978
- tokyotech-llm/Swallow-7b-instruct-v0.1
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 14,099
- nlp-waseda/roberta-base-japanese-with-auto-jumanpp
- nlp-waseda/roberta-base-japanese-with-auto-jumanpp Model description
- Downloads: 13,988
- MCZK/EZO-gemma-2-2b-jpn-it-GGUF
- AXCXEPT様の AXCXEPT/EZO-gemma-2-2b-jpn-it をGGUF形式に変換したものです。
- Downloads: 13,791
- tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.1
- Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 13,763
- megagonlabs/transformers-ud-japanese-electra-base-ginza-510
- transformers-ud-japanese-electra-ginza-510 (sudachitra-wordpiece, mC4 Japanese)
- Downloads: 13,278
- augmxnt/shisa-gamma-7b-v1
- shisa-gamma-7b-v1 For more information see our main Shisa 7B model We applied a version of our fine-tune data set onto Japanese Stable LM Base Gamma 7B and it performed pretty well, just sharing since it might be of interest.
- Downloads: 12,481
- rinna/japanese-gpt-neox-3.6b
- japanese-gpt-neox-3.6b Overview This repository provides a Japanese GPT-NeoX model of 3.6 billion parameters.
- Downloads: 12,479
- setu4993/LaBSE
- LaBSE Model description Language-agnostic BERT Sentence Encoder (LaBSE) is a BERT-based model trained for sentence embedding for 109 languages.
- Downloads: 11,810
- rinna/japanese-roberta-base
- japanese-roberta-base This repository provides a base-sized Japanese RoBERTa model.
- Downloads: 11,492
- tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1
- Llama3 Swallow - Built with Meta Llama 3
- Downloads: 11,446
- KoichiYasuoka/bert-base-japanese-upos
- bert-base-japanese-upos Model Description
- Downloads: 11,247
- tokyotech-llm/Swallow-7b-instruct-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 10,341
- studio-ousia/luke-japanese-large
- luke-japanese-large luke-japanese is the Japanese version of LUKE (Language Understanding with Knowledge-based Embeddings), a pre-trained knowledge-enhanced contextualized representation of words and entities.
- Downloads: 10,092
- stabilityai/japanese-stablelm-base-beta-7b
- Japanese-StableLM-Base-Beta-7B A cute robot wearing a kimono writes calligraphy with one single brush — Stable Diffusion XL Model Description japanese-stablelm-base-beta-7b is a 7B-parameter decoder-only language model based on Llama-2-7b that has been fine-tuned on a diverse collection of Japanese data, with the intent of maximizing downstream performance on Japanese language tasks.
- Downloads: 10,006
- sazyou-roukaku/BracingEvoMix
- License:CreativeML Open RAIL-M Additional Copyright: sazyou_roukaku (TwitterID @sazyou_roukaku) as of May 31, 2023 このモデルは『CreativeML Open RAIL-M』でLicenseそのものに変更はありません。
- Downloads: 9,993
- dahara1/Qwen2.5-3B-Instruct-gguf-japanese-imatrix-128K
- 本モデルについて about this model.
- Downloads: 9,965
- line-corporation/line-distilbert-base-japanese
- LINE DistilBERT Japanese This is a DistilBERT model pre-trained on 131 GB of Japanese web text.
- Downloads: 9,775
- sonoisa/t5-base-japanese
- 日本語T5事前学習済みモデル This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.
- Downloads: 9,320
- alfredplpl/gemma-2-baku-2b-it-gguf
- Model Card For gemma-2-2b-jpn-it-gguf rinnaさんのgemma-2-baku-2b-itを量子化したものたちです。
- Downloads: 8,810
- kotoba-tech/kotoba-whisper-v2.0
- Kotoba-Whisper (v2.0)
- Downloads: 8,655
- tokyotech-llm/Llama-3.1-Swallow-8B-v0.1
- Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 8,043
- rinna/japanese-gpt-neox-small
- japanese-gpt-neox-small This repository provides a small-sized Japanese GPT-NeoX model.
- Downloads: 8,032
- cyberagent/open-calm-7b
- OpenCALM-7B Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by
- Downloads: 6,675
- tohoku-nlp/bert-large-japanese-v2
- BERT large Japanese (unidic-lite with whole word masking, CC-100 and jawiki-20230102)
- Downloads: 6,663
- jurabi/bert-ner-japanese
- BERTによる日本語固有表現抽出のモデル BertForTokenClassificationを用いて、日本語の文から固有表現を抽出します。
- Downloads: 6,603
- stabilityai/japanese-stablelm-base-gamma-7b
- Japanese Stable LM Base Gamma 7B Model Description
- Downloads: 6,279
- oshizo/sbert-jsnli-luke-japanese-base-lite
- sbert-jsnli-luke-japanese-base-lite This is a sentence-transformers model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search.
- Downloads: 5,781
- llm-jp/llm-jp-3-1.8b
- llm-jp-3-1.8b
- Downloads: 5,478
- elyza/ELYZA-japanese-Llama-2-7b-fast-instruct
- ELYZA-japanese-Llama-2-7b Model Description ELYZA-japanese-Llama-2-7b は、 Llama2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 5,272
- kotoba-tech/kotoba-whisper-v2.1
- Kotoba-Whisper-v2.1 Kotoba-Whisper-v2.1 is a Japanese ASR model based on kotoba-tech/kotoba-whisper-v2.0, with additional postprocessing stacks integrated as pipeline.
- Downloads: 5,093
- rinna/japanese-gpt-neox-3.6b-instruction-ppo
- japanese-gpt-neox-3.6b-instruction-ppo Overview This repository provides a Japanese GPT-NeoX model of 3.6 billion parameters.
- Downloads: 5,078
- mmnga/Fugaku-LLM-13B-instruct-gguf
- Fugaku-LLM-13B-instruct-gguf Fugaku-LLMさんが公開しているFugaku-LLM-13B-instructのggufフォーマット変換版です。
- Downloads: 4,795
- llm-jp/llm-jp-3-13b-instruct
- llm-jp-3-13b-instruct This repository provides large language models developed by the Research and Development Center for Large Language Models at the National Institute of Informatics.
- Downloads: 4,773
- rinna/japanese-gpt2-small
- japanese-gpt2-small This repository provides a small-sized Japanese GPT-2 model.
- Downloads: 4,758
- Lasorco/lametta
- このモデルは何?
- Downloads: 4,533
- tokyotech-llm/Llama-3-Swallow-8B-v0.1
- Llama3 Swallow - Built with Meta Llama 3
- Downloads: 4,381
- llm-book/bert-base-japanese-v3-jsts
- bert-base-japanese-v3-jsts 「大規模言語モデル入門」の第5章で紹介している(意味類似度計算)のモデルです。
- Downloads: 4,302
- ku-nlp/deberta-v2-base-japanese-char-wwm
- Model Card for Japanese character-level DeBERTa V2 base Model description This is a Japanese DeBERTa V2 base model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 4,223
- cyberagent/open-calm-small
- OpenCALM-Small Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by
- Downloads: 4,211
- sonoisa/sentence-luke-japanese-base-lite
- This is a Japanese sentence-LUKE model.
- Downloads: 4,099
- bclavie/JaColBERT
- このドキュメントの日本語版はまだ作成中です。
- Downloads: 3,816
- tokyotech-llm/Swallow-70b-instruct-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 3,694
- tohoku-nlp/bert-base-japanese-char-whole-word-masking
- BERT base Japanese (character tokenization, whole word masking enabled)
- Downloads: 3,626
- tokyotech-llm/Swallow-7b-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 3,599
- elyza/ELYZA-japanese-CodeLlama-7b
- ELYZA-japanese-CodeLlama-7b Model Description ELYZA-japanese-CodeLlama-7b は、 Code Llamaをベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 3,415
- tokyotech-llm/Swallow-13b-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 3,365
- kotoba-tech/kotoba-whisper-v1.1
- Kotoba-Whisper-v1.1 Kotoba-Whisper-v1.1 is a Japanese ASR model based on kotoba-tech/kotoba-whisper-v1.0, with additional postprocessing stacks integrated as pipeline.
- Downloads: 3,359
- pkshatech/simcse-ja-bert-base-clcmlp
- Japanese SimCSE (BERT-base)
- Downloads: 3,260
- stockmark/stockmark-13b
- stockmark/stockmark-13b Stockmark-13b is a 13 billion parameter LLM pretrained from scratch based on Japanese corpus of about 220B tokens.
- Downloads: 3,248
- kotoba-tech/kotoba-whisper-v2.2
- Kotoba-Whisper-v2.2 Kotoba-Whisper-v2.2 is a Japanese ASR model based on kotoba-tech/kotoba-whisper-v2.0, with additional postprocessing stacks integrated as pipeline.
- Downloads: 3,201
- mmnga/aibuncho-japanese-novel-gpt-j-6b-gguf
- AIBunCho/japanese-novel-gpt-j-6b AI BunChoさんが公開しているjapanese-novel-gpt-j-6bのgguf変換版です。
- Downloads: 3,120
- FINGU-AI/FinguAI-Chat-v1
- FINGU-AI/FinguAI-Chat-v1 Overview The FINGU-AI/FinguAI-Chat-v1 model offers a specialized curriculum tailored to English, Korean, and Japanese speakers interested in finance, investment, and legal frameworks.
- Downloads: 3,091
- sazyou-roukaku/chilled_remix
- 【告知】chilled_remix及びreversemixは2023年5月21日にVersion変更を行い、v2へ移行いたしました。
- Downloads: 3,081
- llm-book/bert-base-japanese-v3-unsup-simcse-jawiki
- bert-base-japanese-v3-unsup-simcse-jawiki 「大規模言語モデル入門」の第8章で紹介している教師なしSimCSEのモデルです。
- Downloads: 3,045
- rinna/japanese-gpt-1b
- japanese-gpt-1b This repository provides a 1.3B-parameter Japanese GPT model.
- Downloads: 2,937
- cl-nagoya/ruri-large
- Ruri: Japanese General Text Embeddings Usage First install the Sentence Transformers library: pip install -U sentence-transformers fugashi sentencepiece unidic-lite Then you can load this model and run inference.
- Downloads: 2,889
- rinna/bilingual-gpt-neox-4b
- bilingual-gpt-neox-4b Overview This repository provides an English-Japanese bilingual GPT-NeoX model of 3.8 billion parameters.
- Downloads: 2,846
- rinna/japanese-wav2vec2-base
- rinna/japanese-wav2vec2-base Overview This is a Japanese wav2vec 2.0 Base model trained by rinna Co.
- Downloads: 2,822
- FunAudioLLM/SenseVoiceSmall
- (简体中文|English|日本語) Introduction github repo : https://github.com/FunAudioLLM/SenseVoice SenseVoice is a speech foundation model with multiple speech understanding capabilities, including automatic speech recognition (ASR), spoken language identification (LID), speech emotion recognition (SER), and audio event detection (AED).
- Downloads: 2,817
- elyza/ELYZA-japanese-Llama-2-7b
- ELYZA-japanese-Llama-2-7b Model Description ELYZA-japanese-Llama-2-7b は、 Llama2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 2,815
- pkshatech/RoSEtta-base-ja
- RoSEtta RoSEtta (RoFormer-based Sentence Encoder through Distillation) is a general Japanese text embedding model, excelling in retrieval tasks.
- Downloads: 2,738
- hotchpotch/japanese-reranker-cross-encoder-xsmall-v1
- hotchpotch/japanese-reranker-cross-encoder-xsmall-v1 日本語で学習させた Reranker (CrossEncoder) シリーズです。
- Downloads: 2,734
- Mizuiro-sakura/luke-japanese-large-sentiment-analysis-wrime
- このモデルはLuke-japanese-large-liteをファインチューニングしたものです。
- Downloads: 2,721
- mmnga/Ninja-v1-NSFW-128k-gguf
- Ninja-v1-NSFW-128k-gguf Local-Novel-LLM-projectさんが公開しているNinja-v1-NSFW-128kのggufフォーマット変換版です。
- Downloads: 2,712
- rinna/nekomata-14b
- rinna/nekomata-14b Overview We conduct continual pre-training of qwen-14b on 66B tokens from a mixture of Japanese and English datasets.
- Downloads: 2,704
- tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1
- Swallow-MX-8x7b-NVE-v0.1 Our Swallow-MX-8x7b-NVE-v0.1 model has undergone continuous pre-training from the Mixtral-8x7B-Instruct-v0.1, primarily with the addition of Japanese language data.
- Downloads: 2,651
- hotchpotch/japanese-reranker-cross-encoder-large-v1
- hotchpotch/japanese-reranker-cross-encoder-large-v1 日本語で学習させた Reranker (CrossEncoder) シリーズです。
- Downloads: 2,605
- mmnga/ELYZA-japanese-Llama-2-7b-fast-instruct-gguf
- ELYZA-japanese-Llama-2-7b-fast-instruct-gguf ELYZAさんが公開しているELYZA-japanese-Llama-2-7b-fast-instructのggufフォーマット変換版です。
- Downloads: 2,586
- rinna/youri-7b
- rinna/youri-7b Overview We conduct continual pre-training of llama2-7b on 40B tokens from a mixture of Japanese and English datasets.
- Downloads: 2,505
- cyberagent/open-calm-large
- OpenCALM-Large Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by
- Downloads: 2,477
- cyberagent/calm2-7b
- CyberAgentLM2-7B (CALM2-7B)
- Downloads: 2,403
- line-corporation/japanese-large-lm-3.6b
- japanese-large-lm-3.6b
- Downloads: 2,286
- tokyotech-llm/Swallow-70b-instruct-v0.1
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 2,261
- pfnet/plamo-13b
- PLaMo-13B Model Description PLaMo-13B is a LLaMA-based 13B model pre-trained on English and Japanese open datasets, developed by Preferred Networks, Inc.
- Downloads: 2,233
- rinna/japanese-gpt-neox-3.6b-instruction-sft
- japanese-gpt-neox-3.6b-instruction-sft Overview This repository provides a Japanese GPT-NeoX model of 3.6 billion parameters.
- Downloads: 2,203
- cyberagent/open-calm-1b
- OpenCALM-1B Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by
- Downloads: 2,197
- mmnga/tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf
- tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf tokyotech-llmさんが公開しているLlama-3.1-Swallow-8B-Instruct-v0.2のggufフォーマット変換版です。
- Downloads: 2,138
- koshin2001/Japanese-to-emotions
- Japanese to emotions I fine-tuned LINE DistillBERT as the base model using WRIME Ver2 as the teacher data.
- Downloads: 2,094
- mmnga/tokyotech-llm-Llama-3.1-Swallow-70B-Instruct-v0.1-gguf
- tokyotech-llm-Llama-3.1-Swallow-70B-Instruct-v0.1-gguf tokyotech-llmさんが公開しているLlama-3.1-Swallow-70B-Instruct-v0.1のggufフォーマット変換版です。
- Downloads: 2,001
- tohoku-nlp/bert-large-japanese
- BERT large Japanese (unidic-lite with whole word masking, jawiki-20200831)
- Downloads: 1,965
- stabilityai/japanese-stablelm-instruct-beta-70b
- Japanese-StableLM-Instruct-Beta-70B A cute robot wearing a kimono writes calligraphy with one single brush — Stable Diffusion XL Model Description japanese-stablelm-instruct-beta-70b is a 70B-parameter decoder-only language model based on japanese-stablelm-base-beta-70b and further fine tuned on Databricks Dolly-15k, Anthropic HH, and other public data.
- Downloads: 1,958
- TKU410410103/wav2vec2-base-japanese-asr
- wav2vec2-base-asr
- Downloads: 1,935
- weblab-GENIAC/Tanuki-8B-dpo-v1.0
- Tanuki-8B-dpo-v1.0 モデルについて Tanuki-8Bは、フルスクラッチで約1.3Tトークン事前学習を行った約8Bパラメータの大規模言語モデルです。
- Downloads: 1,889
- cl-nagoya/ruri-base
- Ruri: Japanese General Text Embeddings Usage Direct Usage (Sentence Transformers)
- Downloads: 1,863
- recruit-jp/japanese-typo-detector-roberta-base
- recruit-jp/japanese-typo-detector-roberta-base モデルの概要 日本語の文章を入力すると各文字ごとに誤字脱字である確率を出力します 各ラベルの意味は以下の通りです id label meaning 0 OK 誤字なし 1 deletion 1文字の抜け 2 insertion_a 余分な1文字の挿入 3 insertion_b 直前の文字列と一致する2文字以上の余分な文字の挿入 4 kanji-conversion_a 同一の読みを持つ漢字の入れ替え(誤変換) 5 kanji-conversion_b 近い読みを持つ漢字の入れ替え(誤変換) 6 substitution 1文字の入れ替え 7 transposition 隣接する2文字間の転置 8 others その他の入力誤り 誤り種類の詳細については学習データセットの元論文をご参照ください 日本語 Wikipedia の編集履歴に基づく 入力誤りデータセットと訂正システムの改良 その他、モデルの詳細については当社ブログ記事をご参照ください 誤字脱字検出モデルをHugging Face Hubに公開しました (Re
- Downloads: 1,832
- line-corporation/japanese-large-lm-1.7b-instruction-sft
- japanese-large-lm-1.7b-instruction-sft This repository provides a 1.7B parameters Japanese language model, fine-tuned and trained by LINE Corporation.
- Downloads: 1,778
- line-corporation/japanese-large-lm-3.6b-instruction-sft
- japanese-large-lm-3.6b-instruction-sft
- Downloads: 1,760
- mmnga/umiyuki-Umievo-itr012-Gleipnir-7B-gguf
- umiyuki-Umievo-itr012-Gleipnir-7B-gguf umiyukiさんが公開しているUmievo-itr012-Gleipnir-7Bのggufフォーマット変換版です。
- Downloads: 1,749
- elyza/ELYZA-japanese-Llama-2-13b-fast-instruct
- ELYZA-japanese-Llama-2-13b-fast-instruct Model Description ELYZA-japanese-Llama-2-13b は、 Llama 2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 1,729
- upskyy/gte-base-korean
- upskyy/gte-korean-base This model is korsts and kornli finetuning model from Alibaba-NLP/gte-multilingual-base.
- Downloads: 1,728
- llm-book/bert-base-japanese-v3-marc_ja
- bert-base-japanese-v3-marc_ja 「大規模言語モデル入門」の第5章で紹介している(感情分析)のモデルです。
- Downloads: 1,718
- elyza/ELYZA-japanese-Llama-2-13b-fast
- ELYZA-japanese-Llama-2-13b-fast Model Description ELYZA-japanese-Llama-2-13b は、 Llama 2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 1,712
- elyza/Llama-3-ELYZA-JP-8B-AWQ
- Llama-3-ELYZA-JP-8B-AWQ Model Description Llama-3-ELYZA-JP-8B is a large language model trained by ELYZA, Inc.
- Downloads: 1,668
- beomi/gemma-mling-7b
- Gemma-Mling: Multilingual Gemma Update @ 2024.04.15: First release of Gemma-Mling 7B model Original Gemma Model Page:
- Downloads: 1,653
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GGUF
- Tanuki-8B-dpo-v1.0-GGUF 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0のGGUF量子化モデルです。
- Downloads: 1,653
- elyza/ELYZA-japanese-Llama-2-13b-instruct
- ELYZA-japanese-Llama-2-13b Model Description ELYZA-japanese-Llama-2-13b は、 Llama 2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 1,632
- stabilityai/japanese-stablelm-base-alpha-7b
- Japanese-StableLM-Base-Alpha-7B "A parrot able to speak Japanese, ukiyoe, edo period" — Stable Diffusion XL Model Description japanese-stablelm-base-alpha-7b is a 7B-parameter decoder-only language model pre-trained on a diverse collection of Japanese and English datasets which focus on maximizing Japanese language modeling performance and Japanese downstream task performance.
- Downloads: 1,621
- elyza/ELYZA-japanese-Llama-2-7b-fast
- ELYZA-japanese-Llama-2-7b Model Description ELYZA-japanese-Llama-2-7b は、 Llama2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 1,578
- TKU410410103/hubert-base-japanese-asr
- hubert-base-asr
- Downloads: 1,575
- llm-jp/llm-jp-3-3.7b
- llm-jp-3-3.7b
- Downloads: 1,534
- Local-Novel-LLM-project/Vecteus-v1
- Our Models Vecteus Ninja-v1 Ninja-v1-NSFW Ninja-v1-128k Ninja-v1-NSFW-128k Model Card for VecTeus-v1.0 The Mistral-7B--based Large Language Model (LLM) is an noveldataset fine-tuned version of the Mistral-7B-v0.1 VecTeus has the following changes compared to Mistral-7B-v0.1.
- Downloads: 1,531
- KoichiYasuoka/roberta-small-japanese-luw-upos
- roberta-small-japanese-luw-upos Model Description
- Downloads: 1,529
- stabilityai/japanese-stablelm-base-beta-70b
- Japanese-StableLM-Base-Beta-70B A cute robot wearing a kimono writes calligraphy with one single brush — Stable Diffusion XL Model Description japanese-stablelm-base-beta-70b is a 70B-parameter decoder-only language model based on Llama-2-70b that has been fine-tuned on a diverse collection of Japanese data, with the intent of maximizing downstream performance on Japanese language tasks.
- Downloads: 1,520
- stabilityai/japanese-stablelm-instruct-gamma-7b
- Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 1,518
- abeja/gpt-neox-japanese-2.7b
- gpt-neox-japanese-2.7b
- Downloads: 1,497
- abeja/gpt2-large-japanese
- gpt2-large-japanese This repository provides a large sized Japanese GPT-2 model.
- Downloads: 1,490
- cyberagent/open-calm-medium
- OpenCALM-Medium Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by
- Downloads: 1,487
- cyberagent/open-calm-3b
- OpenCALM-3B Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by
- Downloads: 1,466
- tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2
- Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 1,464
- tokyotech-llm/Swallow-7b-plus-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,454
- rinna/japanese-gpt-neox-3.6b-instruction-sft-v2
- japanese-gpt-neox-3.6b-instruction-sft-v2 Overview
- Downloads: 1,432
- tokyotech-llm/Swallow-7b-NVE-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,424
- QuantFactory/Mistral-Nemo-Japanese-Instruct-2408-GGUF
- QuantFactory/Mistral-Nemo-Japanese-Instruct-2408-GGUF This is quantized version of cyberagent/Mistral-Nemo-Japanese-Instruct-2408 created using llama.cpp Original Model Card Mistral-Nemo-Japanese-Instruct-2408 Model Description
- Downloads: 1,404
- mmnga/ELYZA-japanese-Llama-2-7b-instruct-gguf
- ELYZA-japanese-Llama-2-7b-instruct-gguf ELYZAさんが公開しているELYZA-japanese-Llama-2-7b-instructのggufフォーマット変換版です。
- Downloads: 1,403
- webbigdata/gemma-2-2b-jpn-it-translate-gguf
- Model Card for gemma-2-2b-jpn-it-translate-gguf gemma-2-2b-jpn-it-translate-ggufは、日英・英日翻訳タスクに特化したSLM(Small Language Model)です。
- Downloads: 1,393
- rinna/bilingual-gpt-neox-4b-instruction-ppo
- bilingual-gpt-neox-4b-instruction-ppo Overview This repository provides an English-Japanese bilingual GPT-NeoX model of 3.8 billion parameters.
- Downloads: 1,371
- hotchpotch/japanese-reranker-cross-encoder-base-v1
- hotchpotch/japanese-reranker-cross-encoder-base-v1 日本語で学習させた Reranker (CrossEncoder) シリーズです。
- Downloads: 1,360
- mmnga/Vecteus-v1-gguf
- Vecteus-v1-gguf Local-Novel-LLM-projectさんが公開しているVecteus-v1のggufフォーマット変換版です。
- Downloads: 1,358
- elyza/ELYZA-japanese-Llama-2-13b
- ELYZA-japanese-Llama-2-13b Model Description ELYZA-japanese-Llama-2-13b は、 Llama 2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 1,338
- augmxnt/shisa-7b-v1
- Shisa 7B Shisa 7B (shisa-7b-v1)
- Downloads: 1,329
- mmnga/c4ai-command-r-plus-gguf
- c4ai-command-r-plus-gguf CohereForAIさんが公開しているc4ai-command-r-plusのggufフォーマット変換版です。
- Downloads: 1,320
- augmxnt/shisa-base-7b-v1
- shisa-base-7b-v1 shisa-base-7b-v1 takes Mistral 7B and adds an additional 8B tokens of primarily Japanese pre-training.
- Downloads: 1,296
- mmnga/ELYZA-japanese-CodeLlama-7b-instruct-gguf
- ELYZA-japanese-CodeLlama-7b-instruct-gguf ELYZAさんが公開しているELYZA-japanese-CodeLlama-7b-instructのggufフォーマット変換版です。
- Downloads: 1,258
- tokyotech-llm/Llama-3-Swallow-70B-Instruct-v0.1
- Llama3 Swallow - Built with Meta Llama 3
- Downloads: 1,247
- stabilityai/japanese-stablelm-instruct-beta-7b
- Japanese-StableLM-Instruct-Beta-7B A cute robot wearing a kimono writes calligraphy with one single brush — Stable Diffusion XL Model Description japanese-stablelm-instruct-beta-7b is a 7B-parameter decoder-only language model based on
- Downloads: 1,243
- tokyotech-llm/Swallow-70b-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,236
- karakuri-ai/karakuri-lm-70b-v0.1
- KARAKURI LM KARAKURI LM is a pretrained language model that builds upon Llama 2.
- Downloads: 1,218
- stabilityai/japanese-stablelm-instruct-alpha-7b-v2
- Japanese-StableLM-Instruct-Alpha-7B-v2 "A parrot able to speak Japanese, ukiyoe, edo period" — Stable Diffusion XL Model Description japanese-stablelm-instruct-alpha-7b-v2 is a 7B parameter decoder-only language models pre-trained built on top of the Japanese-StableLM-Base-Alpha-7B model and further fine-tuned on various instruction-following datasets.
- Downloads: 1,212
- mmnga/line-corp-japanese-large-lm-1.7b-instruction-sft-gguf
- line-corporation/japanese-large-lm-1.7b-instruction-sft line-corporationさんが公開しているjapanese-large-lm-1.7b-instruction-sftのgguf変換版です。
- Downloads: 1,210
- mmnga/ELYZA-japanese-Llama-2-7b-fast-gguf
- ELYZA-japanese-Llama-2-7b-fast-gguf ELYZAさんが公開しているELYZA-japanese-Llama-2-7b-fastのggufフォーマット変換版です。
- Downloads: 1,202
- macadeliccc/polyglot-math-4x7b
- Polyglot-math-4x7b-24b Polyglot-4x7b is a Mixture of Experts approach to a multilingual model.
- Downloads: 1,201
- cyberagent/Llama-3.1-70B-Japanese-Instruct-2407
- Llama-3.1-70B-Japanese-Instruct-2407 Model Description This is a Japanese continually pre-trained model based on meta-llama/Meta-Llama-3.1-70B-Instruct.
- Downloads: 1,180
- stockmark/gpt-neox-japanese-1.4b
- stockmark/gpt-neox-japanese-1.4b This repository provides a GPT-NeoX based model with 1.4B parameters pre-trained on Japanese corpus of about 20B tokens.
- Downloads: 1,177
- tokyotech-llm/Swallow-13b-instruct-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,174
- mmnga/ELYZA-japanese-Llama-2-13b-fast-instruct-gguf
- ELYZA-japanese-Llama-2-13b-fast-instruct-gguf ELYZAさんが公開しているELYZA-japanese-Llama-2-13b-fast-instructのggufフォーマット変換版です。
- Downloads: 1,172
- nlp-waseda/roberta-base-japanese
- nlp-waseda/roberta-base-japanese Model description This is a Japanese RoBERTa base model pretrained on Japanese Wikipedia and the Japanese portion of CC-100.
- Downloads: 1,169
- Mizuiro-sakura/luke-japanese-base-finetuned-ner
- このモデルはluke-japanese-baseをファインチューニングして、固有表現抽出(NER)に用いれるようにしたものです。
- Downloads: 1,154
- stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b
- Japanese-StableLM-Instruct-JAVocab-Beta-7B A cute robot wearing a kimono writes calligraphy with one single brush — Stable Diffusion XL Model Description japanese-stablelm-instruct-ja_vocab-beta-7b is a 7B-parameter decoder-only language model based on japanese-stablelm-ja_vocab-beta-7b and further fine tuned on Databricks Dolly-15k, Anthropic HH, and other public data.
- Downloads: 1,138
- stabilityai/japanese-stablelm-base-ja_vocab-beta-7b
- Japanese-StableLM-Base-JAVocab-Beta-7B A cute robot wearing a kimono writes calligraphy with one single brush — Stable Diffusion XL Model Description japanese-stablelm-base-ja_vocab-beta-7b is a 7B-parameter decoder-only language model based on Llama-2-7b that has been fine-tuned on a diverse collection of Japanese data, with the intent of maximizing downstream performance on Japanese language tasks.
- Downloads: 1,114
- sociocom/MedNERN-CR-JA
- This is a model for named entity recognition of Japanese medical documents.
- Downloads: 1,113
- stockmark/stockmark-13b-instruct
- Stockmark-13b-instruct Stockmark-13b-instruct is an instruction-tuned version of Stockmark-13b, a 13 billion parameter Japanese LLM.
- Downloads: 1,091
- rinna/gemma-2-baku-2b
- Gemma 2 Baku 2B (rinna/gemma-2-baku-2b)
- Downloads: 1,076
- rinna/nekomata-7b
- rinna/nekomata-7b Overview We conduct continual pre-training of qwen-7b on 30B tokens from a mixture of Japanese and English datasets.
- Downloads: 1,072
- karakuri-ai/karakuri-lm-70b-chat-v0.1
- KARAKURI LM KARAKURI LM is a pretrained language model that builds upon Llama 2.
- Downloads: 1,066
- tokyotech-llm/Swallow-7b-NVE-instruct-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,050
- cheonboy/sentence_embedding_japanese
- This is a Japanese sentence-LUKE model.
- Downloads: 1,045
- tokyotech-llm/Swallow-13b-NVE-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,038
- sarulab-speech/hubert-base-jtube
- hubert-base-jtube This repo provides model weights for the hubert-base model trained on the JTubeSpeech corpus.
- Downloads: 1,036
- tokyotech-llm/Swallow-70b-NVE-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 1,032
- llm-jp/llm-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1
- llm-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1
- Downloads: 1,031
- ku-nlp/deberta-v2-large-japanese
- Model Card for Japanese DeBERTa V2 large Model description This is a Japanese DeBERTa V2 large model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 1,019
- sonoisa/t5-base-japanese-v1.1
- 日本語T5事前学習済みモデル This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.
- Downloads: 1,013
- hotchpotch/japanese-bge-reranker-v2-m3-v1
- hotchpotch/japanese-bge-reranker-v2-m3-v1 日本語で学習させた Reranker (CrossEncoder) シリーズです。
- Downloads: 999
- sonoisa/t5-base-japanese-question-generation
- 回答と回答が出てくるパラグラフを与えると質問文を生成するモデル SEE: https://github.com/sonoisa/deep-question-generation 本モデルの作成ステップ概要 SQuAD 1.1を日本語に機械翻訳し、不正なデータをクレンジング(有効なデータは約半分)。
- Downloads: 992
- hotchpotch/japanese-splade-base-v1
- 高性能な日本語 SPLADE (Sparse Lexical and Expansion Model) モデルです。
- Downloads: 990
- tokyotech-llm/Swallow-70b-NVE-instruct-hf
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 989
- stockmark/stockmark-100b
- stockmark/stockmark-100b Stockmark-100b is a 100 billion parameter LLM pretrained from scratch based on Japanese and English corpus of about 910 billion tokens.
- Downloads: 982
- elyza/ELYZA-japanese-CodeLlama-7b-instruct
- ELYZA-japanese-CodeLlama-7b Model Description ELYZA-japanese-CodeLlama-7b は、 Code Llamaをベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 967
- mmnga/japanese-stablelm-2-instruct-1_6b-gguf
- japanese-stablelm-2-instruct-1_6b-gguf stabilityaiさんが公開しているjapanese-stablelm-2-instruct-1_6bのggufフォーマット変換版です。
- Downloads: 944
- tsmatz/mt5_summarize_japanese
- mt5_summarize_japanese (Japanese caption : 日本語の要約のモデル)
- Downloads: 939
- OrionStarAI/Orion-14B-Chat
- Orion-14B 🌐English | 🇨
- Downloads: 913
- rinna/japanese-hubert-large
- rinna/japanese-hubert-large Overview This is a Japanese HuBERT Large model trained by rinna Co.
- Downloads: 911
- mmnga/ELYZA-japanese-Llama-2-7b-gguf
- ELYZA-japanese-Llama-2-7b-gguf ELYZAさんが公開しているELYZA-japanese-Llama-2-7bのggufフォーマット変換版です。
- Downloads: 911
- ascktgcc/Mistral-nemo-ja-rp-v0.2-GGUF
- ascktgcc/Mistral-nemo-ja-rp-v0.2のGGUF版です。
- Downloads: 906
- ku-nlp/deberta-v3-base-japanese
- Model Card for Japanese DeBERTa V3 base Model description This is a Japanese DeBERTa V3 base model pre-trained on LLM-jp corpus v1.0.
- Downloads: 900
- cl-nagoya/ruri-reranker-base
- Ruri-Reranker: Japanese General Reranker Usage Direct Usage (Sentence Transformers)
- Downloads: 882
- ku-nlp/gpt2-small-japanese-char
- Model Card for Japanese character-level GPT-2 Small Model description This is a Japanese character-level GPT-2 Small (90M parameters) language model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 880
- mmnga/Llama-3-Swallow-70B-Instruct-v0.1-gguf
- Llama-3-Swallow-70B-Instruct-v0.1-gguf tokyotech-llmさんが公開しているLlama-3-Swallow-70B-Instruct-v0.1のggufフォーマット変換版です。
- Downloads: 875
- dahara1/weblab-10b-instruction-sft-GPTQ
- weblab-10b-instruction-sft-GPTQ Original model weblab-10b-instruction-sft which is a Japanese-centric multilingual GPT-NeoX model of 10 billion parameters created by matsuo-lab Takeshi Kojima.
- Downloads: 868
- retrieva-jp/t5-large-short
- Model card for model ID
- Downloads: 860
- rinna/bilingual-gpt-neox-4b-8k
- bilingual-gpt-neox-4b-8k Overview Notice: This model requires transformers>=4.31.0 to work properly.
- Downloads: 857
- rinna/japanese-gpt2-xsmall
- japanese-gpt2-xsmall
- Downloads: 851
- ku-nlp/bart-base-japanese
- Model Card for Japanese BART base Model description This is a Japanese BART base model pre-trained on Japanese Wikipedia.
- Downloads: 849
- mmnga/Llama-3-Swallow-8B-Instruct-v0.1-gguf
- Llama-3-Swallow-8B-Instruct-v0.1-gguf tokyotech-llmさんが公開しているLlama-3-Swallow-8B-Instruct-v0.1のggufフォーマット変換版です。
- Downloads: 848
- ku-nlp/gpt2-medium-japanese-char
- Model Card for Japanese character-level GPT-2 Medium Model description This is a Japanese character-level GPT-2 Medium (310M parameters) language model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 843
- nlp-waseda/gpt2-xl-japanese
- nlp-waseda/gpt2-xl-japanese This is Japanese GPT2 with approximately 1.5B parameters pretrained on Japanese Wikipedia and CC-100
- Downloads: 836
- dahara1/gemma-2-2b-jpn-it-gguf-japanese-imatrix
- 本モデルについて About this model.
- Downloads: 816
- mmnga/line-corp-japanese-large-lm-1.7b-gguf
- line-corporation/japanese-large-lm-1.7b line-corporationさんが公開しているjapanese-large-lm-1.7bのgguf変換版です。
- Downloads: 814
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-AWQ
- Tanuki-8B-dpo-v1.0-AWQ 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0のAWQ 4bit量子化モデルです。
- Downloads: 813
- line-corporation/japanese-large-lm-1.7b
- japanese-large-lm-1.7b This repository provides a 1.7B parameters Japanese language model, trained by LINE Corporation.
- Downloads: 811
- cyberagent/Mistral-Nemo-Japanese-Instruct-2408
- Mistral-Nemo-Japanese-Instruct-2408 Model Description
- Downloads: 803
- grapevine-AI/gemma-2-2b-jpn-it-gguf
- What is this?
- Downloads: 793
- dahara1/ELYZA-japanese-Llama-2-7b-fast-instruct-GPTQ
- Model Card for Model ID Original model elyza/ELYZA-japanese-Llama-2-7b-fast-instruct which is based on Meta's "Llama 2" and has undergone additional pre-training in Japanese, and thier original post-training and speed up tuning.
- Downloads: 783
- KoichiYasuoka/bert-large-japanese-upos
- bert-large-japanese-upos Model Description
- Downloads: 754
- llm-book/bert-base-japanese-v3-jnli
- bert-base-japanese-v3-jnli 「大規模言語モデル入門」の第5章で紹介している(自然言語推論)のモデルです。
- Downloads: 740
- nlp-waseda/roberta-large-japanese
- nlp-waseda/roberta-large-japanese Model description This is a Japanese RoBERTa large model pretrained on Japanese Wikipedia and the Japanese portion of CC-100.
- Downloads: 740
- ku-nlp/roberta-base-japanese-char-wwm
- ku-nlp/roberta-base-japanese-char-wwm Model description This is a Japanese RoBERTa base model pre-trained on Japanese Wikipedia and the Japanese portion of CC-100.
- Downloads: 735
- ascktgcc/Mistral-nemo-ja-rp-v0.1
- Mistral-nemoをEPR用途向けにファインチューニングしたモデルです 使用したデータセットの半分ほどが日本語なのでmagnumのようなモデルよりも日本語には強いはず?
- Downloads: 727
- watashiha/watashiha-gpt-6b
- モデル概要 AWSのtrn1インスタンスを用いて開発した大喜利言語モデルです。
- Downloads: 707
- ganchengguang/Yoko-7B-Japanese-v0
- This model is traned with guanaco dataset.
- Downloads: 701
- QuantFactory/plamo-13b-GGUF
- QuantFactory/plamo-13b-GGUF
- Downloads: 697
- TKU410410103/hubert-large-japanese-asr
- hubert-large-asr
- Downloads: 697
- mmnga/stockmark-gpt-neox-japanese-1.4b-gguf
- stockmark-gpt-neox-japanese-1.4b-gguf stockmarkさんが公開しているgpt-neox-japanese-1.4bのggufフォーマット変換版です。
- Downloads: 693
- TheBloke/japanese-stablelm-instruct-beta-70B-GGUF
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 690
- turing-motors/heron-chat-git-ja-stablelm-base-7b-v1
- Heron GIT Japanese StableLM
- Downloads: 673
- mmnga/ELYZA-japanese-Llama-2-13b-fast-gguf
- ELYZA-japanese-Llama-2-13b-fast-gguf ELYZAさんが公開しているELYZA-japanese-Llama-2-13b-fastのggufフォーマット変換版です。
- Downloads: 665
- QuantFactory/Llama-3.1-Swallow-8B-v0.1-GGUF
- QuantFactory/Llama-3.1-Swallow-8B-v0.1-GGUF This is quantized version of tokyotech-llm/Llama-3.1-Swallow-8B-v0.1 created using llama.cpp Original Model Card Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 647
- studio-ousia/luke-japanese-base-lite
- luke-japanese luke-japanese is the Japanese version of LUKE (Language Understanding with Knowledge-based Embeddings), a pre-trained knowledge-enhanced contextualized representation of words and entities.
- Downloads: 647
- stabilityai/japanese-stablelm-3b-4e1t-base
- Japanese StableLM-3B-4E1T Base Model Description This is a 3B-parameter decoder-only language model with a focus on maximizing Japanese language modeling performance and Japanese downstream task performance.
- Downloads: 646
- stabilityai/japanese-stablelm-instruct-alpha-7b
- This repository is publicly accessible, but you have to accept the conditions to access its files and content.
- Downloads: 642
- huranokuma/es2
- ESを書くAI Japanese GPT-2 modelをファインチューニングしました ファインチューニングには、あらゆる分野から140,000件ほどのESを用いました。
- Downloads: 624
- stabilityai/japanese-stable-clip-vit-l-16
- By clicking "Agree", you agree to the License Agreement and acknowledge Stability AI's Privacy Policy.
- Downloads: 621
- tohoku-nlp/bert-large-japanese-char-v2
- BERT large Japanese (character-level tokenization with whole word masking, CC-100 and jawiki-20230102)
- Downloads: 619
- globis-university/deberta-v3-japanese-xsmall
- What’s this?
- Downloads: 618
- Lasorco/lametta_old
- old?
- Downloads: 605
- toshi456/llava-jp-1.3b-v1.0
- LLaVA-JP Model Card Model detail Model type: LLaVA-JP is a vision-language model that can converse about input images.
- Downloads: 599
- stabilityai/japanese-stablelm-3b-4e1t-instruct
- Japanese StableLM-3B-4E1T Instruct Model Description
- Downloads: 599
- Aratako/calm3-22b-RP-v2
- calm3-22b-RP-v2 GGUF版はこちら/Click here for the GGUF version また、こちらで本モデルのデモを公開しています。
- Downloads: 596
- TFMC/Japanese-Starling-ChatV-7B
- Japanese-Starling-ChatV-7B このモデルは"chatntq-ja-7b-v1.0"をベースにした7Bパラメータの日本語チャットモデルです。
- Downloads: 595
- sonoisa/clip-vit-b-32-japanese-v1
- 日本語版CLIPモデル This is a CLIP text/image encoder model for Japanese.
- Downloads: 595
- TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 575
- offtoung/tsukuyomi-chan-calm2-7b
- つくよみちゃんデータセットを用いて calm-2-7b-chat をファインチューニングしたモデルです。
- Downloads: 575
- turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1
- Heron BLIP Japanese StableLM
- Downloads: 568
- ken11/albert-base-japanese-v1
- albert-base-japanese-v1 日本語事前学習済みALBERTモデルです How to use ファインチューニング このモデルはPreTrainedモデルです基本的には各種タスク用にファインチューニングして使用されることを想定しています Fill-Mask このモデルではTokenizerにSentencepieceを利用していますそのままでは[MASK]トークンのあとに余計なトークンが混入する問題があるので、利用する際には以下のようにする必要があります for PyTorch from transformers import ( AlbertForMaskedLM, AlbertTokenizerFast ) import torch tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
- Downloads: 559
- pfnet/plamo-13b-instruct-nc
- PLaMo-13B-Instruct-NC Model Description PLaMo-13B-Instruct-NC is a noncommercial instruct fine-tuned model built upon the 8192 context length version of PLaMo-13B text generation model.
- Downloads: 556
- NTQAI/wav2vec2-large-japanese
- Wav2Vec2-Large-Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the Common Voice, JSUT, TEDxJP and some other data.
- Downloads: 544
- tokyotech-llm/Swallow-13b-instruct-v0.1
- Swallow Our Swallow model has undergone continual pre-training from the Llama 2 family, primarily with the addition of Japanese language data.
- Downloads: 541
- sappho192/aihub-ja-ko-translator
- Japanese to Korean translator Japanese to Korean translator model based on EncoderDecoderModel(bert-japanese+kogpt2)
- Downloads: 533
- retrieva-jp/t5-xl
- Model card for model ID
- Downloads: 528
- weblab-GENIAC/Tanuki-8x8B-dpo-v1.0
- Tanuki-8x8B-dpo-v1.0 モデルについて Tanuki-8x8Bは、フルスクラッチで約1.7Tトークン事前学習を行った8x8Bパラメータ(総パラメータ約47B、アクティブパラメータ約13B)の大規模言語モデルです。
- Downloads: 525
- OrionStarAI/Orion-14B-Chat-Plugin
- Orion-14B 🌐English | 🇨
- Downloads: 519
- pfnet/plamo-13b-instruct
- PLaMo-13B-Instruct Model Description PLaMo-13B-Instruct is an instruct fine-tuned model built upon the 8192 context length version of PLaMo-13B text generation model.
- Downloads: 518
- studio-ousia/luke-japanese-base
- luke-japanese luke-japanese is the Japanese version of LUKE (Language Understanding with Knowledge-based Embeddings), a pre-trained knowledge-enhanced contextualized representation of words and entities.
- Downloads: 507
- mmnga/HODACHI-Borea-Phi-3.5-mini-Instruct-Jp-gguf
- HODACHI-Borea-Phi-3.5-mini-Instruct-Jp-gguf HODACHIさんが公開しているBorea-Phi-3.5-mini-Instruct-Jpのggufフォーマット変換版です。
- Downloads: 498
- owner203/japanese-alpaca-2-13b
- Japanese-Alpaca-2-13B Japanese-Alpaca-2-13Bは指示実行モデル、フルモデルです。
- Downloads: 491
- owner203/japanese-llama-2-13b
- Japanese-LLaMA-2-13B Japanese-LLaMA-2-13Bは基盤モデル、フルモデルです。
- Downloads: 489
- hajime9652/xlnet-japanese
- XLNet-japanese Model description This model require Mecab and senetencepiece with XLNetTokenizer.
- Downloads: 481
- ken11/albert-base-japanese-v1-with-japanese-tokenizer
- albert-base-japanese-v1-with-japanese 日本語事前学習済みALBERTモデルですこのモデルではTokenizerにBertJapaneseTokenizerクラスを利用していますalbert-base-japanese-v1よりトークナイズ処理が楽になっています How to use ファインチューニング このモデルはPreTrainedモデルです基本的には各種タスク用にファインチューニングして使用されることを想定しています Fill-Mask for PyTorch from transformers import ( AutoModelForMaskedLM, AutoTokenizer ) tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
- Downloads: 477
- litagin/anime-whisper
- Anime Whisper 🤗🎤📝
- Downloads: 463
- TFMC/Japanese-Starling-ChatV-7B-GGUF
- Japanese-Starling-ChatV-7B-GGUF GGUF conversion of "Japanese-Starling-ChatV-7B" "Japanese-Starling-ChatV-7B" is a Japanese chat model built on top of "chatntq-ja-7b-v1.0", originally based on Mistral-7B-v0.1.
- Downloads: 457
- mmnga/SakanaAI-EvoLLM-JP-v1-7B-gguf
- SakanaAI-EvoLLM-JP-v1-7B-gguf SakanaAIさんが公開しているEvoLLM-JP-v1-7Bのggufフォーマット変換版です。
- Downloads: 431
- KoichiYasuoka/bert-base-japanese-wikipedia-ud-head
- bert-base-japanese-wikipedia-ud-head Model Description
- Downloads: 428
- skytnt/gpt2-japanese-lyric-small
- Japanese GPT2 Lyric Model Model description
- Downloads: 427
- leia-llm/Leia-Swallow-13b
- Leia-Swallow-13B LEIA is a training technique for autoregressive LLMs that effectively improves their performance in languages other than English by enhancing cross-lingual knowledge transfer from English to a target language.
- Downloads: 423
- leia-llm/Leia-Swallow-7b
- Leia-Swallow-7B LEIA is a training technique for autoregressive LLMs that effectively improves their performance in languages other than English by enhancing cross-lingual knowledge transfer from English to a target language.
- Downloads: 416
- DataPilot/Llama3.1-ArrowSE-v0.4
- 概要 このモデルはllama3.1-8B-instructをもとに日本語性能を高めることを目的にMergekit&ファインチューニングを用いて作成されました。
- Downloads: 416
- retrieva-jp/t5-large-long
- Model card for model ID
- Downloads: 404
- OrionStarAI/Orion-14B-Chat-RAG
- Orion-14B 🌐English | 🇨
- Downloads: 403
- mmnga/Ninja-v1-128k-gguf
- Ninja-v1-128k-gguf Local-Novel-LLM-projectさんが公開しているNinja-v1-128kのggufフォーマット変換版です。
- Downloads: 396
- ku-accms/bert-base-japanese-ssuw
- ku-accms/bert-base-japanese-ssuw Model description This is a pre-trained Japanese BERT base model for super short unit words (SSUW).
- Downloads: 386
- nvidia/parakeet-tdt_ctc-0.6b-ja
- Parakeet TDT-CTC 0.6B (ja) | | parakeet-tdt_ctc-0.6b-ja is an ASR model that transcribes Japanese speech with Punctuations.
- Downloads: 372
- alabnii/jmedroberta-base-sentencepiece-vocab50000
- alabnii/jmedroberta-base-sentencepiece-vocab50000 Model description This is a Japanese RoBERTa base model pre-trained on academic articles in medical sciences collected by Japan Science and Technology Agency (JST).
- Downloads: 365
- llm-book/t5-base-long-livedoor-news-corpus
- llm-book/t5-base-long-livedoor-news-corpus 「大規模言語モデル入門」の第7章で紹介している要約生成のモデルです。
- Downloads: 361
- mmnga/rinna-japanese-gpt-neox-3.6b-instruction-ppo-gguf
- rinna/japanese-gpt-neox-3.6b-instruction-ppo rinnaさんが公開しているjapanese-gpt-neox-3.6b-instruction-ppoのgguf変換版です。
- Downloads: 360
- sambanovasystems/SambaLingo-Japanese-Chat
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 356
- TKU410410103/uniTKU-hubert-japanese-asr
- uniTKU-hubert-japanese-asr
- Downloads: 356
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GPTQ-4bit
- Tanuki-8B-dpo-v1.0-GPTQ-4bit 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0のGPTQ 4bit量子化モデルです。
- Downloads: 350
- kotoba-tech/kotoba-whisper-bilingual-v1.0
- Kotoba-Whisper-Bilingual (v1.0)
- Downloads: 342
- TheBloke/japanese-stablelm-instruct-beta-7B-GGUF
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 341
- ku-nlp/deberta-v2-tiny-japanese
- Model Card for Japanese DeBERTa V2 tiny Model description
- Downloads: 341
- mmnga/rinna-japanese-gpt-neox-3.6b-gguf
- rinna/japanese-gpt-neox-3.6b rinnaさんが公開しているjapanese-gpt-neox-3.6bのgguf変換版です。
- Downloads: 328
- tokyotech-llm/Llama-3-Swallow-70B-v0.1
- Llama3 Swallow - Built with Meta Llama 3
- Downloads: 317
- studio-ousia/luke-japanese-large-lite
- luke-japanese-large-lite luke-japanese is the Japanese version of LUKE (Language Understanding with Knowledge-based Embeddings), a pre-trained knowledge-enhanced contextualized representation of words and entities.
- Downloads: 310
- stabilityai/japanese-stable-diffusion-xl
- By clicking "Agree", you agree to the License Agreement and acknowledge Stability AI's Privacy Policy.
- Downloads: 310
- zh-plus/faster-whisper-large-v2-japanese-5k-steps
- Converted from clu-ling/whisper-large-v2-japanese-5k-steps using CTranslate2.
- Downloads: 308
- globis-university/deberta-v3-japanese-base
- What’s this?
- Downloads: 304
- tokyotech-llm/Llama-3.1-Swallow-70B-v0.1
- Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 293
- mmnga/shisa-7b-v1-gguf
- shisa-7b-v1-gguf augmxntさんが公開しているshisa-7b-v1のggufフォーマット変換版です。
- Downloads: 291
- mmnga/ELYZA-japanese-CodeLlama-7b-gguf
- ELYZA-japanese-CodeLlama-7b-gguf ELYZAさんが公開しているELYZA-japanese-CodeLlama-7b-instructのggufフォーマット変換版です。
- Downloads: 289
- retrieva-jp/t5-base-long
- Model card for model ID
- Downloads: 288
- cardiffnlp/tweet-topic-large-multilingual
- tweet-topic-large-multilingual This model is based on cardiffnlp/twitter-xlm-roberta-large-2022 language model and isfinetuned for multi-label topic classification in English, Spanish, Japanese, and Greek.
- Downloads: 285
- globis-university/deberta-v3-japanese-large
- What’s this?
- Downloads: 283
- second-state/ELYZA-japanese-Llama-2-13b-fast-instruct-GGUF
- ELYZA-japanese-Llama-2-13b-fast-instruct-GGUF Original Model elyza/ELYZA-japanese-Llama-2-13b-fast-instruct Run with LlamaEdge LlamaEdge version: v0.2.8 and above Prompt template Prompt type: llama-2-chat Prompt string <s>[INST] <<SYS>> {{ system_prompt }} <</SYS>> {{ user_msg_1 }}
- Downloads: 283
- mmnga/SakanaAI-EvoLLM-JP-A-v1-7B-gguf
- SakanaAI-EvoLLM-JP-A-v1-7B-gguf SakanaAIさんが公開しているEvoLLM-JP-A-v1-7Bのggufフォーマット変換版です。
- Downloads: 281
- fishaudio/fish-speech-1.2
- Fish Speech V1.2 Fish Speech V1.2 is a leading text-to-speech (TTS) model trained on 300k hours of English, Chinese, and Japanese audio data.
- Downloads: 279
- izumi-lab/deberta-v2-small-japanese
- DeBERTa V2 small Japanese This is a DeBERTaV2 model pretrained on Japanese texts.
- Downloads: 266
- izumi-lab/bert-base-japanese-fin-additional
- Additional pretrained BERT base Japanese finance This is a BERT model pretrained on texts in the Japanese language.
- Downloads: 256
- rinna/nekomata-7b-gguf
- rinna/nekomata-7b-gguf Overview The model is the GGUF version of rinna/nekomata-7b.
- Downloads: 255
- TheBloke/japanese-stablelm-base-beta-70B-GGUF
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 248
- maddes8cht/stabilityai-japanese-stablelm-3b-4e1t-instruct-gguf
- I'm constantly enhancing these model descriptions to provide you with the most relevant and comprehensive information japanese-stablelm-3b-4e1t-instruct - GGUF Model creator: stabilityai Original model: japanese-stablelm-3b-4e1t-instruct StableLM
- Downloads: 248
- sosoai/Orion-14B-Chat-RAG-safetensors
- Orion-14B 🌐English | 🇨
- Downloads: 243
- lmg-anon/vntl-llama3-8b-gguf
- This repository contains some GGUF quantizations of the merge of the VNTL LLaMA 3 8B qlora.
- Downloads: 240
- kit-nlp/bert-base-japanese-sentiment-irony
- BERT Base Japanese for Irony
- Downloads: 239
- team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-4bit
- Tanuki-8x8B-dpo-v1.0-GPTQ-4bit 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8x8B-dpo-v1.0のGPTQ 4bit量子化モデルです。
- Downloads: 236
- KoichiYasuoka/deberta-base-japanese-aozora-ud-head
- deberta-base-japanese-aozora-ud-head Model Description
- Downloads: 235
- sazyou-roukaku/LittleStepMix
- License:CreativeML Open RAIL-M Additional Copyright: sazyou_roukaku (TwitterID @sazyou_roukaku) as of June 25, 2023 このモデルは『CreativeML Open RAIL-M』でLicenseそのものに変更はありません。
- Downloads: 227
- jweb/japanese-soseki-gpt2-1b
- japanese-soseki-gpt2-1b
- Downloads: 226
- megagonlabs/t5-base-japanese-web
- t5-base-japanese-web (with Byte-fallback, 32K) Description megagonlabs/t5-base-japanese-web is a T5 (Text-to-Text Transfer Transformer) model pre-trained on Japanese web texts.
- Downloads: 226
- izumi-lab/bert-small-japanese
- BERT small Japanese finance This is a BERT model pretrained on texts in the Japanese language.
- Downloads: 218
- izumi-lab/deberta-v2-base-japanese
- DeBERTa V2 base Japanese This is a DeBERTaV2 model pretrained on Japanese texts.
- Downloads: 214
- llm-jp/llm-jp-3-172b-beta1-instruct
- 「LLM-jp-3 172B beta1」利用規約 この利用規約(以下「本規約」といいます)は、大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(以下「提供者」といいます)による開発の成果物として公開する大規模言語モデル「LLM-jp-3 172B beta1」(以下「本プログラム」といいます)の利用に関する条件を定めるものです。
- Downloads: 210
- kubota/luke-large-defamation-detection-japanese
- luke-large-defamation-detection-japanese 日本語誹謗中傷検出器
- Downloads: 208
- stockmark/bart-base-japanese-news
- bart-base-japanese-news(base-sized model)
- Downloads: 203
- maddes8cht/stabilityai-japanese-stablelm-3b-4e1t-base-gguf
- I'm constantly enhancing these model descriptions to provide you with the most relevant and comprehensive information japanese-stablelm-3b-4e1t-base - GGUF Model creator: stabilityai Original model: japanese-stablelm-3b-4e1t-base StableLM
- Downloads: 197
- ku-nlp/gpt2-large-japanese-char
- Model Card for Japanese character-level GPT-2 Large Model description
- Downloads: 192
- Ivydata/whisper-small-japanese
- Fine-tuned Japanese Whisper model for speech recognition using whisper-small Fine-tuned openai/whisper-small on Japanese using Common Voice, JVS and JSUT.
- Downloads: 190
- mmnga/AXCXEPT-EZO-Qwen2.5-72B-Instruct-gguf
- AXCXEPT-EZO-Qwen2.5-72B-Instruct-gguf AXCXEPTさんが公開しているEZO-Qwen2.5-72B-Instructのggufフォーマット変換版です。
- Downloads: 188
- retrieva-jp/t5-small-medium
- Model card for model ID
- Downloads: 188
- stanfordnlp/stanza-ja
- Stanza model for Japanese (ja)
- Downloads: 183
- recruit-jp/japanese-clip-vit-b-32-roberta-base
- recruit-jp/japanese-clip-vit-b-32-roberta-base Overview Developed by: Recruit Co.
- Downloads: 183
- stabilityai/japanese-stable-vlm
- By clicking "Agree", you agree to the License Agreement and acknowledge Stability AI's Privacy Policy.
- Downloads: 181
- nlp-waseda/roberta_jtruthfulqa
- Finetuned Waseda RoBERTa to evaluate the generated answers on JTruthfulQA.
- Downloads: 174
- uzabase/luke-japanese-wordpiece-base
- studio-ousia/luke-japanese-baseに対して次の変更を加えたモデルです。
- Downloads: 172
- nlp-waseda/roberta-large-japanese-seq512
- nlp-waseda/roberta-large-japanese-seq512 Model description This is a Japanese RoBERTa large model pretrained on Japanese Wikipedia and the Japanese portion of CC-100 with the maximum sequence length of 512.
- Downloads: 171
- AELLM/Llama-3.2-Chibi-3B
- Preface Small parameter LLMs are ideal for navigating the complexities of the Japanese language, which involves multiple character systems like kanji, hiragana, and katakana, along with subtle social cues.
- Downloads: 171
- ku-accms/roberta-base-japanese-ssuw
- ku-accms/roberta-base-japanese-ssuw Model description This is a pre-trained Japanese RoBERTa base model for super short unit words (SSUW).
- Downloads: 168
- Aratako/c4ai-command-r-v01-japanese-instruct-GGUF
- c4ai-command-r-v01-japanese-instruct-GGUF 概要 Aratako/c4ai-command-r-v01-japanese-instructの量子化済みGGUF版です。
- Downloads: 165
- mmnga/Deepreneur-blue-lizard-gguf
- Deepreneur-blue-lizard-gguf Deepreneurさんが公開しているblue-lizardのggufフォーマット変換版です。
- Downloads: 163
- lmg-anon/vntl-llama3-8b-202409-gguf
- This repository contains some GGUF quantizations of the merged VNTL LLaMA3 8B 202409 qlora model, created using a custom version of the VNTL dataset combined with the VNTL-Chat dataset.
- Downloads: 161
- den2nova/FlexDreamHK
- 🎈 FlexDreamHK FlexDreamHKはリークされたNovelAIモデルの入っていない、あるいはそのリスクを可能な限り低くしたモデルを目指して作成しました。
- Downloads: 161
- retrieva-jp/t5-base-medium
- Model card for model ID
- Downloads: 160
- esnya/japanese_speecht5_tts
- SpeechT5 (TTS task) for Japanese SpeechT5 model fine-tuned for Japanese speech synthesis (text-to-speech)
- Downloads: 159
- abhishek/autonlp-japanese-sentiment-59363
- Model Trained Using AutoNLP Problem type: Binary Classification Model ID: 59363 Validation Metrics Loss: 0.12651239335536957 Accuracy: 0.9532079853817648 Precision: 0.9729688278823665 Recall: 0.9744633462616643 AUC: 0.9717333684823413 F1: 0.9737155136027014 Usage You can use cURL to access this model: $ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoNLP"}' https://api-inference.huggingface.co/models/abhishek/autonlp-japanese-sentiment-5936
- Downloads: 156
- ptaszynski/yacis-electra-small-japanese-cyberbullying
- yacis-electra-small-cyberbullying
- Downloads: 154
- hotchpotch/ruri-pt-base-retromae
- cl-nagoya/ruri-pt-base を RetroMAE で事前学習したモデルです。
- Downloads: 152
- OrionStarAI/Orion-14B-Chat-Int4
- Orion-14B 🌐English | 🇨
- Downloads: 150
- rinna/japanese-stable-diffusion
- One more step before getting this model.
- Downloads: 145
- hotchpotch/japanese-reranker-cross-encoder-small-v1
- hotchpotch/japanese-reranker-cross-encoder-small-v1 日本語で学習させた Reranker (CrossEncoder) シリーズです。
- Downloads: 144
- nlp-waseda/bigbird-base-japanese
- nlp-waseda/bigbird-base-japanese Model description This is a Japanese BigBird base model pretrained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 142
- grapevine-AI/sarashina2-70b-gguf
- What is this?
- Downloads: 139
- alabnii/jmedroberta-base-manbyo-wordpiece
- alabnii/jmedroberta-base-manbyo-wordpiece Model description This is a Japanese RoBERTa base model pre-trained on academic articles in medical sciences collected by Japan Science and Technology Agency (JST).
- Downloads: 139
- ysakuramoto/mobilebert-ja
- MobileBERT 日本語事前学習済みモデル爆誕!!
- Downloads: 139
- lmg-anon/vntl-gemma2-27b-gguf
- This repository contains some GGUF quantizations of the VNTL Gemma 2 27B model.
- Downloads: 134
- rinna/japanese-data2vec-audio-base
- rinna/japanese-data2vec-audio-base Overview This is a Japanese data2vec Audio Base model trained by rinna Co.
- Downloads: 132
- ku-nlp/roberta-large-japanese-char-wwm
- ku-nlp/roberta-large-japanese-char-wwm Model description This is a Japanese RoBERTa large model pre-trained on Japanese Wikipedia and the Japanese portion of CC-100.
- Downloads: 131
- ku-nlp/bart-large-japanese
- Model Card for Japanese BART large Model description
- Downloads: 128
- hakuhodo-tech/japanese-clip-vit-h-14-bert-wider
- Japanese CLIP ViT-H/14 (Wider) Table of Contents Overview Usage Model Details Evaluation Limitations and Biases Citation See Also Contact Information Overview Developed by:
- Downloads: 126
- umiyuki/Japanese-WizardLM2-ChatV-7B-GGUF
- Japanese-WizardLM2-ChatV-7B-GGUF GGUF conversion of "Japanese-WizardLM2-ChatV-7B" This model, Japanese-WizardLM2-ChatV-7B, is based on "chatntq-ja-7b-v1.0 ", and was created by subtracting "Mistral-7B-v0.1" from "WizardLM-2-7b" ChatVector was added by a factor of 1.0.
- Downloads: 126
- tokyotech-llm/Llama-3.1-Swallow-8B-v0.2
- Llama 3.1 Swallow - Built with Llama Llama 3.1 Swallow is a series of large language models (8B, 70B) that were built by continual pre-training on the Meta Llama 3.1 models.
- Downloads: 126
- NovelAI/genji-jp
- Genji-JP 6B Please check our blog post for more details, samples, evaluations and more: Blogpost Model Description Genji-JP 6B is a model finetuned on our Japanese storytelling dataset based on EleutherAI's GPT-J 6B model.
- Downloads: 125
- llm-book/bert-base-japanese-v3-jcommonsenseqa
- bert-base-japanese-v3-jcommonsenseqa 「大規模言語モデル入門」の第5章で紹介している(多肢選択式質問応答)のモデルです。
- Downloads: 125
- tsmatz/roberta_qa_japanese
- roberta_qa_japanese (Japanese caption : 日本語の (抽出型) 質問応答のモデル)
- Downloads: 124
- cyberagent/xlm-roberta-large-jnli-jsick
- Japanese Natural Language Inference Model
- Downloads: 123
- umiyuki/Umievo-itr012-Gleipnir-7B
- Umievo-itr012-Gleipnir-7B このモデルは強力な4つの日本語モデルを進化的アルゴリズムで進化的マージしたものです。
- Downloads: 119
- NTQAI/chatntq-ja-7b-v1.0
- ChatNTQ JA 7B V1.0 Model Description
- Downloads: 117
- Mizuiro-sakura/luke-japanese-base-marcja
- このモデルはluke-japanese-baseをファインチューニングして、MARC-ja(positive or negativeの二値分類)に用いれるようにしたものです。
- Downloads: 116
- llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset
- llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset 「大規模言語モデル入門」の第6章で紹介している固有表現認識のモデルです。
- Downloads: 116
- mmnga/line-corp-japanese-large-lm-3.6b-instruction-sft-gguf
- line-corporation/japanese-large-lm-3.6b-instruction-sft line-corporationさんが公開しているjapanese-large-lm-3.6b-instruction-sftのgguf変換版です。
- Downloads: 114
- ken11/bert-japanese-ner
- bert-japanese-ner このモデルは日本語の固有表現抽出タスクを目的として、京都大学 黒橋・褚・村脇研究室が公開しているBERT日本語Pretrainedモデルをベースにストックマーク株式会社が公開しているner-wikipedia-datasetでファインチューニングしたものです。
- Downloads: 114
- MaziyarPanahi/japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1-GGUF
- MaziyarPanahi/japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1-GGUF Model creator: MaziyarPanahi Original model: MaziyarPanahi/japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1 Description MaziyarPanahi/japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1-GGUF contains GGUF format model files for MaziyarPanahi/japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1.
- Downloads: 110
- fukugawa/transformer-lm-japanese-0.1b
- transformer-lm-japanese-0.1b
- Downloads: 109
- colorfulscoop/gpt2-small-ja
- GPT-2 small Japanese model This repository contains a GPT2-small model trained on Japanese Wikipedia dataset.
- Downloads: 106
- clu-ling/whisper-large-v2-japanese-5k-steps
- whisper-large-v2-japanese-5k-steps This model is a fine-tuned version of openai/whisper-large-v2 on the Japanese CommonVoice dataset (v11)..
- Downloads: 105
- kotoba-tech/kotoba-speech-v0.1
- Kotoba-Speech-v0.1 Kotoba-Speech v0.1 is a 1.2B Transformer-based speech generative model.
- Downloads: 104
- TeamFnord/manga-ocr
- Manga OCR Optical character recognition for Japanese text, with the main focus being Japanese manga.
- Downloads: 103
- ThePioneer/CoolerWaifuDiffusion
- モデル説明 (model explanation) CoolJapanDiffusion 2.1.1とWaifuDiffusion 1.4 anime epoch2のマージ。
- Downloads: 101
- Formzu/bert-base-japanese-jsnli
- bert-base-japanese-jsnli This model is a fine-tuned version of cl-tohoku/bert-base-japanese-v2 on the JSNLI dataset.
- Downloads: 100
- Mitsua/elan-mt-bt-en-ja
- ElanMT ElanMT-BT-en-ja is a English to Japanese translation model developed by ELAN MITSUA Project / Abstract Engine.
- Downloads: 99
- reazon-research/reazonspeech-espnet-next
- reazonspeech-espnet-next ReazonSpeech is a project to maintain freely-available Japanese audio datasets and ML models.
- Downloads: 98
- Fugaku-LLM/Fugaku-LLM-13B-instruct-gguf
- Fugaku-LLM利用規約 この利用規約(以下「本規約」といいます)は、富士通株式会社、国立研究開発法人理化学研究所、国立大学法人東京工業大学、国立大学法人東北大学、株式会社サイバーエージェント、国立大学法人東海国立大学機構、及び株式会社Kotoba Technologies Japan (以下「開発者」といいます)による、スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発の成果物として公開する大規模言語モデル(以下「Fugaku-LLM」といいます)の利用に関する条件を定めるものです。
- Downloads: 96
- ybelkada/japanese-roberta-question-answering
- RoBERTa base Japanese - JaQuAD Description A Japanese Question Answering model fine-tuned on JaQuAD.
- Downloads: 95
- sonoisa/t5-base-english-japanese
- 英語+日本語T5事前学習済みモデル This is a T5 (Text-to-Text Transfer Transformer) model pretrained on English and Japanese balanced corpus.
- Downloads: 93
- nlp-waseda/roberta-large-japanese-seq512-with-auto-jumanpp
- nlp-waseda/roberta-large-japanese-seq512-with-auto-jumanpp Model description
- Downloads: 92
- retrieva-jp/t5-small-short
- Model card for model ID
- Downloads: 92
- Aratako/c4ai-command-r-v01-japanese-instruct
- c4ai-command-r-v01-japanese-instruct GGUF版はこちら/Click here for the GGUF version 概要 CohereForAI/c4ai-command-r-v01を、ichikara-instructionを使って追加で日本語インストラクションチューニングを施したモデルです。
- Downloads: 90
- KoichiYasuoka/bert-base-japanese-char-extended
- bert-base-japanese-char-extended Model Description
- Downloads: 88
- thefrigidliquidation/nllb-jaen-1.3B-lightnovels
- NLLB 1.3B fine-tuned on Japanese to English Light Novel translation This model was fine-tuned on light and web novel for Japanese to English translation.
- Downloads: 88
- turing-motors/heron-chat-git-ELYZA-fast-7b-v0
- Heron GIT Japanese ELYZA Llama 2 Fast 7B Model Details Heron GIT Japanese ELYZA Llama 2 Fast 7B is a vision-language model that can converse about input images.
- Downloads: 87
- Mitsua/elan-mt-bt-ja-en
- ElanMT ElanMT-BT-ja-en is a Japanese to English translation model developed by ELAN MITSUA Project / Abstract Engine.
- Downloads: 86
- TareHimself/manga-ocr-base
- Original Model Optical character recognition for Japanese text, with the main focus being Japanese manga.
- Downloads: 85
- OrionStarAI/Orion-14B-Base-Int4
- Orion-14B 🌐English | 🇨
- Downloads: 85
- stabilityai/japanese-instructblip-alpha
- Japanese InstructBLIP Alpha Model Details Japanese InstructBLIP Alpha is a vision-language instruction-following model that enables to generate Japanese descriptions for input images and optionally input texts such as questions.
- Downloads: 83
- owner203/japanese-llama-2-13b-gguf
- Japanese-LLaMA-2-13B-GGUF Japanese-LLaMA-2-13B-GGUFはJapanese-LLaMA-2-13BのGGUF形式です。
- Downloads: 82
- team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-AWQ
- Tanuki-8x8B-dpo-v1.0-AWQ 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8x8B-dpo-v1.0のAWQ 4bit量子化モデルです。
- Downloads: 82
- inu-ai/dolly-japanese-gpt-1b
- 更新履歴 2023年5月7日 「oasst1-89k-ja」データセットを追加して対話システムに対応しました。
- Downloads: 79
- aken12/splade-japanese-v3
- Evaluation on MIRACL japanese These models don't train on the MIRACL training data.
- Downloads: 79
- TomokiFujihara/luke-japanese-base-lite-offensiveness-estimation
- モデル概要 このモデルは、 sonoisa/sentence-luke-japanese-base-lite をSNS上のコメントに人手で攻撃性評価を行ったデータセットでFine-tuningすることで作成しました。
- Downloads: 76
- mmnga/line-corp-japanese-large-lm-3.6b-gguf
- line-corporation/japanese-large-lm-3.6b line-corporationさんが公開しているjapanese-large-lm-3.6bのgguf変換版です。
- Downloads: 76
- minutillamolinara/bert-japanese_finetuned-sentiment-analysis
- bert-japanese_finetuned-sentiment-analysis This model was trained from scratch on the Japanese Sentiment Polarity Dictionary dataset.
- Downloads: 76
- Mizuiro-sakura/luke-japanese-base-finetuned-QA
- このモデルはluke-japanese-base-liteをファインチューニングして、Question-Answeringに用いれるようにしたものです。
- Downloads: 76
- Ivydata/whisper-base-japanese
- Fine-tuned Japanese Whisper model for speech recognition using whisper-base Fine-tuned openai/whisper-base on Japanese using Common Voice, JVS and JSUT.
- Downloads: 73
- izumi-lab/bert-small-japanese-fin
- BERT small Japanese finance This is a BERT model pretrained on texts in the Japanese language.
- Downloads: 70
- daisaku-s/medtxt_ner_roberta
- 日本語医療固有表現抽出モデル 概要 ソーシャル・コンピューティング研究室さまより公開されているMedTxt-CRを用いて、alabniiさまより公開されているRoBERTaをfine-tuningした固有表現抽出モデルです。
- Downloads: 69
- TheBloke/japanese-stablelm-instruct-beta-70B-GPTQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 69
- AndrewMcDowell/wav2vec2-xls-r-1b-japanese-hiragana-katakana
- This model is a fine-tuned version of facebook/wav2vec2-xls-r-1b on the MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JA dataset.
- Downloads: 68
- dddump/Japanese-TextGen-Kage-v0.1-2x7B-gguf
- Japanese-TextGen-Kage-v0.1-2x7B Kage is "影" in Japanese or "Shadow" in English.
- Downloads: 67
- sazyou-roukaku/AfterRealXL
- こちらでアップロードできないので、civitaiにて先に公開しています。
- Downloads: 67
- Mizuiro-sakura/deberta-v2-base-japanese-finetuned-QAe
- このモデルはdeberta-v2-base-japaneseをファインチューニングしてQAタスクに用いれるようにしたものです。
- Downloads: 67
- MaziyarPanahi/japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1-GGUF
- MaziyarPanahi/japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1-GGUF Model creator: MaziyarPanahi Original model: MaziyarPanahi/japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1 Description MaziyarPanahi/japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1-GGUF contains GGUF format model files for MaziyarPanahi/japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1.
- Downloads: 66
- SkelterLabsInc/bert-base-japanese-jaquad
- BERT base Japanese - JaQuAD Description A Japanese Question Answering model fine-tuned on JaQuAD.
- Downloads: 65
- OrionStarAI/Orion-14B-LongChat
- Orion-14B 🌐English | 🇨
- Downloads: 65
- Ivydata/wav2vec2-large-speech-diarization-jp
- Fine-tuned XLSR-53 large model for speech diarization in Japanese phone-call 2 speakers diarization model which was fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using phone-call data CallHome.
- Downloads: 64
- alabnii/jmedroberta-base-sentencepiece
- alabnii/jmedroberta-base-sentencepiece Model description This is a Japanese RoBERTa base model pre-trained on academic articles in medical sciences collected by Japan Science and Technology Agency (JST).
- Downloads: 62
- nitky/Oumuamua-7b-instruct-v2
- Oumuamua-7b-instruct-v2 🚨 If you want to avoid outputs that appear to be literal translations, please prompt this model to role-play as a Japanese person.
- Downloads: 62
- tohoku-nlp/stable-diffusion-xl-jp-base-1.0
- (English part follows Japanese one.
- Downloads: 62
- patrickramos/bert-base-japanese-v2-wrime-fine-tune
- WRIME-fine-tuned BERT base Japanese This model is a Japanese BERTBASE fine-tuned on the WRIME dataset.
- Downloads: 61
- aerner/lm-v2
- Aerner LM-v2 事前学習から全部日本語で学習させたモデルのバージョン2です。
- Downloads: 60
- AIBunCho/japanese-novel-gpt-j-6b
- AIBunCho/japanese-novel-gpt-j-6b AI BunChoで利用しているモデルです。
- Downloads: 60
- yellowback/gpt-neo-japanese-1.3B
- GPT-Neo 1.3B pre-trained model for Japanese Model Description GPT2/GPT3 like model trained on Japanese.corpus.
- Downloads: 60
- ascktgcc/Mistral-nemo-ja-rp-v0.2
- GGUF版はこちらascktgcc/Mistral-nemo-ja-rp-v0.2-GGUF 概要 Mistral-nemoをEPR用途向けにファインチューニングしたモデルです 日本語を含めたデータセットを使用してファインチューニングしたためmagnumのようなモデルよりも日本語力が上がっているはず Mistral-NemoベースなのでTemperatureは0.3を基準に調整することを推奨 v0.1からの変更点 データセットの追加 データセットのsystem promptに<データセットの言語>で出力する指示を追加 エポックを9倍に増加 使用させていただいたデータセット kalomaze/Opus_Instruct_25k Nopm/Opus_WritingStruct anthracite-org/kalo-opus-instruct-22k-no-refusal Aratako/Synthetic-Japanese-Roleplay-NSFW-Claude-3.5s-15.3k-formatted Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini
- Downloads: 59
- kz/mt5base-finetuned-ECC-japanese-small
- Google's mt5-base fine-tuned in Japanese to solve error detection and correction task.
- Downloads: 59
- oshizo/japanese-sexual-moderation-v2
- japanese-sexual-moderation-v2は、studio-ousia/luke-japanese-large-liteをファインチューニングしたモデルです。
- Downloads: 58
- cameltech/japanese-gpt-1b-PII-masking
- japanese-gpt-1b-PII-masking Model Description japanese-gpt-1b-PII-masking は、 日本語事前学習済み1B GPTモデルをベースとして、日本語の文章から個人情報をマスキングするように学習したモデルです。
- Downloads: 57
- abhishek/autonlp-japanese-sentiment-59362
- Model Trained Using AutoNLP Problem type: Binary Classification Model ID: 59362 Validation Metrics Loss: 0.13092292845249176 Accuracy: 0.9527127414314258 Precision: 0.9634070704982427 Recall: 0.9842171959602166 AUC: 0.9667289746092403 F1: 0.9737009564152002 Usage You can use cURL to access this model: $ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoNLP"}' https://api-inference.huggingface.co/models/abhishek/autonlp-japanese-sentiment-5936
- Downloads: 56
- hiroshi-matsuda-rit/bert-base-japanese-basic-char-v2
- BERT base Japanese (character-level tokenization with whole word masking, jawiki-20200831)
- Downloads: 56
- oshizo/donut-base-japanese-visual-novel
- Donut (base-sized model, fine-tuned on visual novel like synthetic dataset ) ビジュアルノベル風画像の合成データセットでnaver-clova-ix/donut-baseを訓練したモデルです。
- Downloads: 56
- alabnii/jmedroberta-base-manbyo-wordpiece-vocab50000
- alabnii/jmedroberta-base-manbyo-wordpiece-vocab50000 Model description This is a Japanese RoBERTa base model pre-trained on academic articles in medical sciences collected by Japan Science and Technology Agency (JST).
- Downloads: 54
- nu-dialogue/sfc2022-stable-diffusion
- SFCOCO Stable Diffusion Model Card SFCOCO Stable Diffusion is a Japanese-specific latent text-to-image diffusion model capable of generating photo-realistic images given any text input.
- Downloads: 54
- knok/japanese-distilgpt2
- 日本語 gpt2 蒸留モデル このモデルはrinna/japanese-gpt2-meduimを教師として蒸留したものです。
- Downloads: 53
- Tanrei/GPTSAN-japanese
- Model Card for Tanrei/GPTSAN-japanese General-purpose Swich transformer based Japanese language model GPTSAN has some unique features.
- Downloads: 52
- TheBloke/japanese-stablelm-instruct-gamma-7B-GPTQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 52
- akiFQC/bert-base-japanese-v3_nli-jsnli
- Cross-Encoder for Natural Language Inference(NLI) for Japanese Considering the results of the JNLI evaluation result, we recommend using akiFQC/bert-base-japanese-v3_nli-jsnli-jnli-jsick for natural language inference in Japanese.
- Downloads: 52
- if001/llama2_ja_small
- 日本語でtrainingしたllama2 model size: 417.12M trainingは以下のscript参照https://github.com/Lightning-AI/lit-gpt/tree/main use from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("if001/sentencepiece_ja", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("if001/llama2_ja_small")
- Downloads: 49
- kit-nlp/transformers-ud-japanese-electra-base-discriminator-cyberbullying
- electra-base-cyberbullying This is an ELECTRA Base model for the Japanese language finetuned for automatic cyberbullying detection.
- Downloads: 49
- arc-r/faster-whisper-large-v2-mix-jp
- whisper-large-v2-mix-jp model for CTranslate2 This repository contains the conversion of vumichien/whisper-large-v2-mix-jp to the CTranslate2 model format.
- Downloads: 48
- vumichien/wav2vec2-large-xlsr-japanese-hiragana
- Wav2Vec2-Large-XLSR-53-Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the Common Voice and Japanese speech corpus of Saruwatari-lab, University of Tokyo JSUT.
- Downloads: 47
- oshizo/japanese-e5-mistral-1.9b
- Model trained on 800,000 Japanese sentences after reducing oshizo/japanese-e5-mistral-7b_slerp to 8 layers.
- Downloads: 47
- llm-jp/llm-jp-3-172b-beta1
- 「LLM-jp-3 172B beta1」利用規約 この利用規約(以下「本規約」といいます)は、大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(以下「提供者」といいます)による開発の成果物として公開する大規模言語モデル「LLM-jp-3 172B beta1」(以下「本プログラム」といいます)の利用に関する条件を定めるものです。
- Downloads: 46
- vumichien/wav2vec2-large-xlsr-japanese
- Wav2Vec2-Large-XLSR-53-Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the Common Voice and Japanese speech corpus of Saruwatari-lab, University of Tokyo JSUT.
- Downloads: 46
- Deepreneur/blue-lizard
- Deepreneur-blue-lizard Model Description Deepreneur-blue-lizardは、MetaのLlama-2-7bに対して、Wikipediaや書籍等の日本語の学習データを用いて追加事前学習と独自データによるファインチューニングを実施したモデルです。
- Downloads: 46
- p1atdev/t5-base-xlsum-ja
- t5-base-xlsum-ja
- Downloads: 45
- TheBloke/japanese-stablelm-base-beta-70B-GPTQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 44
- watashiha/Watashiha-Llama-2-13B-Ogiri-sft
- The English document is here.
- Downloads: 44
- minkhantycc/translation-en-ja
- This model is the fine-tuned version of Helsinki-NLP/opus-mt-ja-en on bsd_ja_en dataset.
- Downloads: 43
- vitouphy/wav2vec2-xls-r-300m-japanese
- This model is for transcribing audio into Hiragana, one format of Japanese language.
- Downloads: 42
- haqishen/Llama-3-8B-Japanese-Instruct
- Introduction Who am I: Qishen Ha
- Downloads: 42
- Mizuiro-sakura/open-calm-large-finetuned-databricks-dolly
- OpenCALM-LARGE Model Description OpenCALM is a suite of decoder-only language models pre-trained on Japanese datasets, developed by CyberAgent, Inc.
- Downloads: 41
- TheBloke/japanese-stablelm-instruct-beta-7B-GPTQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 40
- TheBloke/japanese-stablelm-instruct-beta-70B-AWQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 40
- if001/llama2_ja_ss
- 日本語でtrainingしたllama2 model size: 130.78M trainingは以下のscript参照 https://github.com/Lightning-AI/lit-gpt/tree/main use from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("if001/sentencepiece_ja", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("if001/llama2_ja_ss")
- Downloads: 40
- alfredplpl/Llama-3-8B-Instruct-Ja
- 日本語向け Llama 3 8B はじめに このリポジトリはLlama 3を日本語化しようとしたモデルのリポジトリです。
- Downloads: 40
- TheBloke/japanese-stablelm-instruct-gamma-7B-AWQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 39
- rinna/nekomata-7b-instruction-gguf
- rinna/nekomata-7b-instruction-gguf Overview The model is the GGUF version of rinna/nekomata-7b-instruction.
- Downloads: 39
- kit-nlp/bert-base-japanese-sentiment-cyberbullying
- electra-base-cyberbullying This is a BERT Base model for the Japanese language finetuned for automatic cyberbullying detection.
- Downloads: 38
- line-corporation/japanese-large-lm-1.7b-instruction-sft-8bit-1g-actorder_True
- japanese-large-lm-1.7b-instruction-sft-8bit-1g-actorder_True
- Downloads: 38
- TheBloke/japanese-stablelm-base-beta-70B-AWQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 38
- LoneStriker/stabilityai_japanese-stablelm-instruct-gamma-7b-3.0bpw-h6-exl2
- Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 38
- TheBloke/japanese-stablelm-instruct-beta-7B-AWQ
- Chat & support: TheBloke's Discord server Want to contribute?
- Downloads: 37
- LoneStriker/stabilityai_japanese-stablelm-instruct-gamma-7b-6.0bpw-h6-exl2
- Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 37
- llm-jp/llm-jp-3-172b-alpha1
- llm-jp-3-172b-alpha1
- Downloads: 37
- Aratako/ELYZA-japanese-Llama-2-MoE-2x13B-v0.1-GGUF
- ELYZA-japanese-Llama-2-MoE-2x13B-v0.1-GGUF 概要 Aratako/ELYZA-japanese-Llama-2-MoE-2x13B-v0.1の量子化済みGGUF版です。
- Downloads: 36
- lightblue/openorca_stx
- About This model is Lightblue's QLoRA finetune of OpenOrca's Open-Orca/OpenOrcaxOpenChat-Preview2-13B model on Japanese fine-tuning datasets.
- Downloads: 36
- LoneStriker/stabilityai_japanese-stablelm-instruct-gamma-7b-8.0bpw-h6-exl2
- Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 35
- LoneStriker/stabilityai_japanese-stablelm-instruct-gamma-7b-5.0bpw-h6-exl2
- Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 35
- LoneStriker/stabilityai_japanese-stablelm-instruct-gamma-7b-4.0bpw-h6-exl2
- Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 35
- sonoisa/byt5-small-japanese
- 日本語ByT5事前学習済みモデル This is a ByT5 (a tokenizer-free extension of the Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.
- Downloads: 35
- Mizuiro-sakura/t5-CAMERA-title-generation
- sonoisa/t5-base-japaneseをファインチューニングして、タイトル生成に用いれるようにしたモデルです。
- Downloads: 33
- MaziyarPanahi/japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1
- japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1 japanese-stablelm-base-gamma-7b-Mistral-7B-Instruct-v0.1 is a merge of the following models: mistralai/Mistral-7B-Instruct-v0.1 stabilityai/japanese-stablelm-base-gamma-7b 🧩 Configuration slices: - sources: - model: mistralai/Mistral-7B-Instruct-v0.1 layer_range:
- Downloads: 33
- drewschaub/whisper-large-v3-japanese-4k-steps
- whisper-large-v3-japanese-4k-steps This model is a fine-tuned version of openai/whisper-large-v3 on the Common Voice 16.1 dataset.
- Downloads: 33
- skytnt/gpt2-japanese-lyric-medium
- Japanese GPT2 Lyric Model Model description
- Downloads: 33
- LoneStriker/SambaLingo-Japanese-Chat-GGUF
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 32
- hakutaku/qwen2.5-ja-zh
- Qwen2.5-ja-zh
- Downloads: 32
- vumichien/wav2vec2-xls-r-1b-japanese
- Model description This model is a fine-tuned version of facebook/wav2vec2-xls-r-1b on my collection of Public Japanese Voice datasets for research Common Voice 7.0, JUST (Japanese speech corpus of Saruwatari-lab.
- Downloads: 32
- nold/Orion-14B-Base-GGUF
- Orion-14B 🌐English | 🇨
- Downloads: 32
- ohwi/japanese-stablelm-instruct-gamma-7b-repro
- Reproduced Japanese Stable LM Instruct Gamma 7B Model Description
- Downloads: 32
- paulhindemith/fasttext-jp-embedding
- fasttext-jp-embedding This model is experimental.
- Downloads: 32
- KoichiYasuoka/deberta-base-japanese-wikipedia-ud-head
- deberta-base-japanese-wikipedia-ud-head Model Description
- Downloads: 32
- sonoisa/vl-t5-base-japanese
- 日本語VL-T5事前学習済みモデル
- Downloads: 32
- Aratako/Oumuamua-7b-RP
- Oumuamua-7b-RP GGUF版はこちら/Click here for the GGUF version 概要 This is a merge of pre-trained language models created using mergekit.
- Downloads: 32
- kaiinui/kotoba-whisper-v2.0-mlx
- kotoba-whisper-v2.0-mlx This repository contains a converted mlx-whisper model of kotoba-whisper-v2.0 which is suitable for running with Apple Silicon.
- Downloads: 31
- owner203/japanese-alpaca-2-13b-gguf
- Japanese-Alpaca-2-13B-GGUF Japanese-Alpaca-2-13B-GGUFはJapanese-Alpaca-2-13BのGGUF形式です。
- Downloads: 31
- llm-book/bert-base-japanese-v3-bpr-question-aio
- bert-base-japanese-v3-bpr-question-aio 「大規模言語モデル入門」の第9章で紹介している文書検索モデルBPRの質問エンコーダです。
- Downloads: 31
- nlp-waseda/comet-gpt2-xl-japanese
- COMET-GPT2 ja v2 Finetuned GPT-2 xl on the large version of ATOMIC ja using a causal language modeling (CLM) objective.
- Downloads: 30
- MaziyarPanahi/japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1
- japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1 japanese-stablelm-instruct-gamma-7b-Mistral-7B-Instruct-v0.1 is a merge of the following models: mistralai/Mistral-7B-Instruct-v0.1 stabilityai/japanese-stablelm-instruct-gamma-7b 🧩 Configuration slices: - sources: - model: mistralai/Mistral-7B-Instruct-v0.1 layer_range:
- Downloads: 30
- espnet/kan-bayashi_jsut_conformer_fastspeech2
- Example ESPnet2 TTS model kan-bayashi/jsut_conformer_fastspeech2 ♻
- Downloads: 30
- arc-r/faster-whisper-large-v2-jp
- whisper-large-v2-jp model for CTranslate2 This repository contains the conversion of vumichien/whisper-large-v2-jp to the CTranslate2 model format.
- Downloads: 29
- tarudesu/gendec-with-distilmbert
- INPUT: Japanese name in ROMAJI FORM OUTPUT:
- Downloads: 29
- ToPo-ToPo/line-japanese-large-lm-1.7b-kunishou-databricks-dolly-15k-ja-full-instruction-sft
- モデルの概要 line-corporation/japanese-large-lm-1.7bのベースモデルに対し,sftによるfull instruction tuningを行いました.
- Downloads: 29
- ohwi/japanese-stablelm-instruct-gamma-7b-dpo-uf-v1
- Japanese Stable LM Instruct Gamma 7B +
- Downloads: 29
- AndrewMcDowell/wav2vec2-xls-r-300m-japanese
- This model is a fine-tuned version of facebook/wav2vec2-xls-r-300m on the MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - JA dataset.
- Downloads: 27
- nlp-waseda/comet-gpt2-small-japanese
- COMET-GPT2 ja Finetuned GPT-2 on ATOMIC ja using a causal language modeling (CLM) objective.
- Downloads: 27
- retrieva-jp/t5-small-long
- Model card for model ID
- Downloads: 27
- bennexx/cl-tohoku-bert-base-japanese-v3-jlpt-classifier
- Summary This is a text classifier for assigning a JLPT level.
- Downloads: 27
- ohwi/japanese-stablelm-instruct-gamma-7b-dpo-uf-v0
- Japanese Stable LM Instruct Gamma 7B +
- Downloads: 27
- sonoisa/sentence-bert-base-ja-en-mean-tokens
- This is a Japanese+English sentence-BERT model.
- Downloads: 26
- line-corporation/japanese-large-lm-3.6b-instruction-sft-8bit-1g-actorder_True
- japanese-large-lm-3.6b-instruction-sft-8bit-1g-actorder_True
- Downloads: 26
- hakuhodo-tech/japanese-clip-vit-h-14-bert-base
- Japanese CLIP ViT-H/14 (Base) Table of Contents Overview Usage Model Details Evaluation Limitations and Biases Citation See Also Contact Information Overview Developed by:
- Downloads: 26
- aerner/lm-v1
- Aerner LM-v1 事前学習から全部日本語で学習させたモデルです。
- Downloads: 26
- nlp-waseda/gpt2-small-japanese
- nlp-waseda/gpt2-small-japanese This model is Japanese GPT-2 pretrained on Japanese Wikipedia and CC-100.
- Downloads: 26
- ThePioneer/MoeDiffusionPlusPlus
- モデル説明 (model explanation) V1 = MoeDiffusion 1.0 + (HassanBlend 1.5 - VMix03) * 0.2 V2 = MoeDiffusion 0.6 : HassanBlend 1.5 0.2 : VMix03 : 0.2 マージ元のルーツにNAIリークやInsta系モデルが含まれるという噂があるので、NAIリークアンチ・Insta系モデルアンチには非推奨 理想の黒髪ポニテ顔が出せるYaguruMagikuを、ある程度顔が近くて制御しやすいAbyssOrangeMix2と混ぜてみた。
- Downloads: 25
- Aruno/Bloom-JP-160m
- Bloom model trained on Japanese corpus.
- Downloads: 25
- oshizo/japanese-e5-mistral-7b_slerp
- This model was created by merging intfloat/e5-mistral-7b-instruct and stabilityai/japanese-stablelm-base-gamma-7b.
- Downloads: 25
- if001/tiny_mixtral_ja
- 275.86Mのmixtralを日本語データセットでpretrainingしたものです sample from transformers import AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("if001/tiny_mixtral_ja")
- Downloads: 25
- turing-motors/heron-chat-blip-ja-stablelm-base-7b-v1-llava-620k
- Heron BLIP Japanese StableLM
- Downloads: 25
- sonoisa/t5-qiita-title-generation
- 記事本文からタイトルを生成するモデル SEE: https://qiita.com/sonoisa/items/30876467ad5a8a81821f
- Downloads: 25
- ptaszynski/yacis-electra-small-japanese
- yacis-electra-small
- Downloads: 24
- nlp-waseda/gpt2-small-japanese-wikipedia
- nlp-waseda/gpt2-small-japanese-wikipedia This model is Japanese GPT-2 pretrained on Japanese Wikipedia.
- Downloads: 24
- ClassCat/gpt2-base-japanese-v2
- GPT2 Japanese base model version 2 Prerequisites transformers==4.19.2 Model architecture This model uses GPT2 base setttings except vocabulary size.
- Downloads: 24
- Mizuiro-sakura/luke-japanese-base-finetuned-jsts
- このモデルはluke-japanese-baseをファインチューニングして、JSTS(文章の類似度計算)に用いれるようにしたものです。
- Downloads: 24
- Aratako/ELYZA-japanese-Llama-2-MoE-2x13B-v0.1
- ELYZA-japanese-Llama-2-MoE-2x13B-v0.1 English description here 概要 Llama-2ベースの学習済み日本語モデルであるelyza/ELYZA-japanese-Llama-2-13bと、そのinstruction tuningモデルであるelyza/ELYZA-japanese-Llama-2-13b-instruct を、mergekitを使ってMoEを行い作成したモデルです。
- Downloads: 24
- oshizo/qa-refine-japanese-gpt-1b
- Model Card for Model ID このモデルはrinna/japanese-gpt-1bをベースモデルとして、 コンテキストからの抽出型QAと、解答を新たなコンテキストでリファインするための学習を行ったモデルです。
- Downloads: 24
- Mizuiro-sakura/luke-japanese-large-finetuned-QA
- このモデルはluke-japanese-large-liteをファインチューニングして、Question-Answeringに用いれるようにしたものです。
- Downloads: 24
- Lasorco/spekulatius
- spekulatius マージしているとたまに出てくる「目的の意図とは違うのだけどなんだか消すにはもったいないモデル」をおすそ分けするシリーズです。
- Downloads: 23
- llm-jp/llm-jp-3-172b-beta2-instruct2
- 「LLM-jp-3 172B beta2」利用規約 この利用規約(以下「本規約」といいます)は、大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(以下「提供者」といいます)による開発の成果物として公開する大規模言語モデル「LLM-jp-3 172B beta2」(以下「本プログラム」といいます)の利用に関する条件を定めるものです。
- Downloads: 23
- KoichiYasuoka/deberta-large-japanese-aozora-ud-head
- deberta-large-japanese-aozora-ud-head Model Description
- Downloads: 23
- Hemlok/REV-Mix
- ◆REV-Mix "レボリューション"なモデルです。
- Downloads: 23
- turing-motors/heron-chat-blip-ja-stablelm-base-7b-v0
- Heron BLIP Japanese StableLM
- Downloads: 23
- owner203/japanese-llama-2-7b-gguf
- Japanese-LLaMA-2-7B-GGUF Japanese-LLaMA-2-7B-GGUFはJapanese-LLaMA-2-7BのGGUF形式です。
- Downloads: 23
- sambanovasystems/SambaLingo-Japanese-Base
- SambaLingo-Japanese-Base SambaLingo-Japanese-Base is a pretrained Bi-lingual Japanese and English model that adapts Llama-2-7b to Japanese by training on 42 billion tokens from the Japanese split of the Cultura-X dataset.
- Downloads: 23
- TFMC/ChatNTQ-JA-7b-v1.0-GGUF
- GGUF conversion of NTQAI/chatntq-ja-7b-v1.0 ChatNTQ-JA-7b-v1.0 is a Japanese chat fine-tuned model built on top of the stabilityai/japanese-stablelm-base-gamma-7b, which is originally based on Mistral 7B v0.1.
- Downloads: 23
- rinna/nekomata-14b-instruction-gguf
- rinna/nekomata-14b-instruction-gguf Overview The model is the GGUF version of rinna/nekomata-14b-instruction.
- Downloads: 23
- taishi-i/awesome-japanese-nlp-classification-model
- Model overview This model is the baseline model for awesome-japanese-nlp-classification-dataset.
- Downloads: 23
- llm-book/bert-base-japanese-v3-bpr-passage-aio
- bert-base-japanese-v3-bpr-passage-aio 「大規模言語モデル入門」の第9章で紹介している文書検索モデルBPRのパッセージエンコーダです。
- Downloads: 23
- nlp-waseda/comet-v2-gpt2-small-japanese
- COMET-GPT2 ja v2 Finetuned GPT-2 on the large version of ATOMIC ja using a causal language modeling (CLM) objective.
- Downloads: 23
- KoichiYasuoka/roberta-base-japanese-aozora-ud-head
- roberta-base-japanese-aozora-ud-head Model Description
- Downloads: 23
- Helsinki-NLP/opus-mt-ja-he
- jpn-heb source group: Japanese target group:
- Downloads: 23
- colorfulscoop/bert-base-ja
- BERT base Japanese model This repository contains a BERT base model trained on Japanese Wikipedia dataset.
- Downloads: 22
- inu-ai/alpaca-guanaco-japanese-gpt-1b
- alpaca-guanaco-japanese-gpt-1b 1.3Bパラメータの日本語GPTモデルを使用した対話AIです。
- Downloads: 22
- NilanE/tinyllama-en_ja-translation-v2
- In-progess long-context Japanese-English translation model based on tinyllama.
- Downloads: 22
- rinna/nekomata-14b-gguf
- rinna/nekomata-14b-gguf Overview The model is the GGUF version of rinna/nekomata-14b.
- Downloads: 22
- bclavie/fio-base-japanese-v0.1
- fio-base-japanese-v0.1 日本語版は近日公開予定です(日本語を勉強中なので、間違いはご容赦ください!
- Downloads: 22
- nakamura196/roberta-small-hi-char
- roberta-small-hi-char Model Description
- Downloads: 22
- KoichiYasuoka/bert-large-japanese-wikipedia-ud-head
- bert-large-japanese-wikipedia-ud-head Model Description
- Downloads: 22
- KoichiYasuoka/roberta-base-japanese-luw-upos
- roberta-base-japanese-luw-upos Model Description
- Downloads: 22
- hotchpotch/bert-base-japanese-v3-retromae
- tohoku-nlp/bert-base-japanese-v3 を RetroMAE で事前学習したモデルです。
- Downloads: 22
- spow12/Visual-novel-transcriptor
- Model Card for Model ID Fine tunned ASR model from distil-whisper/distil-large-v2.
- Downloads: 22
- aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct
- 更新情報 日本語機能とinstructベクトルのバランス調整したver.2をアップロードしましたSwallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2 モデル概要 Swallow-MX-8x7b-NVE-v0.1に対し、 Mixtral-8x7B-Instruct-v0.1とMixtral-8x7B-v0.1の差分をマージしたモデルです。
- Downloads: 22
- Bagus/wav2vec2-xlsr-japanese-speech-emotion-recognition
- This is for (private) DEMO only.
- Downloads: 21
- ku-nlp/deberta-v2-tiny-japanese-char-wwm
- Model Card for Japanese character-level DeBERTa V2 tiny Model description This is a Japanese DeBERTa V2 tiny model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 21
- turing-motors/heron-chat-git-ja-stablelm-base-7b-v0
- Heron GIT Japanese StableLM
- Downloads: 21
- tohoku-nlp/stable-diffusion-xl-jp-refiner-1.0
- (English part follows Japanese one.
- Downloads: 21
- Aratako/Swallow-MoE-2x13B-v0.1
- Swallow-MoE-2x13B-v0.1 English description here 概要 Llama-2ベースの学習済み日本語モデルであるtokyotech-llm/Swallow-13b-instruct-hfと、それを利用したマージモデルであるnitky/Superswallow-13b-v0.2 を、mergekitを使ってMoEを行い作成したモデルです。
- Downloads: 21
- microsoft/unihanlm-base
- Unihan LM: Coarse-to-Fine Chinese-Japanese Language Model Pretraining with the Unihan Database Model description Chinese and Japanese share many characters with similar surface morphology.
- Downloads: 20
- KoichiYasuoka/bert-base-japanese-luw-upos
- bert-base-japanese-luw-upos Model Description
- Downloads: 20
- vumichien/wav2vec2-large-pitch-recognition
- Wav2Vec2 Accent Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese accent dataset When using this model, make sure that your speech input is sampled at 16kHz.
- Downloads: 20
- megagonlabs/roberta-long-japanese
- roberta-long-japanese (jumanpp + sentencepiece, mC4 Japanese)
- Downloads: 20
- Mizuiro-sakura/deberta-v2-base-japanese-finetuned-ner
- このモデルはdeberta-v2-base-japaneseをファインチューニングして固有表現抽出(NER)に用いれるようにしたものです。
- Downloads: 20
- Mizuiro-sakura/bert-large-japanese-v2-finetuned-ner
- このモデルはcl-tohoku/bert-large-japanese-v2をファインチューニングして、固有表現抽出(NER)に用いれるようにしたものです。
- Downloads: 20
- line-corporation/japanese-large-lm-1.7b-instruction-sft-4bit-128g-actorder_False
- japanese-large-lm-1.7b-instruction-sft-4bit-128g-actorder_False
- Downloads: 20
- kanhatakeyama/Tanuki-ZeRo
- Tanuki-Zero Base model: llm-jp/llm-jp-13b-v1.0 Instruction data: Randomly sampled, 15k Jaster dataset (train) Code is here.
- Downloads: 20
- falche/opennovel_oc2_01a_7b
- Model description Cyberagent様のcyberagent/calm2-7b-chatを追加学習した、作家さん用アシスタントAIのアルファ版です。
- Downloads: 20
- reazon-research/reazonspeech-espnet-v1
- reazonspeech-espnet-v1 reazonspeech-espnet-v1 is an ESPnet model trained for Japanese automatic speech recognition (ASR).
- Downloads: 20
- KoichiYasuoka/deberta-base-japanese-unidic-ud-head
- deberta-base-japanese-unidic-ud-head Model Description
- Downloads: 20
- Miwa-Keita/zenz-v1
- zenz-v1 zenz-v1はGPT-2アーキテクチャに基づくかな漢字変換タスクに特化した言語モデルです。
- Downloads: 19
- izumi-lab/electra-small-japanese-discriminator
- ELECTRA small Japanese discriminator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 19
- kit-nlp/bert-base-japanese-basic-char-v2-cyberbullying
- electra-base-cyberbullying This is a BERT Base model for the Japanese language finetuned for automatic cyberbullying detection.
- Downloads: 19
- Lycoris53/Vits-TTS-Japanese-Only-Amitaro
- VITS TTS Japanese Only Amitaro VITS TTS model finetuned using free voice data from amitaro free voice here あみたろの声素材工房 Finetuning code is from Plachtaa - VITS Fast Fine-tuning See sample usage Lycoris53/VITS-TTS-Japanese-Only-Amitaro Model Details 76 annotated wav file train for 600 epoch 日本語の説明などこちらに AiThinkso.net Developed by:
- Downloads: 19
- tsukemono/japanese-novel-gpt-j-6b-f16-marisa
- モデルの概略 東方Projectのキャラクターである霧雨魔理沙とおしゃべりできるモデルです。
- Downloads: 19
- Ivydata/wav2vec2-large-xlsr-53-japanese
- Fine-tuned Japanese Wav2Vec2 model for speech recognition using XLSR-53 large Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using Common Voice, JVS and JSUT.
- Downloads: 19
- slplab/wav2vec2-xls-r-300m-japanese-hiragana
- Wav2Vec2-XLS-R-300M-Japanese-Hiragana Fine-tuned facebook/wav2vec2-xls-r-300m on Japanese Hiragana characters using the Common Voice and JSUT.
- Downloads: 19
- lmg-anon/vntl-gemma2-2b-lora
- Summary This is an Gemma 2 Baku lora, created using the VNTL 3.1 dataset.
- Downloads: 18
- naclbit/gpt-j-japanese-6.8b
- This pre-trained model is work in progress!
- Downloads: 18
- Mizuiro-sakura/luke-japanese-base-finetuned-jnli
- このモデルはluke-japanese-baseをファインチューニングして、JNLI(文章の関係性判別)に用いれるようにしたものです。
- Downloads: 18
- JhonVanced/whisper-large-v3-japanese-4k-steps-ct2
- Convert from: drewschaub/whisper-large-v3-japanese-4k-steps Whisper large-v3 model for CTranslate2 This repository contains the conversion of drewschaub/whisper-large-v3-japanese-4k-steps to the CTranslate2 model format.
- Downloads: 18
- Aratako/ELYZA-japanese-Llama-2-MoE-2x7B-v0.1
- ELYZA-japanese-Llama-2-MoE-2x7B-v0.1 English description here 概要 Llama-2ベースの学習済み日本語モデルであるelyza/ELYZA-japanese-Llama-2-7bと、そのinstruction tuningモデルであるelyza/ELYZA-japanese-Llama-2-7b-instruct を、mergekitを使ってMoEを行い作成したモデルです。
- Downloads: 18
- Aratako/Swallow-MoE-4x7B-lisa
- Swallow-MoE-4x7B-lisa 概要 tokyotech-llm/Swallow-7b-hfをベースに、以下の4モデルをgate_mode=randomでMoEし、その後LISAという手法でインストラクションチューニングを施したモデルです。
- Downloads: 18
- mmnga/Tanuki-ZeRo-gguf
- Tanuki-ZeRo-gguf kanhatakeyamaさんが公開しているTanuki-ZeRoのggufフォーマット変換版です。
- Downloads: 18
- KoichiYasuoka/roberta-large-japanese-aozora-ud-head
- roberta-large-japanese-aozora-ud-head Model Description
- Downloads: 18
- KoichiYasuoka/deberta-large-japanese-unidic-ud-head
- deberta-large-japanese-unidic-ud-head Model Description
- Downloads: 18
- spacy/ja_core_news_lg
- Details: https://spacy.io/models/ja#ja_core_news_lg Japanese pipeline optimized for CPU.
- Downloads: 18
- Local-Novel-LLM-project/Ninja-v1
- Our Models Vecteus Ninja-v1 Ninja-v1-NSFW Ninja-v1-128k Ninja-v1-NSFW-128k Model Card for Ninja-v1.0 The Mistral-7B--based Large Language Model (LLM) is an noveldataset fine-tuned version of the Mistral-7B-v0.1 Ninja has the following changes compared to Mistral-7B-v0.1.
- Downloads: 18
- ttop324/wav2vec2-live-japanese
- wav2vec2-live-japanese https://github.com/ttop32/wav2vec2-live-japanese-translatorFine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese hiragana using the common_voice JSUT CSS10
- Downloads: 17
- qqpann/w2v_hf_jsut_xlsr53
- Wav2Vec2-Large-XLSR-53-Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the Common Voice, and JSUT dataset{s}.
- Downloads: 17
- huranokuma/es_IT
- ESを書くAI Japanese GPT-2 modelをファインチューニングしました。
- Downloads: 17
- akiFQC/japanese-dialogpt-small-aozora
- Japanese DialoGPT trained with Aozora (ja) 青空文庫のセリフで学習した日本語のDialoGPT Smallです(en) Japanese DialoGPT Small trained on Aozora Bunko.
- Downloads: 17
- Lycoris53/Vits-TTS-Japanese-Only-Sakura-Miko
- VITS TTS Japanese Only Sakura Miko こちらは「さくらみこ」の音声データセットに基づいて学習されたVITS-TTSモデルです。
- Downloads: 17
- Jumtra/mpt-7b-base
- MPT-7B-base このモデルは、MosaicMLのllm-foundryリポジトリを使用してmosaicml/mpt-7bをファインチューニングしたモデルです。
- Downloads: 17
- taishi-i/nagisa_bert
- nagisa_bert A BERT model for nagisa.
- Downloads: 17
- KoichiYasuoka/deberta-large-japanese-wikipedia-ud-head
- deberta-large-japanese-wikipedia-ud-head Model Description
- Downloads: 17
- sonoisa/t5-base-japanese-title-generation
- 記事本文からタイトルを生成するモデル SEE: https://qiita.com/sonoisa/items/a9af64ff641f0bbfed44
- Downloads: 17
- Aratako/Ninja-v1-RP-expressive-breadcrumbs
- Ninja-v1-RP-expressive-breadcrumbs GGUF版はこちら/Click here for the GGUF version 概要 This is a merge of pre-trained language models created using mergekit.
- Downloads: 16
- espnet/kan-bayashi_tsukuyomi_tts_finetune_full_band_jsut_vits_raw_phn_jaconv_pyopenjtalk_prosody_latest
- ESPnet2 TTS pretrained model kan-bayashi/tsukuyomi_tts_finetune_full_band_jsut_vits_raw_phn_jaconv_pyopenjtalk_prosody_latest ♻
- Downloads: 16
- huranokuma/es
- ESを書くAI Japanese GPT-2 modelをファインチューニングしました ファインチューニングには、内定者の二万件以上のESを用いました。
- Downloads: 16
- ganchengguang/Yoko_13B_Japanese_QLoRA
- This model is traned with llm-japanese-dataset dataset.
- Downloads: 16
- line-corporation/japanese-large-lm-3.6b-instruction-sft-4bit-128g-actorder_False
- japanese-large-lm-3.6b-instruction-sft-4bit-128g-actorder_False
- Downloads: 16
- line-corporation/japanese-large-lm-3.6b-instruction-sft-4bit-32g-actorder_False
- japanese-large-lm-3.6b-instruction-sft-4bit-32g-actorder_False
- Downloads: 16
- mmnga/ELYZA-japanese-CodeLlama-7b-instruct-GPTQ-calib-ja-1k
- ELYZA-japanese-CodeLlama-7b-instruct-GPTQ-calib-ja-1k elyzaさんが公開しているELYZA-japanese-CodeLlama-7b-instructを 日本語のキャリブレーションセットで生成したGPTQモデルになります。
- Downloads: 16
- hotchpotch/youri-7b-sft-qa-context-jaqket-gptq
- お知らせ より回答が適切になるように学習させたモデル、https://huggingface.co/hotchpotch/youri-7b-stf-qa-context-jaqket-jsquad-gptq もあります。
- Downloads: 16
- abeja/Mixtral-8x7B-Instruct-v0.1-japanese-alpha-merged
- Mixtral-8x7B-Instruct-v0.1-japanese-alpha-merged Mixtral-8x7B-Instruct-v0.1-japanese-alpha-mergedはMixtral-8x7B-Instruct-v0.1をベースに日本語の語彙拡張継続事前学習を実施した学習途中のモデルに対して、差分マージを実施したモデルです。
- Downloads: 16
- nlp-waseda/tacomet-gpt2-xl-japanese
- TaCOMET_ja
- Downloads: 16
- akineAItech/Jeneri-SAMA-6B
- japanese-novel-gpt-j-6b https://huggingface.co/AIBunCho/japanese-novel-gpt-j-6b" に合計216個の評価の高いなろう小説、青空文庫、ウィキペディアなどの文章をQLoRA学習させた小説生成用モデルです。
- Downloads: 16
- ebisuke/liz-nojaloli-ja
- ebisuke/liz-nojaloli-ja License MIT Licenseベースとしてrinna/japanese-gpt-neox-3.6bを使用しています。
- Downloads: 16
- kit-nlp/bert-base-japanese-basic-char-v2-irony
- bert-base-irony
- Downloads: 16
- Fugaku-LLM/Fugaku-LLM-13B
- Fugaku-LLM利用規約 この利用規約(以下「本規約」といいます)は、富士通株式会社、国立研究開発法人理化学研究所、国立大学法人東京工業大学、国立大学法人東北大学、株式会社サイバーエージェント、国立大学法人東海国立大学機構、及び株式会社Kotoba Technologies Japan (以下「開発者」といいます)による、スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発の成果物として公開する大規模言語モデル(以下「Fugaku-LLM」といいます)の利用に関する条件を定めるものです。
- Downloads: 16
- owner203/japanese-llama-2-7b
- Japanese-LLaMA-2-7B Japanese-LLaMA-2-7Bは基盤モデル、フルモデルです。
- Downloads: 15
- Aratako/ELYZA-japanese-Llama-2-fast-MoE-2x7B-v0.1
- ELYZA-japanese-Llama-2-fast-MoE-2x7B-v0.1 English description here 概要 Llama-2ベースの学習済み日本語モデルであるelyza/ELYZA-japanese-Llama-2-7b-fastと、そのinstruction tuningモデルであるelyza/ELYZA-japanese-Llama-2-7b-fast-instruct を、mergekitを使ってMoEを行い作成したモデルです。
- Downloads: 15
- abeja/Mixtral-8x7B-Instruct-v0.1-japanese-alpha
- Mixtral-8x7B-Instruct-v0.1-japanese-alpha Mixtral-8x7B-Instruct-v0.1-japanese-alphaはMixtral-8x7B-Instruct-v0.1をベースに日本語の語彙拡張継続事前学習を実施した学習途中のモデルです。
- Downloads: 15
- loiccabannes/MambaSan-130m-instruct
- MambaSan-130m-instruct 🐍 MambaSan-instruct is the first chat Japanese language model based on a state-space model architecture (Mamba), not a transformer.
- Downloads: 15
- MuneK/bert-large-japanese-v2-finetuned-jed
- bert-large-japanese-v2-finetuned-wrime
- Downloads: 15
- ebisuke/liz-nojaloli-nxja-ja
- ebisuke/liz-nojaloli-nxja-ja License MIT ベースとしてabeja/gpt-neox-japanese-2.7bを使用しています。
- Downloads: 15
- spacy/ja_core_news_md
- Details: https://spacy.io/models/ja#ja_core_news_md Japanese pipeline optimized for CPU.
- Downloads: 15
- KoichiYasuoka/bert-large-japanese-char-extended
- bert-large-japanese-char-extended Model Description
- Downloads: 14
- nlp-waseda/roberta-large-japanese-with-auto-jumanpp
- nlp-waseda/roberta-large-japanese-with-auto-jumanpp Model description
- Downloads: 14
- Nikolajvestergaard/Japanese_Fine_Tuned_Whisper_Model
- Japanese_Fine_Tuned_Whisper_Model This model is a fine-tuned version of openai/whisper-tiny on the Common Voice dataset.
- Downloads: 14
- yukismd/JapaneseQuizChatbot_v1
- Model Card Summary This model was trained using H2O LLM Studio.
- Downloads: 14
- tsukemono/japanese-stablelm-base-alpha-7b-f16-marisa
- モデルの概略 霧雨魔理沙とおしゃべりできるモデルです。
- Downloads: 14
- ku-nlp/deberta-v2-base-japanese-with-auto-jumanpp
- Model Card for Japanese DeBERTa V2 base Model description This is a Japanese DeBERTa V2 base model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 14
- if001/llama2_ja_small_instruct
- 日本語でtrainingしたllama2をinstruction用のデータセットでsftしたものになります base: https://huggingface.co/if001/llama2_ja_small trainingは以下のscript参照 https://github.com/Lightning-AI/lit-gpt/tree/main use from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("if001/sentencepiece_ja", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("if001/llama2_ja_small")
- Downloads: 14
- ThePioneer/MyVoiceClone-Style-Bert-VITS2
- This model is a voice clone of myself created specifically for Style Bert VITS2.
- Downloads: 14
- abeja/Mixtral-8x7B-Instruct-v0.1-japanese
- Mixtral-8x7B-Instruct-v0.1-japanese Mixtral-8x7B-Instruct-v0.1-japaneseはMixtral-8x7B-Instruct-v0.1をベースに日本語の語彙拡張継続事前学習を実施したモデルです。
- Downloads: 14
- abeja/Mixtral-8x7B-v0.1-japanese
- Mixtral-8x7B-v0.1-japanese Mixtral-8x7B-v0.1-japaneseはMixtral-8x7B-v0.1をベースに日本語の語彙拡張継続事前学習を実施したモデルです。
- Downloads: 14
- watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm
- モデル概要 Watashiha-Llama-2-13B-Ogiri-sftをLLaVAで学習し、画像に対応した大喜利言語モデルです。
- Downloads: 14
- if001/tiny_mixtral_ja_instruction
- tiny_mixtral_jaをinstruction用のデータセットでtrainingしたものですhttps://huggingface.co/if001/tiny_mixtral_ja
- Downloads: 14
- dahara1/ELYZA-japanese-Llama-2-7b-instruct-AWQ
- Model Card for Model ID Original model elyza/ELYZA-japanese-Llama-2-7b-instruct which is based on Meta's "Llama 2" and has undergone additional pre-training in Japanese instruction.
- Downloads: 14
- yohida/yoshida_gpt
- japanese-gpt-1b This repository provides a 1.3B-parameter Japanese GPT model.
- Downloads: 14
- cl-nagoya/ruri-pt-base
- Ruri: Japanese General Text Embeddings Usage First install the Sentence Transformers library: pip install -U sentence-transformers Then you can load this model and run inference.
- Downloads: 13
- werty1248/Mistral-Nemo-NT-Ko-12B-sft
- Mistral-Nemo-NT-Ko-12B-sft Description Mistral-Nemo-NT-Ko-12B-sft is an instruction-tuned version of mistralai/Mistral-Nemo-Base-2407, fine-tuned across four languages: English, Korean, Chinese, and Japanese.
- Downloads: 13
- KoichiYasuoka/bert-large-japanese-luw-upos
- bert-large-japanese-luw-upos Model Description
- Downloads: 13
- svjack/Stable-Diffusion-Pokemon-ja
- Japanese Stable Diffusion Pokemon Model Card Stable-Diffusion-Pokemon-ja is a Japanese-specific latent text-to-image diffusion model capable of generating Pokemon images given any text input.
- Downloads: 13
- KoichiYasuoka/roberta-base-japanese-aozora-ud-goeswith
- roberta-base-japanese-aozora-ud-goeswith Model Description
- Downloads: 13
- AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese
- AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese This model is Llama-2-Chat 70B fine-tuned with a part of the Japanese instruction dataset named izumi-lab/llm-japanese-dataset.
- Downloads: 13
- line-corporation/japanese-large-lm-1.7b-instruction-sft-4bit-32g-actorder_False
- japanese-large-lm-1.7b-instruction-sft-4bit-32g-actorder_False
- Downloads: 13
- sbtom/karakuri-midroze-mg
- karakuri-midrose-mg モデルの詳細は、こちらです。
- Downloads: 13
- HPLT/hplt_bert_base_ja
- HPLT Bert for Japanese This is one of the encoder-only monolingual language models trained as a first release by the HPLT project.
- Downloads: 13
- kcoopermiller/llm-jp-1.3b-v1.0-aya
- llm-jp-1.3b-v1.0-aya llm-jp's llm-jp-1.3b-v1.0 model fine-tuned on the Japanese examples from Cohere's aya dataset Model llm-jp-eval AVG kcoopermiller/llm-jp-1.3b-v1.0-aya 0.0698 llm-jp/llm-jp-1.3b-v1.0 0.047 How to use import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("kcoopermiller/llm-jp-1.3b-v1.0-aya")
- Downloads: 13
- kanxxyc/JPNsensei-V2
- JPNsensei-V2 Model Application
- Downloads: 13
- ganchengguang/Yoko-7B-Japanese-v1
- This model is traned with guanaco dataset.
- Downloads: 13
- Mizuiro-sakura/deberta-v2-japanese-base-finetuned-commonsenseqa
- このモデルはdeberta-v2-base-japaneseをファインチューニングしてCommonsenseQA(選択式の質問)に用いれるようにしたものです。
- Downloads: 13
- Formzu/roberta-base-japanese-jsnli
- roberta-base-japanese-jsnli This model is a fine-tuned version of nlp-waseda/roberta-base-japanese on the JSNLI dataset.
- Downloads: 13
- KoichiYasuoka/deberta-base-japanese-luw-upos
- deberta-base-japanese-luw-upos Model Description
- Downloads: 13
- KoichiYasuoka/deberta-base-japanese-aozora
- deberta-base-japanese-aozora Model Description
- Downloads: 13
- sonoisa/sentence-t5-base-ja-mean-tokens
- This is a Japanese sentence-T5 model.
- Downloads: 13
- megagonlabs/t5-base-japanese-web-8k
- t5-base-japanese-web-8k (with Byte-fallback, 8K) Description megagonlabs/t5-base-japanese-web-8k is a T5 (Text-to-Text Transfer Transformer) model pre-trained on Japanese web texts.
- Downloads: 13
- KoichiYasuoka/roberta-large-japanese-luw-upos
- roberta-large-japanese-luw-upos Model Description
- Downloads: 13
- KoichiYasuoka/roberta-base-japanese-char-luw-upos
- roberta-base-japanese-char-luw-upos Model Description
- Downloads: 13
- Lycoris53/style-bert-vits2-sakura-miko
- Style-Bert-VITS2 Japanese Only Sakura Miko こちらは「さくらみこ」の音声データセットに基づいて学習されたVITS-TTSモデルです。
- Downloads: 12
- masato12/bert-base-japanese-v3-marc_ja
- https://huggingface.co/llm-book/bert-base-japanese-v3-marc_ja with ONNX weights to be compatible with Transformers PHP bert-base-japanese-v3-marc_ja 「大規模言語モデル入門」の第5章で紹介している(感情分析)のモデルです。
- Downloads: 12
- izumi-lab/electra-small-japanese-fin-generator
- ELECTRA small Japanese finance generator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 12
- staka/takomt
- TakoMT
- Downloads: 12
- KoichiYasuoka/deberta-base-japanese-unidic-luw-upos
- deberta-base-japanese-unidic-luw-upos Model Description
- Downloads: 12
- sonoisa/t5-base-japanese-adapt
- 日本語T5 Prefix Language Model
- Downloads: 12
- ThePioneer/MoeSharpV1
- モデル説明 (model explanation) MoeDiffusionPlusPlus 0.7 : DreamShaper 3.3 (full) 0.3。
- Downloads: 12
- ganchengguang/USA-7B-instruction-incontext-learning
- Only for Japanese Please use AutoTokenizer and AutoModelForCausalLM And must use Unifine format to input and output.
- Downloads: 12
- watashiha/Watashiha-Llama-2-13B-Ogiri-sft-neuron
- The English document is here モデル概要 Watashiha-Llama-2-13B-Ogiri-sftをAWSのinf2インスタンスで動作するようにコンパイルされたモデルです。
- Downloads: 12
- GralchemOz/Qwen1.5-14B-vntl-jp2zh-4.5bpw-h6-exl2
- This model is a merged version of qwen-14b-vntl and Qwen1.5-14B-Chat , aiming for the translation of Japanese context into Chinese.
- Downloads: 12
- hotchpotch/youri-7b-sft-qa-context-jaqket-awq
- お知らせ より回答が適切になるように学習させたモデル、https://huggingface.co/hotchpotch/youri-7b-stf-qa-context-jaqket-jsquad-gptq もあります。
- Downloads: 12
- Lasorco/Kokuwa
- Kokuwa lamettaの改良でマージさせるモデル探しをしていたらKiwiMixという面白そうなモデルを見つけました。
- Downloads: 12
- hyperonym/barba
- Barba Barba is a multilingual natural language inference model for textual entailment and zero-shot text classification, available as an end-to-end service through TensorFlow Serving.
- Downloads: 12
- KoichiYasuoka/deberta-large-japanese-wikipedia-luw-upos
- deberta-large-japanese-wikipedia-luw-upos Model Description
- Downloads: 12
- KoichiYasuoka/deberta-small-japanese-upos
- deberta-small-japanese-upos Model Description
- Downloads: 12
- KoichiYasuoka/roberta-large-japanese-char-luw-upos
- roberta-large-japanese-char-luw-upos Model Description
- Downloads: 12
- Helsinki-NLP/opus-mt-ja-ms
- jpn-msa source group: Japanese target group: Malay (macrolanguage) OPUS readme: jpn-msa model: transformer-align source language(s): jpn jpn_Hani jpn_Hira jpn_Kana target language(s): ind
- Downloads: 12
- hs-hf/m2v-LaBSE-distilled
- m2v-LaBSE-distilled Model Card
- Downloads: 12
- cinmodel/electra-small-japanese-discriminator
- Japanese ELECTRA-small We provide a Japanese ELECTRA-Small model, as described in ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators.
- Downloads: 11
- doc2query/msmarco-japanese-mt5-base-v1
- doc2query/msmarco-japanese-mt5-base-v1 This is a doc2query model based on mT5 (also known as docT5query).
- Downloads: 11
- zaq-hack/Orion-14B-LongChat-bpw600-h6-exl2
- Orion-14B 🌐English | 🇨
- Downloads: 11
- furnqse/elyza-fork2
- ELYZA-japanese-Llama-2-7b Model Description ELYZA-japanese-Llama-2-7b は、 Llama2をベースとして日本語能力を拡張するために追加事前学習を行ったモデルです。
- Downloads: 11
- sbtom/karakuri-midrose-CV
- karakuri-midroze-CV モデルの詳細は、こちらです。
- Downloads: 11
- Elizezen/Omnia-2x7B
- Omnia 2x7B Description This repository hosts Omnia-2x7B, an advanced Japanese language model specifically trained for generating novels.
- Downloads: 11
- alfredplpl/suzume-poc
- はじめに GoogleのGemma-2Bを日本語で使えるように継続事前学習を施した、商用利用可能なベースモデルです。
- Downloads: 11
- LoneStriker/SambaLingo-Japanese-Chat-3.0bpw-h6-exl2
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 11
- nitky/Superswallow-70b-v0.1
- Superswallow-70b-v0.1 Known Performance Issues Two potential bugs have been found in this model: NEED repetition_penalty NEED high temperature Reference: Japanese LLM benchmark results at Nejumi LLM Leaderboad Neo
- Downloads: 11
- KoichiYasuoka/deberta-base-japanese-juman-ud-goeswith
- deberta-base-japanese-juman-ud-goeswith Model Description
- Downloads: 11
- KoichiYasuoka/deberta-large-japanese-upos
- deberta-large-japanese-upos Model Description
- Downloads: 11
- kz/mt5base-finetuned-patentsum-japanese-small
- Google's mt5-base fine-tuned in Japanese to summarize patent claims in a limited Pharmaceutical domain.
- Downloads: 11
- espnet/kan-bayashi_jsut_tacotron2
- Example ESPnet2 TTS model kan-bayashi/jsut_tacotron2 ♻
- Downloads: 11
- swdq/Visual-novel-whisper
- https://huggingface.co/kotoba-tech/kotoba-whisper-v1.1 上記のモデルを訓練し、アダルト用語を認識できるようにしたものです。
- Downloads: 11
- mmnga/Llama-3-70B-japanese-suzume-vector-v0.1
- Model Card for Model ID 実験モデルです /
- Downloads: 3,161
- mmnga/Phi-3-mini-128k-instruct-gguf
- Phi-3-mini-128k-instruct-gguf microsoftさんが公開しているPhi-3-mini-128k-instructのggufフォーマット変換版です。
- Downloads: 1,110
- mmnga/Qwen1.5-110B-Chat-gguf
- Qwen1.5-110B-Chat-gguf Qwenさんが公開しているQwen1.5-110B-Chatのggufフォーマット変換版です。
- Downloads: 1,042
- mmnga/alfredplpl-Llama-3-8B-Instruct-Ja-gguf
- alfredplpl-Llama-3-8B-Instruct-Ja-gguf alfredplplさんが公開しているLlama-3-8B-Instruct-Jaのggufフォーマット変換版です。
- Downloads: 1,025
- mmnga/lightblue-suzume-llama-3-8B-japanese-gguf
- lightblue-suzume-llama-3-8B-japanese-gguf lightblueさんが公開しているsuzume-llama-3-8B-japaneseのggufフォーマット変換版です。
- Downloads: 976
- mmnga/YuisekinAIEvol-Mistral-7B-ja-math-v0.1.1-gguf
- YuisekinAIEvol-Mistral-7B-ja-math-v0.1.1-gguf yuisekiさんが公開しているYuisekinAIEvol-Mistral-7B-ja-math-v0.1.1のggufフォーマット変換版です。
- Downloads: 896
- mmnga/pfnet-nekomata-14b-pfn-qfin-inst-merge-gguf
- pfnet-nekomata-14b-pfn-qfin-inst-merge-gguf pfnetさんが公開しているnekomata-14b-pfn-qfin-inst-mergeのggufフォーマット変換版です。
- Downloads: 852
- mmnga/umiyuki-Japanese-Chat-Umievo-itr001-7b-gguf
- umiyuki-Japanese-Chat-Umievo-itr001-7b-gguf umiyukiさんが公開しているJapanese-Chat-Umievo-itr001-7bのggufフォーマット変換版です。
- Downloads: 790
- A-Funakoshi/bert-base-japanese-v3-wrime-v1
- ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking データセット:llm-book/wrime-sentiment オプティマイザ: adafactor Optunaでハイパーパラメータ探索 学習率スケジュールのタイプ(lr_scheduler_type):
- Downloads: 707
- mmnga/pfnet-nekomata-14b-pfn-qfin-gguf
- pfnet-nekomata-14b-pfn-qfin-gguf pfnetさんが公開しているnekomata-14b-pfn-qfinのggufフォーマット変換版です。
- Downloads: 644
- mmnga/haqishen-Llama-3-8B-Japanese-Instruct-gguf
- haqishen-Llama-3-8B-Japanese-Instruct-gguf haqishenさんが公開しているLlama-3-8B-Japanese-Instructのggufフォーマット変換版です。
- Downloads: 602
- mmnga/ryota39-Phi-3-mini-4k-instruct-dpo-gguf
- ryota39-Phi-3-mini-4k-instruct-dpo-gguf ryota39さんが公開しているPhi-3-mini-4k-instruct-dpoのggufフォーマット変換版です。
- Downloads: 599
- alter-wang/bert-base-japanese-emotion-lily
- This is a BERT Base model for emotion analysis in Japanese additionally fine-tuned for emotion detection and classification.
- Downloads: 280
- haqishen/h2o-Llama-3-8B-Japanese-Instruct
- Introduction Who am I: Qishen Ha
- Downloads: 147
- megagonlabs/transformers-ud-japanese-electra-base-ginza-520
- transformers-ud-japanese-electra-ginza-520 (sudachitra-wordpiece, mC4 Japanese)
- Downloads: 32
- RikkaBotan/style_bert_vits2_jp_extra_asmr_original
- X(Twitter) アカウント ぜひ遊びにきてね。
- Downloads: 23
- natsusakiyomi/Riga_Collection
- Riga_collectionとは?
- Downloads: 22
- llm-jp/llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
- llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
- Downloads: 21
- Jumtra/mpt-7b-inst
- MPT-7B-inst このモデルは、MosaicMLのllm-foundryリポジトリを使用してmosaicml/mpt-7b-instructをファインチューニングしたモデルです。
- Downloads: 21
- ryota39/Phi-3-mini-4k-instruct-dpo
- モデル ベースモデル:microsoft/Phi-3-mini-4k-instruct 学習データセット:llm-jp/hh-rlhf-12k-ja 学習方式:フルパラメータチューニング サンプル import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained( "ryota39/Phi-3-mini-4k-instruct-dpo", trust_remote_code=True, ) model = AutoModelForCausalLM.from_pretrained( "ryota39/Phi-3-mini-4k-instruct-dpo", device_map="auto", torch_dtype='auto', trust_remote_code=True, ) text = "<|user|>\n与えられた質問に対して英語で思考し、日本語で答えてください。
- Downloads: 20
- sonoisa/t5-base-japanese-mC4-Wikipedia
- 日本語T5事前学習済みモデル This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus.
- Downloads: 18
- kit-nlp/electra-small-japanese-discriminator-cyberbullying
- electra-base-cyberbullying This is an ELECTRA Small model for the Japanese language finetuned for automatic cyberbullying detection.
- Downloads: 18
- schroneko/ELYZA-japanese-Llama-2-13b-fast-instruct-gguf
- ELYZA-japanese-Llama-2-13b-fast-instruct-gguf ELYZA-japanese-Llama-2-13b-fast-instructの GGUF 変換モデルです。
- Downloads: 17
- tealgreen0503/japanese-gpt2-medium-ppo-araisan
- paper: 強化学習を用いてキャラクタらしさを付与した雑談応答の生成
- Downloads: 17
- megagonlabs/transformers-ud-japanese-electra-base-discriminator
- transformers-ud-japanese-electra-ginza (sudachitra-wordpiece, mC4 Japanese) -
- Downloads: 16
- eepj/wstcg-mt-ja-en
- WS TCG Card Text Translator A Japanese-English machine translation model specifically trained for translating card text from the Weiss Schwarz (WS) Trading Card Game, fine-tuned on Helsinki-NLP/opus-mt-ja-en.
- Downloads: 16
- aipib/karasu-lora-jp-qa-chat
- karasu-lora-jp-qa-chat karasu fine tuned model by lora method with the original Q&A dataset.
- Downloads: 16
- qqpann/wav2vec2-large-xlsr-japanese-0325-1200
- Wav2Vec2-Large-XLSR-53-{language} #TODO: replace language with your {language}, e.g.
- Downloads: 16
- lightblue/kurage-ja
- Kurage Kurage is a multipurpose RAG model from Lightblue.
- Downloads: 15
- aashish1904/gemma-2-2b-jpn-it-Q2_K-GGUF
- aashish1904/gemma-2-2b-jpn-it-Q2_K-GGUF
- Downloads: 15
- k-ush/xlm-roberta-base-ance-en-jp-warmup
- k-ush/xlm-roberta-base-ance-en-jp-warmup A XLM-RoBERTa-base model trained on mMARCO Japanese dataset with ANCE warmup script.
- Downloads: 15
- akiFQC/bert-base-japanese-v3_nli-jsnli-jnli-jsick
- Cross-Encoder for Natural Language Inference(NLI) for Japanese This model was trained using SentenceTransformers Cross-Encoder class.
- Downloads: 15
- RikkaBotan/style_bert_vits2_jp_extra_cool_original
- X(Twitter) アカウント ぜひ遊びにきてね。
- Downloads: 15
- Elizezen/Phos-7B
- Phos 7B 「どうかお慈悲を もう 疲れ果てました」 生成例 [太字以降がAI生成] 「どうか」 ”それ”は懇願した。
- Downloads: 15
- megagonlabs/transformers-ud-japanese-electra-base-ginza
- transformers-ud-japanese-electra-ginza (sudachitra-wordpiece, mC4 Japanese)
- Downloads: 15
- KoichiYasuoka/bert-large-japanese-unidic-luw-upos
- bert-large-japanese-unidic-luw-upos Model Description
- Downloads: 14
- A-Funakoshi/bert-base-japanese-v3-wrime-v2
- ベースモデル:cl-tohoku/bert-base-japanese-whole-word-masking データセット:llm-book/wrime-sentiment オプティマイザ: adamw Optunaでハイパーパラメータ探索 学習率スケジュールのタイプ(lr_scheduler_type):
- Downloads: 14
- RikkaBotan/style_bert_vits2_jp_extra_sweet_original
- X(Twitter) アカウント ぜひ遊びにきてね。
- Downloads: 14
- llm-jp/llm-jp-13b-instruct-lora-jaster-v1.0
- llm-jp-13b-instruct-lora-jaster-v1.0
- Downloads: 14
- KoichiYasuoka/roberta-large-japanese-aozora-ud-goeswith
- roberta-large-japanese-aozora-ud-goeswith Model Description
- Downloads: 14
- astremo/friendly_JA
- friendly_JA-Model (T5 fine-tuned model) MT model trained using the friendly_JA Corpus attempting to make Japanese easier/more accessible to occidental people by using the Latin/English derived katakana lexicon instead of the standard Sino-Japanese lexicon Examples input output 最適化を応用した機械翻訳モデルは高精度だ オプティマイゼーションを応用したマシントランスレーションモデルは高いアキュラシーだ 彼は架空の世界に住んでいる 彼はイマジナリー世界に住んでいる 新型コロナウイルスに感染してしまった コロナウイルスにかかってしまった 深層学習は難しい ディープラーニングはむずかしい 新たな概念を紹介する 新しいコンセプトを紹介する 津波の警報が流れた ツナミのアラートが流れた 南海トラフの災害は震源地による 南海トラフのディザスターはエピ
- Downloads: 14
- KoichiYasuoka/deberta-large-japanese-aozora-ud-goeswith
- deberta-large-japanese-aozora-ud-goeswith Model Description
- Downloads: 13
- spacy/ja_core_news_trf
- Details: https://spacy.io/models/ja#ja_core_news_trf Japanese transformer pipeline (Transformer(name='cl-tohoku/bert-base-japanese-char-v2', piece_encoder='char', stride=160, type='bert', width=768, window=216, vocab_size=6144)).
- Downloads: 13
- izumi-lab/electra-small-japanese-fin-discriminator
- ELECTRA small Japanese finance discriminator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 13
- KoichiYasuoka/bert-base-japanese-unidic-luw-upos
- bert-base-japanese-unidic-luw-upos Model Description
- Downloads: 13
- izumi-lab/electra-small-paper-japanese-generator
- ELECTRA small Japanese generator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 12
- kit-nlp/yacis-electra-small-japanese-irony
- YACIS ELECTRA Small Japanese for Irony
- Downloads: 12
- astremo/JAINU
- JAINU-Model (T5 fine-tuned model) JAINU is a Japanese - Ainu language machine translation model.
- Downloads: 12
- izumi-lab/electra-small-paper-japanese-fin-generator
- ELECTRA small Japanese finance generator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 11
- kit-nlp/electra-small-japanese-discriminator-irony
- ELECTRA small Japanese discriminator for Irony
- Downloads: 11
- Mizuiro-sakura/luke-japanese-base-commonsenseqa
- このモデルはluke-japanese-baseをファインチューニングして、JCommonsenseQA(選択式応答)に用いれるようにしたものです。
- Downloads: 11
- nlp-waseda/comet-t5-base-japanese
- COMET-T5 ja Finetuned T5 on ATOMIC ja using a text-to-text language modeling objective.
- Downloads: 11
- kit-nlp/transformers-ud-japanese-electra-base-discriminator-irony
- Electra Base Japanese Irony
- Downloads: 11
- Tomohiro/RealMedNLP_CR_JA
- This is a model for named entity recognition of Japanese medical documents.
- Downloads: 11
- ushikado/yuyuyui-chatbot
- yuyuyui-chatbot
- Downloads: 11
- izumi-lab/electra-small-japanese-generator
- ELECTRA small Japanese generator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 11
- retrieva-jp/bert-1.3b
- RetrievaBERT Model The RetrievaBERT is the pre-trained Transformer Encoder using Megatron-LM.
- Downloads: 1,599
- dahara1/translate-task-thinking-test
- Translation Task Thinking Test Model Model Description
- Downloads: 72
- Spiral-AI/Spiral-RetNet-3b-base
- SpiralAI Spiral-RetNet-3b-base We have conducted pre-training from scratch on the RetNet (https://arxiv.org/abs/2307.08621)
- Downloads: 60
- KoichiYasuoka/roberta-small-japanese-aozora
- roberta-small-japanese-aozora Model Description
- Downloads: 41
- KoichiYasuoka/roberta-large-japanese-aozora
- roberta-large-japanese-aozora Model Description
- Downloads: 30
- aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2
- Swallow-MX-8x7b-NVE-v0.1に対し、 Mixtral-8x7B-Instruct-v0.1とMixtral-8x7B-v0.1の差分をマージしたモデルです。
- Downloads: 25
- retrieva-jp/t5-base-short
- Model card for model ID
- Downloads: 22
- DavidAU/alpaca-guanaco-japanese-gpt-1b-Q8_0-GGUF
- DavidAU/alpaca-guanaco-japanese-gpt-1b-Q8_0-GGUF
- Downloads: 19
- KoichiYasuoka/deberta-base-japanese-aozora-ud-goeswith
- deberta-base-japanese-aozora-ud-goeswith Model Description
- Downloads: 19
- KoichiYasuoka/roberta-base-japanese-aozora-char
- roberta-base-japanese-aozora-char Model Description
- Downloads: 18
- yasyune/bert_vits2_2.1_jvnv
- jvnvコーパスのF2から学習して作成したbert-vits2の日本語モデルです。
- Downloads: 18
- naclbit/trin_tokenizer_v3
- Description A Japanese-specialized SentencePiece tokenizer trained for AI Novelist's SuperTrin and Damsel 20B models.
- Downloads: 17
- KoichiYasuoka/roberta-small-japanese-char-luw-upos
- roberta-small-japanese-char-luw-upos Model Description
- Downloads: 17
- alfredplpl/gemma-2b-it-ja-poc-2
- はじめに なんか日本語が話せる商用利用可能なAIです。
- Downloads: 16
- Mizuiro-sakura/deberta-v2-base-juman-finetuned-commonsenseqa
- このモデルはdeberta-v2-base-japaneseをファインチューニングしてCommonsenseQA(選択式の質問)に用いれるようにしたものです。
- Downloads: 16
- KoichiYasuoka/deberta-base-japanese-wikipedia-luw-upos
- deberta-base-japanese-wikipedia-luw-upos Model Description
- Downloads: 16
- izumi-lab/electra-small-paper-japanese-discriminator
- ELECTRA small Japanese discriminator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 15
- sonoisa/t5-base-japanese-article-generation
- タイトルから記事本文を生成するモデル SEE: https://qiita.com/sonoisa/items/a9af64ff641f0bbfed44
- Downloads: 15
- Dallyana/EspnetASR
- reazonspeech-espnet-v1 reazonspeech-espnet-v1 is an ESPnet model trained for Japanese automatic speech recognition (ASR).
- Downloads: 15
- KoichiYasuoka/deberta-large-japanese-aozora
- deberta-large-japanese-aozora Model Description
- Downloads: 14
- KoichiYasuoka/deberta-base-japanese-upos
- deberta-base-japanese-upos Model Description
- Downloads: 14
- hotchpotch/japanese-splade-base-v1-dummy-fast-tokenizer-for-tei
- japanese-splade-base-v1を huggingface/text-embeddings-inferenceで動かすための fork です。
- Downloads: 13
- espnet/kan-bayashi_jsut_tts_train_conformer_fastspeech2_transformer_teacher_r-truncated-f43d8f
- ESPnet2 TTS pretrained model kan-bayashi/jsut_tts_train_conformer_fastspeech2_transformer_teacher_raw_phn_jaconv_pyopenjtalk_prosody_train.loss.ave ♻
- Downloads: 13
- izumi-lab/electra-base-japanese-generator
- ELECTRA base Japanese generator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 13
- KoichiYasuoka/deberta-large-japanese-unidic-luw-upos
- deberta-large-japanese-unidic-luw-upos Model Description
- Downloads: 13
- yasyune/bert_vits2_2.2_jvnv
- jvnvコーパスのF2から学習して作成したbert-vits2の日本語モデルです。
- Downloads: 13
- aken12/splade-japanese
- We initialize SPLADE-japanese from tohoku-nlp/bert-base-japanese-v2.
- Downloads: 13
- Aratako/ELYZA-japanese-Llama-2-MoE-2x7B-v0.1-GGUF
- ELYZA-japanese-Llama-2-MoE-2x7B-v0.1-GGUF 概要 Aratako/ELYZA-japanese-Llama-2-MoE-2x7B-v0.1の量子化済みGGUF版です。
- Downloads: 13
- Yokohide031/rust_cl-tohoku_bert-large-japanese
- What is this model?
- Downloads: 12
- KoichiYasuoka/deberta-base-japanese-wikipedia-ud-goeswith
- deberta-base-japanese-wikipedia-ud-goeswith Model Description
- Downloads: 12
- KoichiYasuoka/deberta-base-japanese-wikipedia
- deberta-base-japanese-wikipedia Model Description
- Downloads: 12
- KoichiYasuoka/deberta-large-japanese-luw-upos
- deberta-large-japanese-luw-upos Model Description
- Downloads: 12
- KoichiYasuoka/roberta-large-japanese-aozora-char
- roberta-large-japanese-aozora-char Model Description
- Downloads: 11
- kkuramitsu/mt5-mini9L
- Model Card for Model ID
- Downloads: 11
- aixsatoshi/Meta-Llama-3.1-8B-Instruct-plus-Swallow
- Swallow-8Bは追加の日本語継続事前学習により日本語が大変流暢なLlama-3派生モデルです。
- Downloads: 8,064
- mmnga/aixsatoshi-Llama-3-8b-Cosmopedia-japanese-gguf
- aixsatoshi-Llama-3-8b-Cosmopedia-japanese-gguf aixsatoshiさんが公開しているLlama-3-8b-Cosmopedia-japaneseのggufフォーマット変換版です。
- Downloads: 3,925
- mmnga/tokyotech-llm-Swallow-13b-instruct-v0.1-gguf
- tokyotech-llm-Swallow-13b-instruct-v0.1-gguf tokyotech-llmさんが公開しているSwallow-13b-instruct-v0.1のggufフォーマット変換版です。
- Downloads: 3,266
- mmnga/Ninja-v1-NSFW-gguf
- Ninja-v1-NSFW-gguf Local-Novel-LLM-projectさんが公開しているNinja-v1-NSFWのggufフォーマット変換版です。
- Downloads: 2,206
- mmnga/rinna-llama-3-youko-8b-gguf
- rinna-llama-3-youko-8b-gguf rinnaさんが公開しているllama-3-youko-8bのggufフォーマット変換版です。
- Downloads: 2,082
- mmnga/tokyotech-llm-Swallow-MS-7b-instruct-v0.1-gguf
- tokyotech-llm-Swallow-MS-7b-instruct-v0.1-gguf tokyotech-llmさんが公開しているSwallow-MS-7b-instruct-v0.1のggufフォーマット変換版です。
- Downloads: 2,049
- rinna/llama-3-youko-8b
- Llama 3 Youko 8B (rinna/llama-3-youko-8b)
- Downloads: 2,030
- mmnga/tokyotech-llm-Swallow-7b-instruct-v0.1-gguf
- tokyotech-llm-Swallow-7b-instruct-v0.1-gguf tokyotech-llmさんが公開しているSwallow-7b-instruct-v0.1のggufフォーマット変換版です。
- Downloads: 2,003
- mmnga/tokyotech-llm-Swallow-70b-instruct-v0.1-gguf
- tokyotech-llm-Swallow-70b-instruct-v0.1-gguf tokyotech-llmさんが公開しているSwallow-70b-instruct-v0.1のggufフォーマット変換版です。
- Downloads: 1,950
- mmnga/Ninja-v1-gguf
- Ninja-v1-gguf Local-Novel-LLM-projectさんが公開しているNinja-v1のggufフォーマット変換版です。
- Downloads: 1,477
- Aratako/Oumuamua-7b-RP-GGUF
- Ninja-v1-RP-expressive-GGUF 概要 Aratako/Oumuamua-7b-RPの量子化済みGGUF版です。
- Downloads: 456
- MCZK/Assistance-7B-GGUF
- Local-Novel-LLM-project様の Assistance をGGUF形式に変換したものです。
- Downloads: 333
- stabilityai/japanese-stablelm-2-instruct-1_6b
- By clicking "Agree", you agree to the License Agreement and acknowledge Stability AI's Privacy Policy.
- Downloads: 308
- nk2t/Llama-3-8B-Instruct-japanese-nk2t-v0.2
- Llama-3-8B-Instruct-JP-nk2t-v0.2 Model Details: Built with Meta Llama 3
- Downloads: 150
- AkitoP/whisper-large-v3-japense-phone_accent
- Whisper Large V3 Japanese Phone Accent
- Downloads: 119
- stabilityai/japanese-stablelm-2-base-1_6b
- By clicking "Agree", you agree to the License Agreement and acknowledge Stability AI's Privacy Policy.
- Downloads: 43
- Formzu/bart-large-japanese
- bart-large-japanese This model is converted from the original Japanese BART Pretrained model released by Kyoto University.
- Downloads: 36
- ohtaman/falcon-7b-kokkai2022-lora
- This model learned the proceedings of the Japanese parliament in 2022.
- Downloads: 26
- hitachi-nlp/bert-base-japanese_jumanpp-bpe
- Japanese BERT-base (Juman++ + BPE) How to load the tokenizer Please download the dictionary file for Juman++ + BPE from our GitHub repository.
- Downloads: 26
- hiroshi-matsuda-rit/electra-base-japanese-discriminator-v2
- electra-base-japanese-discriminator (sudachitra-wordpiece, mC4 Japanese) -
- Downloads: 25
- KoichiYasuoka/roberta-small-japanese-aozora-char
- roberta-small-japanese-aozora-char Model Description
- Downloads: 21
- Mizuiro-sakura/deberta-v2-large-japanese-finetuned-ner
- このモデルはdeberta-v2-large-japaneseをファインチューニングして固有表現抽出(NER)に用いれるようにしたものです。
- Downloads: 20
- hitachi-nlp/bert-base-japanese_sudachi-unigram
- Japanese BERT-base (Sudachi + Unigram)
- Downloads: 20
- Local-Novel-LLM-project/Assistance-GGUF
- Assistance のGGUF版 Our Models for GGUF Vecteus-GGUF Ninja-v1-GGUF Ninja-v1-NSFW-GGUF Ninja-v1-128k-GGUF Ninja-v1-NSFW-128k-GGUF
- Downloads: 19
- KoichiYasuoka/deberta-large-japanese-juman-ud-goeswith
- deberta-large-japanese-juman-ud-goeswith Model Description
- Downloads: 19
- hitachi-nlp/bert-base-japanese_nothing-wordpiece
- Japanese BERT-base (Nothing + WordPiece) How to load the tokenizer Please download the dictionary file for Nothing + WordPiece from our GitHub repository.
- Downloads: 18
- Aratako/ELYZA-japanese-Llama-2-fast-MoE-2x7B-v0.1-GGUF
- ELYZA-japanese-Llama-2-fast-MoE-2x7B-v0.1-GGUF 概要 Aratako/ELYZA-japanese-Llama-2-fast-MoE-2x7B-v0.1の量子化済みGGUF版です。
- Downloads: 18
- TomokiFujihara/twhin-bert-large-japanese-offensiveness-estimation
- モデル概要 このモデルは、 Twitter/twhin-bert-large をSNS上のコメントに人手で攻撃性評価を行ったデータセットでFine-tuningすることで作成しました
- Downloads: 18
- hiroshi-matsuda-rit/bert-base-sudachitra-v11
- bert-base-sudachitra-v11
- Downloads: 16
- KoichiYasuoka/deberta-base-japanese-unidic
- deberta-base-japanese-unidic Model Description
- Downloads: 15
- KoichiYasuoka/deberta-large-japanese-wikipedia-ud-goeswith
- deberta-large-japanese-wikipedia-ud-goeswith Model Description
- Downloads: 15
- aken12/splade-japanese-efficient
- output 筑波 2.0035860538482666 つくば 1.6586617231369019 研究 1.6227693557739258 大学 1.3798155784606934 実験 0.5522942543029785 学生 0.42351895570755005 分析 0.37844282388687134 国立 0.3685397505760193 キャンパス 0.36495038866996765 茨城 0.3056415021419525 科学 0.2876652181148529 関東 0.24301066994667053 地域 0.21340851485729218 実施 0.1976248174905777 先端 0.192025288939476 サイト 0.11629197001457214 調査 0.09159307181835175 プロジェクト 0.08552580326795578 議論 0.07484486699104309 検討 0.007034890353679657
- Downloads: 15
- Language-Media-Lab/byt5-small-ain-jpn-mt
- Byt5-small-ain-jpn-mt is a machine translation model pretrained with Google's ByT5-small and fine-tuned on bilingual datasets crawled from the Web.
- Downloads: 14
- TomokiFujihara/twhin-bert-base-japanese-offensiveness-estimation
- モデル概要 このモデルは、 Twitter/twhin-bert-base をSNS上のコメントに人手で攻撃性評価を行ったデータセットでFine-tuningすることで作成しました
- Downloads: 13
- Local-Novel-LLM-project/Ninja-v1-128k
- Our Models Vecteus Ninja-v1 Ninja-v1-NSFW Ninja-v1-128k Ninja-v1-NSFW-128k Model Card for Ninja-v1-128k The Mistral-7B--based Large Language Model (LLM) is an noveldataset fine-tuned version of the Mistral-7B-v0.1 Ninja-128k has the following changes compared to Mistral-7B-v0.1.
- Downloads: 13
- aixsatoshi/Meta-Llama-3.1-8B-Instruct-plus-Swallow-b
- Swallow-8Bは追加の日本語継続事前学習により日本語が大変流暢なLlama-3派生モデルです。
- Downloads: 13
- KoichiYasuoka/deberta-small-japanese-luw-upos
- deberta-small-japanese-luw-upos Model Description
- Downloads: 12
- KoichiYasuoka/roberta-base-japanese-juman-ud-goeswith
- roberta-base-japanese-juman-ud-goeswith Model Description
- Downloads: 12
- Mizuiro-sakura/deberta-v2-tiny-japanese-finetuned-QA
- このモデルはdeberta-v2-tiny-japaneseをファインチューニングしてQAタスクに用いれるようにしたものです。
- Downloads: 11
- mmnga/lightblue-suzume-llama-3-8B-multilingual-gguf
- lightblue-suzume-llama-3-8B-multilingual-gguf lightblueさんが公開しているsuzume-llama-3-8B-multilingualのggufフォーマット変換版です。
- Downloads: 1,626
- alfredplpl/llm-jp-3-3.7b-instruct-gguf
- Model Card For llm-jp-3-3.7b-instruct-gguf LLM-jpさんのllm-jp-3-3.7b-instructを量子化したものたちです。
- Downloads: 537
- QuantFactory/gemma-2-2b-jpn-it-GGUF
- QuantFactory/gemma-2-2b-jpn-it-GGUF
- Downloads: 485
- MCZK/Tora-7B-v0.2-GGUF
- ryota39様の Tora-7B-v0.2 をGGUF形式に変換したものです。
- Downloads: 348
- MCZK/gemma-2-2b-jpn-it-GGUF
- google様の google/gemma-2-2b-jpn-it をGGUF形式に変換したものです。
- Downloads: 333
- Fugaku-LLM/Fugaku-LLM-13B-instruct
- Fugaku-LLM利用規約 この利用規約(以下「本規約」といいます)は、富士通株式会社、国立研究開発法人理化学研究所、国立大学法人東京工業大学、国立大学法人東北大学、株式会社サイバーエージェント、国立大学法人東海国立大学機構、及び株式会社Kotoba Technologies Japan (以下「開発者」といいます)による、スーパーコンピュータ「富岳」政策対応枠における大規模言語モデル分散並列学習手法の開発の成果物として公開する大規模言語モデル(以下「Fugaku-LLM」といいます)の利用に関する条件を定めるものです。
- Downloads: 300
- MCZK/gemma-2-baku-2b-it-GGUF
- rinna様の rinna/gemma-2-baku-2b-it をGGUF形式に変換したものです。
- Downloads: 296
- Local-Novel-LLM-project/Ocuteus-v1-gguf
- OcuteusのGGUF版です。
- Downloads: 276
- NikolayKozloff/gemma-2-2b-jpn-it-Q8_0-GGUF
- NikolayKozloff/gemma-2-2b-jpn-it-Q8_0-GGUF
- Downloads: 46
- Mizuiro-sakura/luke-large-commonsenseqa-japanese
- このモデルはluke-japanese-largeをファインチューニングして、JCommonsenseQA(選択式応答)に用いれるようにしたものです。
- Downloads: 31
- KoichiYasuoka/deberta-small-japanese-aozora
- deberta-small-japanese-aozora Model Description
- Downloads: 24
- Kendamarron/Tokara-0.5B-Chat-v0.1
- モデルについて Qwen/Qwen1.5-0.5Bを日英データ5Bトークンで継続事前学習したTokara-0.5B-v0.1にchat vectorで対話能力を加えたモデルになります。
- Downloads: 24
- Kendamarron/Tokara-0.5B-v0.1
- モデルについて Qwen/Qwen1.5-0.5Bを日英データ5Bトークンで継続事前学習したモデルです。
- Downloads: 24
- nakamura196/roberta-small-hi-char-mlm
- roberta-small-hi-char-mlm Model Description
- Downloads: 21
- KoichiYasuoka/roberta-large-japanese-juman-ud-goeswith
- roberta-large-japanese-juman-ud-goeswith Model Description
- Downloads: 20
- cinmodel/electra-small-japanese-generator
- Japanese ELECTRA-small We provide a Japanese ELECTRA-Small model, as described in ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators.
- Downloads: 17
- KoichiYasuoka/roberta-base-japanese-aozora
- roberta-base-japanese-aozora Model Description
- Downloads: 17
- KoichiYasuoka/deberta-large-japanese-wikipedia
- deberta-large-japanese-wikipedia Model Description
- Downloads: 15
- litagin/vits-japros-pretrained
- A pretrained Japanese TTS model intended for use in VITS-JaPros-WebUI.
- Downloads: 14
- toshi456/chat-vector-llava-v1.5-7b-ja
- Chat-Vector-LLaVA-v1.5-7b-JA Model Card Model detail Model type: Chat-Vector-LLaVA-v1.5-7b-JA is a vision-language model that can converse about input images in Japanese.
- Downloads: 14
- Momerio/meigen_generate_Japanese
- 名言推論モデル
- Downloads: 14
- tohoku-nlp/bert-large-japanese-char
- BERT large Japanese (character-level tokenization with whole word masking, jawiki-20200831)
- Downloads: 13
- teasan/endlessMix
- ■endlessMixシリーズについて 概要 このモデルはDefactaをベースにした階層マージモデルです。
- Downloads: 13
- Formzu/bart-base-japanese
- bart-base-japanese This model is converted from the original Japanese BART Pretrained model released by Kyoto University.
- Downloads: 12
- napopoa32/swallow-hermes-st-v1
- swallow-hermes-st-v1 物語作成に強めなモデルが出来ないかと考えて作ったモデルです。
- Downloads: 12
- ThePioneer/MoeDiffusion
- モデル説明 (model explanation) YaguruMagiku 0.6 : AbyssOrangeMix2_sfw 0.4 マージ元のルーツにNAIリークが含まれるという噂があるので、NAIリークアンチには非推奨 理想の黒髪ポニテ顔が出せるYaguruMagikuを、ある程度顔が近くて制御しやすいAbyssOrangeMix2と混ぜてみた。
- Downloads: 11
- KoichiYasuoka/deberta-large-japanese-unidic
- deberta-large-japanese-unidic Model Description
- Downloads: 11
- mmnga/Llama-3.1-70B-Japanese-Instruct-2407-gguf
- Llama-3.1-70B-Japanese-Instruct-2407-gguf cyberagentさんが公開しているLlama-3.1-70B-Japanese-Instruct-2407のggufフォーマット変換版です。
- Downloads: 3,004
- mmnga/Llama-3.1-8B-EZO-1.1-it-gguf
- Llama-3.1-8B-EZO-1.1-it-gguf HODACHIさんが公開しているLlama-3.1-8B-EZO-1.1-itのggufフォーマット変換版です。
- Downloads: 2,805
- AXCXEPT/Llama-3-EZO-8b-Common-it
- [Llama-3-EZO model card]
- Downloads: 2,602
- mmnga/Llama-3.1-8B-Instruct-gguf
- Llama-3.1-8B-Instruct-gguf meta-llamaさんが公開しているMeta-Llama-3.1-8B-Instructのggufフォーマット変換版です。
- Downloads: 2,483
- mmnga/aya-23-8B-gguf
- aya-23-8B-gguf CohereForAIさんが公開しているaya-23-8Bのggufフォーマット変換版です。
- Downloads: 1,932
- mmnga/Mistral-7B-Instruct-v0.3-gguf
- Mistral-7B-Instruct-v0.3-gguf mistralaiさんが公開しているMistral-7B-Instruct-v0.3のggufフォーマット変換版です。
- Downloads: 1,413
- mmnga/DataPilot-ArrowPro-7B-KUJIRA-gguf
- DataPilot-ArrowPro-7B-KUJIRA-gguf DataPilotさんが公開しているArrowPro-7B-KUJIRAのggufフォーマット変換版です。
- Downloads: 1,384
- mmnga/Reflection-Llama-3.1-70B-gguf
- Reflection-Llama-3.1-70B-gguf mattshumerさんが公開しているReflection-Llama-3.1-70Bのggufフォーマット変換版です。
- Downloads: 1,323
- second-state/Llama-3-8B-Japanese-Instruct-GGUF
- Llama-3-8B-Japanese-Instruct-GGUF Original Model haqishen/Llama-3-8B-Japanese-Instruct Run with LlamaEdge LlamaEdge version: v0.10.1 and above Prompt template Prompt type: llama-3-chat Prompt string <|begin_of_text|><|start_header_id|>system<|end_header_id|> {{ system_prompt }}<|eot_id|><|start_header_id|>user<|end_header_id|> {{ user_message_1 }}<|eot_id|><|start_header_id|>assistant<|end_header_id|> {{ model_answer_1 }}<|eot_id|><|start_header
- Downloads: 1,287
- mmnga/DataPilot-ArrowPro-7B-RobinHood-gguf
- DataPilot-ArrowPro-7B-RobinHood-gguf DataPilotさんが公開しているArrowPro-7B-RobinHoodのggufフォーマット変換版です。
- Downloads: 1,104
- mmnga/mathstral-7B-v0.1-gguf
- mathstral-7B-v0.1-gguf mistralaiさんが公開しているmathstral-7B-v0.1のggufフォーマット変換版です。
- Downloads: 1,067
- MCZK/EZO-Common-9B-gemma-2-it-GGUF
- ※llama.cpp Releases b3428(7/21)
- Downloads: 1,027
- mmnga/Llama-3-ELYZA-JP-8B-gguf
- Llama-3-ELYZA-JP-8B-gguf elyzaさんが公開しているLlama-3-ELYZA-JP-8Bのggufフォーマット変換版です。
- Downloads: 1,008
- mmnga/aya-23-35B-gguf
- aya-23-35B-gguf CohereForAIさんが公開しているaya-23-35Bのggufフォーマット変換版です。
- Downloads: 993
- mmnga/stockmark-100b-gguf
- stockmark-100b-gguf stockmarkさんが公開しているstockmark-100bのggufフォーマット変換版です。
- Downloads: 993
- cyberagent/llava-calm2-siglip
- Model Description llava-calm2-siglip is an experimental Vision Language Model that can answer questions in Japanese about images.
- Downloads: 987
- mmnga/aixsatoshi-Honyaku-13b-gguf
- aixsatoshi-Honyaku-13b-gguf aixsatoshiさんが公開しているHonyaku-13bのggufフォーマット変換版です。
- Downloads: 935
- owner203/japanese-llama-3-8b
- Japanese-LLaMA-3-8B Japanese-LLaMA-3-8Bは基盤モデル、フルモデルです。
- Downloads: 919
- mmnga/Phi-3-medium-128k-instruct-gguf
- Phi-3-medium-128k-instruct-gguf microsoftさんが公開しているPhi-3-medium-128k-instructのggufフォーマット変換版です。
- Downloads: 884
- mmnga/ArrowPro-7B-KillerWhale-gguf
- ArrowPro-7B-KillerWhale-gguf DataPilotさんが公開しているArrowPro-7B-KillerWhaleのggufフォーマット変換版です。
- Downloads: 815
- mmnga/Llama-3.1-70B-Instruct-gguf
- Llama-3.1-70B-Instruct-gguf meta-llamaさんが公開しているMeta-Llama-3.1-70B-Instructのggufフォーマット変換版です。
- Downloads: 814
- mmnga/gemma-2-2b-it-gguf
- gemma-2-2b-it-gguf googleさんが公開しているgemma-2-2b-itのggufフォーマット変換版です。
- Downloads: 788
- Aratako/calm3-22b-RP-GGUF
- calm3-22b-RP-GGUF 概要 Aratako/calm3-22b-RPの量子化済みGGUF版です。
- Downloads: 731
- QuantFactory/TinySlime-1.1B-Chat-v1.0-GGUF
- QuantFactory/TinySlime-1.1B-Chat-v1.0-GGUF
- Downloads: 726
- mmnga/Llama3-ArrowSE-8B-v0.3-gguf
- Llama3-ArrowSE-8B-v0.3-gguf DataPilotさんが公開しているLlama3-ArrowSE-8B-v0.3のggufフォーマット変換版です。
- Downloads: 700
- sbintuitions/sarashina1-13b
- Sarashina1-13B
- Downloads: 691
- fishaudio/fish-speech-1.2-sft
- Fish Speech V1.2 Fish Speech V1.2 is a leading text-to-speech (TTS) model trained on 300k hours of English, Chinese, and Japanese audio data.
- Downloads: 690
- sbintuitions/sarashina1-65b
- Sarashina1-65B
- Downloads: 685
- mmnga/HODACHI-EZO-Common-T2-2B-gemma-2-it-gguf
- HODACHI-EZO-Common-T2-2B-gemma-2-it-gguf HODACHIさんが公開しているEZO-Common-T2-2B-gemma-2-itのggufフォーマット変換版です。
- Downloads: 675
- mmnga/Llama-3.1-70B-EZO-1.1-it-gguf
- Llama-3.1-70B-EZO-1.1-it-gguf HODACHIさんが公開しているLlama-3.1-70B-EZO-1.1-itのggufフォーマット変換版です。
- Downloads: 667
- cl-nagoya/ruri-small
- Ruri: Japanese General Text Embeddings Usage Direct Usage (Sentence Transformers)
- Downloads: 665
- sbintuitions/sarashina1-7b
- Sarashina1-7B This repository provides Japanese language models trained by SB Intuitions.
- Downloads: 661
- mmnga/Meta-Llama-3-8B-Instruct-gguf
- Meta-Llama-3-8B-Instruct-gguf meta-llamaさんが公開しているMeta-Llama-3-8B-Instructのggufフォーマット変換版です。
- Downloads: 643
- owner203/japanese-llama-3-8b-instruct-v2
- Japanese-LLaMA-3-8B-Instruct-v2 Japanese-LLaMA-3-8B-Instruct-v2は指示実行モデル、フルモデルです。
- Downloads: 583
- AXCXEPT/Llama-3.1-70B-EZO-1.1-it
- [Llama-3.1-70B-EZO-1.1-it] Model Card モデル情報 / Model Information このモデルは、Meta AI の Llama 3.1 をベースに、日本語タスクでの性能を向上させるためにファインチューニングを行ったものです。
- Downloads: 568
- mmnga/rinna-llama-3-youko-70b-instruct-gguf
- rinna-llama-3-youko-70b-instruct-gguf rinnaさんが公開しているllama-3-youko-70b-instructのggufフォーマット変換版です。
- Downloads: 546
- mmnga/pfnet-Llama3-Preferred-MedSwallow-70B-gguf
- pfnet-Llama3-Preferred-MedSwallow-70B-gguf pfnetさんが公開しているLlama3-Preferred-MedSwallow-70Bのggufフォーマット変換版です。
- Downloads: 503
- MCZK/EZO-Humanities-9B-gemma-2-it-GGUF
- ※llama.cpp Releases b3428(7/21)
- Downloads: 474
- mmnga/HODACHI-EZO-Common-9B-gemma-2-it-gguf
- HODACHI-EZO-Common-9B-gemma-2-it-gguf HODACHIさんが公開しているEZO-Common-9B-gemma-2-itのggufフォーマット変換版です。
- Downloads: 451
- MCZK/Llama3-ArrowSE-8B-v0.3-GGUF
- DataPilot様の Llama3-ArrowSE-8B-v0.3 をGGUF形式に変換したものです。
- Downloads: 449
- Aratako/calm3-22b-RP-v2-GGUF
- calm3-22b-RP-v2-GGUF 概要 Aratako/calm3-22b-RP-v2の量子化済みGGUF版です。
- Downloads: 444
- MCZK/ArrowPro-7B-RobinHood-GGUF
- DataPilot様の ArrowPro-7B-RobinHood をGGUF形式に変換したものです。
- Downloads: 433
- team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GGUF
- Tanuki-8x8B-dpo-v1.0-GGUF 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8x8B-dpo-v1.0のGGUF量子化モデルです。
- Downloads: 432
- mmnga/datagemma-rag-27b-it-gguf
- datagemma-rag-27b-it-gguf googleさんが公開しているdatagemma-rag-27b-itのggufフォーマット変換版です。
- Downloads: 424
- QuantFactory/shisa-7b-v1-GGUF
- QuantFactory/shisa-7b-v1-GGUF This is quantized version of augmxnt/shisa-base-7b-v1 created using llama.cpp Model Description shisa-base-7b-v1 takes Mistral 7B and adds an additional 8B tokens of primarily Japanese pre-training.
- Downloads: 417
- gaianet/Llama-3-8B-Japanese-Instruct-GGUF
- Llama-3-8B-Japanese-Instruct-GGUF Original Model haqishen/Llama-3-8B-Japanese-Instruct Run with Gaianet Prompt template: prompt template: llama-3-chat Context size: chat_ctx_size: 4096 Run with GaiaNet:
- Downloads: 414
- QuantFactory/Llama3.1-ArrowSE-v0.4-GGUF
- QuantFactory/Llama3.1-ArrowSE-v0.4-GGUF This is quantized version of DataPilot/Llama3.1-ArrowSE-v0.4 created using llama.cpp Original Model Card 概要 このモデルはllama3.1-8B-instructをもとに日本語性能を高めることを目的にMergekit&ファインチューニングを用いて作成されました。
- Downloads: 354
- QuantFactory/Umievo-itr012-Gleipnir-7B-GGUF
- Umievo-itr012-Gleipnir-7B-GGUF
- Downloads: 353
- QuantFactory/ELYZA-japanese-Llama-2-13b-fast-instruct-GGUF
- ELYZA-japanese-Llama-2-13b-fast-instruct-GGUF
- Downloads: 348
- mmnga/Mistral-Nemo-Instruct-2407-gguf
- Mistral-Nemo-Instruct-2407-gguf mistralaiさんが公開しているMistral-Nemo-Instruct-2407のggufフォーマット変換版です。
- Downloads: 318
- mmnga/HODACHI-Borea-Phi-3.5-mini-Instruct-Common-gguf
- HODACHI-Borea-Phi-3.5-mini-Instruct-Common-gguf HODACHIさんが公開しているBorea-Phi-3.5-mini-Instruct-Commonのggufフォーマット変換版です。
- Downloads: 312
- MCZK/Llama-3-Swallow-8B-Instruct-v0.1-GGUF
- tokyotech-llm様の Llama-3-Swallow-8B-Instruct-v0.1 をGGUF形式に変換したものです。
- Downloads: 299
- MCZK/ArrowPro-7B-KUJIRA-GGUF
- DataPilot様の ArrowPro-7B-KUJIRA をGGUF形式に変換したものです。
- Downloads: 275
- mmnga/Mistral-Large-Instruct-2407-gguf
- Mistral-Large-Instruct-2407-gguf mistralaiさんが公開しているMistral-Large-Instruct-2407のggufフォーマット変換版です。
- Downloads: 249
- cl-nagoya/ruri-reranker-large
- Ruri-Reranker: Japanese General Reranker Usage Direct Usage (Sentence Transformers)
- Downloads: 235
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-4k-GGUF
- Tanuki-8B-dpo-v1.0-GGUF 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0-4kのGGUF量子化モデルです。
- Downloads: 215
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-GPTQ-8bit
- Tanuki-8B-dpo-v1.0-GPTQ-8bit 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0のGPTQ 8bit量子化モデルです。
- Downloads: 202
- Aratako/Ninja-v1-RP-expressive-GGUF
- Ninja-v1-RP-expressive-GGUF 概要 Aratako/Ninja-v1-RP-expressiveの量子化済みGGUF版です。
- Downloads: 188
- MCZK/Tora-7B-v0.1-GGUF
- ryota39様の Tora-7B-v0.1 をGGUF形式に変換したものです。
- Downloads: 166
- mmnga/lightblue-Karasu-Mixtral-8x22B-v0.1-gguf
- lightblue-Karasu-Mixtral-8x22B-v0.1-gguf lightblueさんが公開しているKarasu-Mixtral-8x22B-v0.1のggufフォーマット変換版です。
- Downloads: 149
- MCZK/Japanese-Chat-Umievo-itr004-7b-GGUF
- umiyuki様の Japanese-Chat-Umievo-itr004-7b をGGUF形式に変換したものです。
- Downloads: 144
- rinna/llama-3-youko-70b
- Llama 3 Youko 70B (rinna/llama-3-youko-70b)
- Downloads: 143
- mmnga/HODACHI-EZO-Humanities-9B-gemma-2-it-gguf
- HODACHI-EZO-Humanities-9B-gemma-2-it-gguf HODACHIさんが公開しているEZO-Humanities-9B-gemma-2-itのggufフォーマット変換版です。
- Downloads: 133
- EQUES/MedLLama3-JP-v2
- Llama3ベースの日本語医療LLM MedLlama3-JP このモデルはLlama3の継続学習により作成された4種類のLLMから成るマージモデルです。
- Downloads: 119
- MCZK/EZO-Common-T2-2B-gemma-2-it-GGUF
- HODACHI様の EZO-Common-T2-2B-gemma-2-it をGGUF形式に変換したものです。
- Downloads: 117
- QuantFactory/shisa-gamma-7b-v1-GGUF
- QuantFactory/shisa-gamma-7b-v1-GGUF
- Downloads: 117
- MCZK/Llama-3.1-8B-EZO-1.1-it-GGUF
- HODACHI様の Llama-3.1-8B-EZO-1.1-it をGGUF形式に変換したものです。
- Downloads: 112
- QuantFactory/llama-3-youko-8b-GGUF
- QuantFactory/llama-3-youko-8b-GGUF
- Downloads: 108
- cl-nagoya/ruri-reranker-small
- Ruri-Reranker: Japanese General Reranker Usage Direct Usage (Sentence Transformers)
- Downloads: 94
- Aratako/Ninja-v1-RP-GGUF
- Ninja-v1-RP-GGUF 概要 Aratako/Ninja-v1-RPの量子化済みGGUF版です。
- Downloads: 92
- Miwa-Keita/zenz-v1-checkpoints
- zenz-v1 Checkpoints zenz-v1 is a language model specialized for kana-kanji conversion tasks based on the GPT-2 architecture.
- Downloads: 85
- Aratako/Ninja-v1-RP-expressive-v2-GGUF
- Ninja-v1-RP-expressive-GGUF 概要 Aratako/Ninja-v1-RP-expressive-v2の量子化済みGGUF版です。
- Downloads: 81
- mm/japanese-e5-mistral-7b_slerp_gguf
- Japanese E5 Mixtral 7B Slerp GGUF GGUF conversion of oshizo/japanese-e5-mistral-7b_slerp Avaiable formats: Q2_K.gguf Q3_K.gguf Q4_K.gguf Q5_K.gguf
- Downloads: 80
- LoneWolfgang/bert-for-japanese-twitter-sentiment
- BERT for Sentiment Analysis of Japanese Twitter
- Downloads: 77
- keitokei1994/Llama-3-ELYZA-sqlcoder-2x8B-GGUF
- モデルの説明(English explanation is below.
- Downloads: 74
- MCZK/Vecteus-V2-7B-GGUF
- Local-Novel-LLM-project様の Vecteus-V2-7B をGGUF形式に変換したものです。
- Downloads: 68
- RPAmodels/PN-analysis
- japanese-sentiment-analysis This model is the work of jarvisx17 and was trained from scratch on the chABSA dataset.
- Downloads: 66
- MCZK/Ninja-V2-7B-GGUF
- Local-Novel-LLM-project様の Ninja-V2-7B をGGUF形式に変換したものです。
- Downloads: 63
- hotchpotch/luke-japanese-base-lite-xlm-roberta
- luke-japanese-base-lite-xlm-roberta studio-ousia/luke-japanese-base-liteの重みの名前をXLMRoberta形式に置き換え、XLMRobertaモデルとして扱えるようにした物です。
- Downloads: 62
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-4k-GPTQ-4bit
- Tanuki-8B-dpo-v1.0-4k-GPTQ-4bit 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0-4kのGPTQ 4bit量子化モデルです。
- Downloads: 57
- Respair/Japanese_Phoneme_to_Grapheme_LLM
- Model Card for Model ID
- Downloads: 50
- knosing/japanese_ner_model
- Model Description
- Downloads: 48
- cl-nagoya/ruri-reranker-stage1-large
- Ruri-Reranker: Japanese General Reranker Usage Direct Usage (Sentence Transformers)
- Downloads: 48
- cl-nagoya/ruri-pt-large
- Ruri: Japanese General Text Embeddings Usage First install the Sentence Transformers library: pip install -U sentence-transformers Then you can load this model and run inference.
- Downloads: 46
- MCZK/Ninja-V3-GGUF
- Local-Novel-LLM-project様の Ninja-V3 をGGUF形式に変換したものです。
- Downloads: 45
- ascktgcc/Mistral-Nemo-Japanese-Instruct-2408-Q4_K_S-GGUF
- ascktgcc/Mistral-Nemo-Japanese-Instruct-2408-Q4_K_S-GGUF
- Downloads: 44
- team-hatakeyama-phase2/Tanuki-8x8B-dpo-v1.0-GPTQ-8bit
- Tanuki-8x8B-dpo-v1.0-GPTQ-8bit 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8x8B-dpo-v1.0のGPTQ 8bit量子化モデルです。
- Downloads: 44
- DataPilot/Llama3-ArrowSE-8B-v0.3
- 概要 elyza/Llama-3-ELYZA-JP-8Bを元にchat vectorを用いて改良しAItuberに特化させました。
- Downloads: 42
- keitokei1994/swallow-3-8B-sqlcoder-2x8B-GGUF
- モデルの説明(English explanation is below.
- Downloads: 41
- 2121-8/TinySlime-1.1B-Chat-v1.0
- TinySlime-1.1B-Chat-v1.0 TinySlime は日本語に特化した小規模言語モデルです。
- Downloads: 40
- KoichiYasuoka/ltgbert-base-japanese-ud-goeswith
- ltgbert-base-japanese-ud-goeswith Model Description
- Downloads: 38
- nk2t/Llama-3-8B-Instruct-japanese-nk2t-v0.3
- Llama-3-8B-Instruct-JP-nk2t-v0.3 Model Details: Built with Meta Llama 3 llama-3-8bの日本語継続学習モデルにChatVectorを適用し、さらにQLoraでファインチューニングしたモデルです。
- Downloads: 34
- KoichiYasuoka/llm-jp-1.3b-upos
- llm-jp-1.3b-upos Model Description
- Downloads: 34
- QuantFactory/Oumuamua-7b-instruct-GGUF
- Oumuamua-7b-instruct-GGUF This is quantized version of nitky/Oumuamua-7b-instruct created using llama.cpp Model Description This is a merge of pre-trained language models created using mergekit.
- Downloads: 33
- MCZK/Llama-3-EZO-8b-Common-it-GGUF
- HODACHI様の Llama-3-EZO-8b-Common-it をGGUF形式に変換したものです。
- Downloads: 33
- KoichiYasuoka/deberta-v3-base-japanese-ud-goeswith
- deberta-v3-base-japanese-ud-goeswith Model Description
- Downloads: 31
- alfredplpl/sarashina2-7b-it
- Sarashina2-7B Instruct sarashina2-7Bを会話できるようにフルファインチューニングしたものです。
- Downloads: 30
- keitokei1994/Llama-3-Umievo-Shizuko-sqlcoder-2x8B
- モデルの説明(English explanation is below.
- Downloads: 29
- Respair/Hibiki_ASR_Phonemizer_v0.2
- Hibiki ASR Phonemizer This model is a Phoneme Level Speech Recognition network, originally a fine-tuned version of openai/whisper-large-v3 on a mixture of Different Japanese datasets.
- Downloads: 28
- lyu-boxuan/llama-3-youko-8b-En-Ja-MT-LoRA
- Overview This model is based on rinna's [rinna/llama-3-youko-8b], fine-tuned using LoRA on a small number of parallel sentences from English to Japanese.
- Downloads: 27
- masato12/bert-base-japanese-v3-jsts-with-tokenizer
- bert-base-japanese-v3-jsts 「大規模言語モデル入門」の第5章で紹介している(意味類似度計算)のモデルです。
- Downloads: 27
- nptdat/bert-japanese-12M
- Overview of bert-japanese-12M The bert-japanese-12M model is a transformer-based model with BERT architecture, which is designed to be used on Japanese text.
- Downloads: 26
- Local-Novel-LLM-project/Vecteus-V2-7B
- Vecteus-V2-7B このモデルは、ベクトルマージなどを用い作成された高性能ベースモデルです。
- Downloads: 25
- umiyuki/Llama-3-Umievo-itr014-Shizuko-8b
- Llama-3-Umievo-itr014-Shizuko-8b このモデルは日本語に対応しているLlama-3ベースの4つのモデルを進化的アルゴリズムで進化的マージしたものです。
- Downloads: 25
- webbigdata/C3TR-Adapter_gptq
- Model card 英日、日英翻訳用モデルC3TR-AdapterのGPTQ4bit量子化版です。
- Downloads: 25
- p1atdev/zenz-v1-onnx
- Miwa-Keita/zenz-v1-checkpoints を optimum 用に ONNX に変換したモデルです。
- Downloads: 24
- fukugawa/transformer-lm-japanese-1.0b
- transformer-lm-japanese-1.0b This is a JAX/Flax-based transformer language model trained on a Japanese dataset.
- Downloads: 24
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-4k-AWQ
- Tanuki-8B-dpo-v1.0-4k-AWQ 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0-4kのAWQ 4bit量子化モデルです。
- Downloads: 24
- cl-nagoya/ruri-reranker-stage1-base
- Ruri-Reranker: Japanese General Reranker Usage Direct Usage (Sentence Transformers)
- Downloads: 23
- cl-nagoya/ruri-pt-small
- Ruri: Japanese General Text Embeddings Usage First install the Sentence Transformers library: pip install -U sentence-transformers Then you can load this model and run inference.
- Downloads: 21
- AXCXEPT/EZO-InternVL2-26B
- [EZO model card]
- Downloads: 20
- sehiro/EvoLLM-JP-A-v1-7B-IQ4_XS-GGUF
- sehiro/EvoLLM-JP-A-v1-7B-IQ4_XS-GGUF
- Downloads: 20
- espnet/kan-bayashi_jsut_fastspeech2
- Example ESPnet2 TTS model kan-bayashi/jsut_fastspeech2 ♻
- Downloads: 19
- ithattieu/XML-RoBERTa-NER-Japanese
- XML-RoBERTa-NER-Japanese This model is a fine-tuned version of xlm-roberta-base on the Wikipedia Japanese NER dataset from Stockmark Inc.
- Downloads: 19
- AXCXEPT/Llama-3-EZO-VLM-1
- Llama-3-EZO-VLM-1 Based on SakanaAI/Llama-3-EvoVLM-JP-v2, it has been enhanced for Japanese usage through additional pre-training and instruction tuning.
- Downloads: 19
- KoichiYasuoka/RakutenAI-7B-upos
- RakutenAI-7B-upos Model Description
- Downloads: 18
- cl-nagoya/ruri-reranker-stage1-small
- Ruri-Reranker: Japanese General Reranker Usage Direct Usage (Sentence Transformers)
- Downloads: 18
- liwii/line-distilbert-base-japanese-fork
- LINE DistilBERT Japanese (forked by liwii)
- Downloads: 17
- KoichiYasuoka/rinna-gpt-neox-small-japanese-ud-causal
- rinna-gpt-neox-small-japanese-ud-causal Model Description
- Downloads: 17
- KoichiYasuoka/goldfish-gpt2-japanese-5mb-ud-causal
- goldfish-gpt2-japanese-5mb-ud-causal Model Description
- Downloads: 17
- Noginowa/AnimaMixColorXL
- Animagine系のモデルをミックスしたVAE内蔵マージモデルです。
- Downloads: 17
- llm-jp/llm-jp-3-172b-alpha2
- llm-jp-3-172b-alpha2
- Downloads: 16
- lmg-anon/vntl-llama3-8b-202409-qlora
- Summary This is an LLaMA 3 Youko qlora, created using a custom version of the VNTL dataset combined with the VNTL-Chat dataset.
- Downloads: 15
- frost-beta/Llama3-33.5M-Japanese
- A very tiny 33.5M Llama3 model trained on a Macbook Pro with M3 Max for 10 hours.
- Downloads: 15
- nitky/Oumuamua-7b-base
- Oumuamua-7b-base This is a merge of pre-trained language models created using mergekit.
- Downloads: 14
- KoichiYasuoka/rinna-gpt2-medium-japanese-ud-causal
- rinna-gpt2-medium-japanese-ud-causal Model Description
- Downloads: 14
- AbeShinzo0708/Japanese-Starling-ChatV-7B-exl2
- Japanese-Starling-ChatV-7B このモデルは"chatntq-ja-7b-v1.0"をベースにした7Bパラメータの日本語チャットモデルです。
- Downloads: 13
- 2121-8/TinySlime-1.1B-v1.0
- TinySlime-1.1B-v1.0 TinySlime は日本語に特化した小規模言語モデルです。
- Downloads: 13
- mlx-community/Llama-3.1-70B-Japanese-Instruct-2407-8bit
- mlx-community/Llama-3.1-70B-Japanese-Instruct-2407-8bit The Model mlx-community/Llama-3.1-70B-Japanese-Instruct-2407-8bit was converted to MLX format from cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 using mlx-lm version 0.16.1.
- Downloads: 13
- KoichiYasuoka/rinna-gpt2-xsmall-japanese-ud-causal
- rinna-gpt2-xsmall-japanese-ud-causal Model Description
- Downloads: 13
- sehiro/EvoLLM-JP-A-v1-7B-Q4_K_M-GGUF
- sehiro/EvoLLM-JP-A-v1-7B-Q4_K_M-GGUF
- Downloads: 13
- KoichiYasuoka/abeja-gpt2-large-japanese-ud-causal
- abeja-gpt2-large-japanese-ud-causal Model Description
- Downloads: 13
- Aratako/Ninja-v1-RP
- Ninja-v1-RP GGUF版はこちら/Click here for the GGUF version 概要 This is a merge of pre-trained language models created using mergekit.
- Downloads: 12
- Aratako/Ninja-v1-RP-WIP
- Ninja-v1-RP-WIP 概要 Local-Novel-LLM-project/Ninja-v1-NSFWをロールプレイ用にLoRAでファインチューニングしたモデルです。
- Downloads: 12
- hotchpotch/ruri-base-dummy-fast-tokenizer-for-tei
- このモデルは、text-embeddings-inference (TEI) で、mecab / unidic などを用いた日本語Tokenizerのモデルを、dummy の tokenizer.json を用いて無理やり動かす 方法のサンプルです。
- Downloads: 12
- espnet/kan-bayashi_jsut_transformer_accent
- Example ESPnet2 TTS model kan-bayashi/jsut_transformer_accent ♻
- Downloads: 11
- espnet/kan-bayashi_jsut_tacotron2_accent
- Example ESPnet2 TTS model kan-bayashi/jsut_tacotron2_accent ♻
- Downloads: 11
- espnet/kan-bayashi_jsut_fastspeech
- Example ESPnet2 TTS model kan-bayashi/jsut_fastspeech ♻
- Downloads: 11
- Kendamarron/fineweb-edu-classifier-ja
- HuggingFaceFW/fineweb-edu-classifierを再現するために、日本語データでpkshatech/GLuCoSE-base-jaを学習したモデルです。
- Downloads: 11
- KoichiYasuoka/karasu-1.1B-upos
- KoichiYasuoka/karasu-1.1B-upos Model Description
- Downloads: 11
- KoichiYasuoka/rinna-gpt2-small-japanese-ud-causal
- rinna-gpt2-small-japanese-ud-causal Model Description
- Downloads: 11
- KoichiYasuoka/goldfish-gpt2-japanese-10mb-ud-causal
- goldfish-gpt2-japanese-10mb-ud-causal Model Description
- Downloads: 11
- team-hatakeyama-phase2/Tanuki-8B-dpo-v1.0-4k-GPTQ-8bit
- Tanuki-8B-dpo-v1.0-4k-GPTQ-8bit 概要 GENIAC 松尾研 LLM開発プロジェクトで開発されたLLMであるweblab-GENIAC/Tanuki-8B-dpo-v1.0-4kのGPTQ 8bit量子化モデルです。
- Downloads: 11
- Miwa-Keita/zenz-v2-gguf
- zenz-v2 zenz-v2はGPT-2アーキテクチャに基づくかな漢字変換タスクに特化した言語モデルです。
- Downloads: 11
- okazaki-lab/japanese-gpt2-medium-unidic
- japanese-gpt2-medium-unidic This is a medium-sized Japanese GPT-2 model using BERT-like tokenizer.
- Downloads: 11
- QuantFactory/Llama3-ArrowSE-8B-v0.3-GGUF
- QuantFactory/Llama3-ArrowSE-8B-v0.3-GGUF This is quantized version of DataPilot/Llama3-ArrowSE-8B-v0.3 created using llama.cpp Original Model Card 概要 elyza/Llama-3-ELYZA-JP-8Bを元にchat vectorを用いて改良しAItuberに特化させました。
- Downloads: 58
- izumi-lab/electra-base-japanese-discriminator
- ELECTRA base Japanese discriminator This is a ELECTRA model pretrained on texts in the Japanese language.
- Downloads: 31
- G-Root/deberta-v2-base-japanese
- Model Card for Japanese DeBERTa V2 base Model description This is a Japanese DeBERTa V2 base model pre-trained on Japanese Wikipedia, the Japanese portion of CC-100, and the Japanese portion of OSCAR.
- Downloads: 19
- KoichiYasuoka/gpt2-medium-japanese-unidic-upos
- gpt2-medium-japanese-unidic-upos Model Description
- Downloads: 15
- thefrigidliquidation/nllb-200-distilled-1.3B-bookworm
- NLLB-200 1.3B fine-tuned on Ascendance of a Bookworm
- Downloads: 15
- hiroshi-matsuda-rit/ja_gsd_bert_wwm_unidic_lite
- Japanese transformer pipeline (bert-base).
- Downloads: 11
- KoichiYasuoka/gpt2-medium-japanese-unidic-ud-causal
- gpt2-medium-japanese-unidic-ud-causal Model Description
- Downloads: 11
- KoichiYasuoka/gpt2-small-japanese-juman-upos
- gpt2-small-japanese-juman-upos Model Description
- Downloads: 11
- Aratako/Ninja-v1-RP-expressive-breadcrumbs-GGUF
- Ninja-v1-RP-expressive-GGUF 概要 Aratako/Ninja-v1-RP-expressive-breadcrumbsの量子化済みGGUF版です。
- Downloads: 121
- mmnga/matsuolab-weblab-10b-instruction-sft-gguf
- matsuolab-weblab-10b-instruction-sft-gguf matsuo-labさんが公開しているweblab-10b-instruction-sftのggufフォーマット変換版です。
- Downloads: 59
- natsusakiyomi/AnzuMix
- AnzuMixSeries VAEの内臓はないぞ!と言わせないぞ!!!!
- Downloads: 21
- mlx-community/Llama-3.1-70B-Japanese-Instruct-2407-4bit
- mlx-community/Llama-3.1-70B-Japanese-Instruct-2407-4bit
- Downloads: 20
- KoichiYasuoka/gpt2-small-japanese-ud-causal
- gpt2-small-japanese-ud-causal Model Description
- Downloads: 19
- KoichiYasuoka/gpt2-large-japanese-ud-causal
- gpt2-large-japanese-ud-causal Model Description
- Downloads: 16
- espnet/kan-bayashi_jsut_transformer_accent_with_pause
- Example ESPnet2 TTS model kan-bayashi/jsut_transformer_accent_with_pause ♻
- Downloads: 13
- SpassMedAI/MLMedLlama3
- Model Card for Model ID MMedBench and KoreanMedMCQA Instruction Fine-Tuned Multilingual Llama3 8B 4Bit quantized model using QLoRA.
- Downloads: 13
- KoichiYasuoka/gpt2-medium-japanese-ud-causal
- gpt2-medium-japanese-ud-causal Model Description
- Downloads: 13
- kotoba-tech/kotoba-whisper-v1.0
- Kotoba-Whisper Kotoba-Whisper is a collection of distilled Whisper models for Japanese ASR, developed through the collaboration bewteen Asahi Ushio and Kotoba Technologies.
- Downloads: 2,472
- mmnga/RakutenAI-7B-gguf
- RakutenAI-7B-gguf Rakutenさんが公開しているRakutenAI-7Bのggufフォーマット変換版です。
- Downloads: 85
- Aratako/Ninja-v1-RP-expressive-v2
- Ninja-v1-RP-expressive-v2 GGUF版はこちら/Click here for the GGUF version 概要 This is a merge of pre-trained language models created using mergekit.
- Downloads: 30
- owner203/japanese-llama-3-8b-instruct-v2-gguf
- Japanese-LLaMA-3-8B-Instruct-v2-GGUF Japanese-LLaMA-3-8B-Instruct-v2-GGUFはJapanese-LLaMA-3-8B-Instruct-v2のGGUF形式です。
- Downloads: 26
- Akimite/Qwen2-7b-Instruct-Boku-v2
- 実験モデルです。
- Downloads: 22
- nitky/Oumuamua-7b-instruct
- Oumuamua-7b-instruct This is a merge of pre-trained language models created using mergekit.
- Downloads: 21
- yashvoladoddi37/kanji-diffusion-v1-4
- Kanji Diffusion v1-4 Model Card Kanji Diffusion is a latent text-to-image diffusion model capable of hallucinating Kanji characters given any English prompt.
- Downloads: 20
- Ryu-m0m/16bit-japanese-finetuned-mistral-7b-v0
- Model Overview: 日本語で質問すると、日本語で回答を得られます。
- Downloads: 20
- KoichiYasuoka/gpt2-small-japanese-upos
- gpt2-small-japanese-upos Model Description
- Downloads: 17
- LoneStriker/shisa-7b-v1-3.0bpw-h6-exl2
- Shisa 7B Shisa 7B (shisa-7b-v1)
- Downloads: 15
- KoichiYasuoka/gpt2-large-japanese-upos
- gpt2-large-japanese-upos Model Description
- Downloads: 13
- LoneWolfgang/bert-for-japanese-twitter-sentiment-mixed-label
- BERT for Sentiment Analysis of Japanese Twitter
- Downloads: 13
- youhansun/Llama-3-70B-japanese-suzume-vector-v0.1-Q2_K-GGUF
- youhansun/Llama-3-70B-japanese-suzume-vector-v0.1-Q2_K-GGUF
- Downloads: 13
- LoneStriker/shisa-7b-v1-8.0bpw-h8-exl2
- Shisa 7B Shisa 7B (shisa-7b-v1)
- Downloads: 12
- LoneStriker/shisa-7b-v1-5.0bpw-h6-exl2
- Shisa 7B Shisa 7B (shisa-7b-v1)
- Downloads: 12
- Aratako/calm3-22b-RP-v0.1
- calm3-22b-RP-v0.1 cyberagent/calm3-22b-chatをベースにロールプレイ用にQLoRAでファインチューニングしたモデルです。
- Downloads: 11
- NikolayKozloff/h2o-Llama-3-8B-Japanese-Instruct-Q8_0-GGUF
- NikolayKozloff/h2o-Llama-3-8B-Japanese-Instruct-Q8_0-GGUF
- Downloads: 11
- LoneStriker/shisa-7b-v1-6.0bpw-h6-exl2
- Shisa 7B Shisa 7B (shisa-7b-v1)
- Downloads: 11
- LoneStriker/shisa-7b-v1-4.0bpw-h6-exl2
- Shisa 7B Shisa 7B (shisa-7b-v1)
- Downloads: 11
- JujoHotaru/lora
- 十条蛍(Hotaru Jujo)の作成したLoRAを配布しています。
- Downloads: 23,810
- natsusakiyomi/SakuraMix
- SakuraMixSeries 背景とキャラクタークオリティーを両立させたVAE内蔵型モデル Model with built-in VAE for both background and character quality 📄 ライセンス / License 修正 CreativeML OpenRAIL-M ライセンス / Modified CreativeML OpenRAIL-M license このモデルのクレジットを入れずに使用する Use the model without crediting the creator このモデルで生成した画像を商用利用する Sell images they generate このモデルを商用の画像生成サービスで利用する Run on services that generate images for money このモデルを使用したマージモデルを共有する Share merges using this model このモデル、またはこのモデルをマージしたモデルを販売する Sell this model or merges using this model このモデ
- Downloads: 65
- keitokei1994/shisa-v1-qwen2-7b-GGUF
- shisa-v1-qwen2-7b-gguf (English explanation is below.
- Downloads: 62
- Vsukiyaki/Yaki-Dofu-Mix
- Yaki-Dofu-Mix 概要 / Overview Yaki-Dofu-Mixは、アニメ風の画風に特化したマージモデルです。
- Downloads: 32
- hibikaze/tiny_mixtral_ja_with_tokenizer
- 275.86Mのmixtralを日本語データセットでpretrainingしたものです sample from transformers import AutoTokenizer, AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("if001/tiny_mixtral_ja")
- Downloads: 19
- taoki/phi3-mini-4k-qlora-jmultiwoz-dolly-amenokaku-alpaca_jp_python-GGUF
- This repository contains a model trained (QLoRA-SFT)
- Downloads: 11
- mmnga/karakuri-lm-70b-chat-v0.1-gguf
- karakuri-lm-70b-chat-v0.1-gguf karakuri-aiさんが公開しているkarakuri-lm-70b-chat-v0.1のggufフォーマット変換版です。
- Downloads: 545
- Kendamarron/fineweb-edu-classifier-ja-v2
- HuggingFaceFW/fineweb-edu-classifierを再現するために、日本語データでtohoku-nlp/bert-base-japanese-v3を学習したモデルです。
- Downloads: 25
- LoneWolfgang/bert-for-japanese-twitter
- BERT for Japanese Twitter
- Downloads: 23
- Aratako/Ninja-v1-RP-expressive
- Ninja-v1-RP-expressive GGUF版はこちら/Click here for the GGUF version 概要 This is a merge of pre-trained language models created using mergekit.
- Downloads: 22
- LoneStriker/SambaLingo-Japanese-Chat-5.0bpw-h6-exl2
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 14
- LoneStriker/SambaLingo-Japanese-Chat-4.0bpw-h6-exl2
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 13
- LoneStriker/SambaLingo-Japanese-Chat-6.0bpw-h6-exl2
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 12
- dummy-foo/ChatGLM3-Japanese
- ChatGLM3-6B是一个中英双语大模型,本项目为ChatGLM3-6B加入日文能力。
- Downloads: 12
- LoneStriker/SambaLingo-Japanese-Chat-8.0bpw-h8-exl2
- SambaLingo-Japanese-Chat SambaLingo-Japanese-Chat is a human aligned chat model trained in Japanese and English.
- Downloads: 11
- natsusakiyomi/AsagaoMix
- 📄 ライセンス / License 修正 CreativeML OpenRAIL-M ライセンス / Modified CreativeML OpenRAIL-M license このモデルのクレジットを入れずに使用する Use the model without crediting the creator このモデルで生成した画像を商用利用する Sell images they generate このモデルを商用の画像生成サービスで利用する Run on services that generate images for money このモデルを使用したマージモデルを共有する Share merges using this model このモデル、またはこのモデルをマージしたモデルを販売する Sell this model or merges using this model このモデルをマージしたモデルに異なる権限を設定する Have different permissions when sharing merges
- Downloads: 45
- SoMiyagawa/AinuTrans-2.0
- シサム語による説明 アイヌ語と日本語の双方向機械翻訳モデルです。
- Downloads: 17
- Mizuiro-sakura/deberta-v2-japanese-tiny-finetuned-commonsenseqa
- このモデルはdeberta-v2-tiny-japaneseをファインチューニングしてCommonsenseQA(選択式の質問)に用いれるようにしたものです。
- Downloads: 14
- Mizuiro-sakura/bert-large-japanese-v2-finetuned-commonsenseQA
- このモデルはcl-tohoku/bert-large-japanese-v2をファインチューニングしてCommonsenseQA(選択式の質問)に用いれるようにしたものです。
- Downloads: 13
- wolf4032/bert-japanese-token-classification-search-local-cuisine
- Model Card for Model ID 料理を検索するための質問文から、検索検索用キーワードである固有表現を抽出します Model Details Model Description 例えば、「東京の肉料理で、春に食べられる、鶏肉を使った料理を教えてください」という文章を入力すると、 「東京 → 都道府県/地方(AREA)」 「肉料理 → 種類(TYPE)」 「春 → 季節(SZN)
- Downloads: 12
- Local-Novel-LLM-project/Ocuteus-v1
- VecteusをベースにLLavaに対応させたモデルです。
- Downloads: 12
- DataPilot/ArrowSmartPlus_3.6B_instruction
- 概要 「LOCAL AI HACKATHON」における、チームDataPilot,4つめの成果品です。
- Downloads: 11
- atsuki-yamaguchi/tigerbot-7b-base-random-ja
- TigerBot-7B Japanese
- Downloads: 11
- KoichiYasuoka/gpt2-medium-japanese-upos
- gpt2-medium-japanese-upos Model Description
- Downloads: 11
- keitokei1994/Llama-3-8B-shisa-2x8B
- モデルの説明(English explanation is below.
- Downloads: 11
- ce-lery/dolly-japanese-gpt-1b-clone
- dolly-japanese-gpt-1b-clone 概要 rinna社の「japanese-gpt-1b」を、日本語データセット「databricks-dolly-15k-ja」を使用して学習させた推論モデルです。
- Downloads: 11
- TylorShine/distilhubert-ft-japanese-50k
- distilhubert-ft-japanese-50k Fine-tuned (more precisely, continue trained)
- Downloads: 11
- HODACHI/Llama-3.1-8B-EZO-1.1-it
- [Llama-3.1-8B-EZO-1.1-it] Model Card モデル情報 / Model Information このモデルは、Meta AI の Llama 3.1 をベースに、日本語タスクでの性能を向上させるためにファインチューニングを行ったものです。
- Downloads: 10,197
- HODACHI/Llama-3.1-70B-EZO-1.1-it
- [Llama-3.1-70B-EZO-1.1-it] Model Card モデル情報 / Model Information このモデルは、Meta AI の Llama 3.1 をベースに、日本語タスクでの性能を向上させるためにファインチューニングを行ったものです。
- Downloads: 479
- HODACHI/Llama-3-EZO-VLM-1
- Llama-3-EZO-VLM-1 Based on SakanaAI/Llama-3-EvoVLM-JP-v2, it has been enhanced for Japanese usage through additional pre-training and instruction tuning.
- Downloads: 289
- HODACHI/Llama-3-EZO-8b-Common-it
- [Llama-3-EZO model card]
- Downloads: 250
- HODACHI/EZO-InternVL2-26B
- [EZO model card]
- Downloads: 32
- bardsai/finance-sentiment-ja-base
- Finance Sentiment JA (base) Finance Sentiment JA (base) is a model based on bert-base-japanese for analyzing sentiment of Japanese financial news.
- Downloads: 16
- sosoai/Orion-14B-Chat-safetensors
- Orion-14B 🌐English | 🇨
- Downloads: 14
- umiyuki/Japanese-Chat-Umievo-itr004-7b
- japanese-chat-umievo-itr004-7b
- Downloads: 13
- keitokei1994/Llama-3-ELYZA-hermes-2x8B
- モデルの説明(English explanation is below.
- Downloads: 13
- Aratako/Oumuamua-7b-instruct-v2-RP
- Oumuamua-7b-instruct-v2-RP nitky/Oumuamua-7b-instruct-v2をロールプレイ用にLoRAでファインチューニングしたモデルです。
- Downloads: 13
- kurogane/Llama3-BioYouri-8B-instruct-chatvector-mergetest
- kurogane/Llama3-BioYouri-8B-mergetest このモデルは生物学・医学に精通したOpenBioLLM-8Bをベースに、日本語対応を向上させるためにLlama-3-youko-8b-instruct-chatvectorとマージさせたモデルです。
- Downloads: 12
- eliashasnat/phi-3
- モデル ベースモデル:microsoft/Phi-3-mini-4k-instruct 学習データセット:llm-jp/hh-rlhf-12k-ja 学習方式:フルパラメータチューニング サンプル import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained( "ryota39/Phi-3-mini-4k-instruct-dpo", trust_remote_code=True, ) model = AutoModelForCausalLM.from_pretrained( "ryota39/Phi-3-mini-4k-instruct-dpo", device_map="auto", torch_dtype='auto', trust_remote_code=True, ) text = "<|user|>\n与えられた質問に対して英語で思考し、日本語で答えてください。
- Downloads: 12
- shinyice/chatvector-llava-v1.5-plus-houou-v3-7b
- Chatvector-llava-v1.5-plus-Houou-v3-7b Model Card Model Details ※好奇心から生まれたモデルです。
- Downloads: 11
- mpasila/Llama-3-Nymeria-ELYZA-8B
- Llama-3-Nymeria-ELYZA-8B Experimental merge between a Llama 3 model that has had continued pre-training with Japanese data and a regular RP model to see how well it keeps its Japanese capability and RP capability.
- Downloads: 14
- HODACHI/glm-4-9b-chat-FT-ja-v0.3
- 概要 GLM-4-9B-Chatを、日本語のWikiデータを選定し、追加学習した日本語に非常に強いスコアを出したモデルです。
- Downloads: 11
- Akimite/Gemma2-9B-it-Boku-v1
- 実験モデルです。
- Downloads: 13
- nitky/RP-7b-instruct
- RP-7b-instruct 🚨 This model is tuning to RP and knowledge is likely unstable.
- Downloads: 11
- Akimite/Qwen2-7b-Instruct-Boku-v3
- Akimite/Qwen2-7b-Instruct-Boku-v2のマイナーチェンジ版です。
- Downloads: 11
- espnet/kan-bayashi_jsut_tts_train_fastspeech2_transformer_teacher_raw_phn_jac-truncated-60fc24
- Example ESPnet2 TTS model kan-bayashi/jsut_tts_train_fastspeech2_transformer_teacher_raw_phn_jaconv_pyopenjtalk_accent_with_pause_train.loss.ave ♻
- Downloads: 11
- classla/xlm-roberta-base-multilingual-text-genre-classifier
- X-GENRE classifier - multilingual text genre classifier Text classification model based on xlm-roberta-base and fine-tuned on a combination of three genre datasets: Slovene GINCO dataset (Kuzman et al.
- Downloads: 2,946
- keitokei1994/Llama-3.1-70B-EZO-1.1-it-GGUF
- Llama-3.1-70B-EZO-1.1-it-gguf HODACHIさんが公開しているHODACHI/Llama-3.1-70B-EZO-1.1-itのgguf版です。
- Downloads: 12
- megagonlabs/electra-base-japanese-discriminator
- electra-base-japanese-discriminator (sudachitra-wordpiece, mC4 Japanese) -
- Downloads: 11
This list is sorted by downloads as of November 19, 2024. 356 datasets are listed.
- KakologArchives/KakologArchives
- ニコニコ実況 過去ログアーカイブ ニコニコ実況 過去ログアーカイブは、ニコニコ実況 のサービス開始から現在までのすべての過去ログコメントを収集したデータセットです。
- Downloads: 243,416
- nlp-waseda/JMMLU
- JMMLU Japanese Massive Multitask Language Understanding Benchmark JMMLU is a four-choice question set consisting of Japanese-translated questions of a portion of MMLU (Paper, Github) (Translated questions) and questions based on unique Japanese cultural context (Japanese questions).
- Downloads: 185,910
- turing-motors/Cauldron-JA
- The Cauldron is a massive collection of 50 vision-language datasets (training sets only) that were used for the fine-tuning of the vision-language model Idefics2.
- Downloads: 15,869
- nyanko7/danbooru2023
- Danbooru2023:
- Downloads: 11,452
- joujiboi/japanese-anime-speech-v2
- Japanese Anime Speech Dataset V2 日本語はこちら japanese-anime-speech-v2 is an audio-text dataset designed for training automatic speech recognition models.
- Downloads: 7,872
- joujiboi/japanese-anime-speech
- Japanese Anime Speech Dataset 日本語はこちら japanese-anime-speech is an audio-text dataset designed for the training of automatic speech recognition models.
- Downloads: 5,915
- Coldog2333/JMedBench
- Maintainers Junfeng Jiang@Aizawa Lab: jiangjf (at) is.s.u-tokyo.ac.jp Jiahao Huang@Aizawa Lab: jiahao-huang (at) g.ecc.u-tokyo.ac.jp
- Downloads: 4,686
- ayousanz/voicevox-voice-corpus
- VOICEVOXを使った人工音声ボイスデータセット 使用したテキストコーパス ITAコーパス つくよみちゃんコーパス ROHANコーパス データセット量情報 フォルダ内の.
- Downloads: 3,958
- elyza/ELYZA-tasks-100
- ELYZA-tasks-100: 日本語instructionモデル評価データセット Data Description 本データセットはinstruction-tuningを行ったモデルの評価用データセットです。
- Downloads: 3,096
- sbintuitions/JMTEB
- JMTEB:
- Downloads: 1,901
- shunk031/JGLUE
- Please feel free to open an issue or pull request.
- Downloads: 1,768
- jpft/danbooru2023
- Danbooru2023:
- Downloads: 1,427
- Helsinki-NLP/tatoeba
- To load a language pair which isn't part of the config, all you need to do is specify the language code as pairs.
- Downloads: 1,407
- kunishou/databricks-dolly-15k-ja
- This dataset was created by automatically translating "databricks-dolly-15k" into Japanese.
- Downloads: 1,365
- defunct-datasets/amazon_reviews_multi
- We provide an Amazon product reviews dataset for multilingual text classification.
- Downloads: 1,203
- neulab/odex
- ODEX is an Open-Domain EXecution-based NL-to-Code generation data benchmark.
- Downloads: 1,179
- ThePioneer/japanese-photos
- Japan Diverse Images Dataset Overview This dataset is a comprehensive collection of high-quality images capturing the diverse aspects of Japan, including urban landscapes, natural scenery, historical sites, contemporary art, everyday life, and culinary experiences.
- Downloads: 1,118
- lmg-anon/vntl-leaderboard
- VNTL Leaderboard
- Downloads: 978
- mkshing/xlsum_ja
- This is the filtered Japanese subset of XL-Sum followed by PaLM 2 filters 15-gram overlap * code: https://gist.github.com/mkshing/d6371cbfdd50d4f352cee247fd4dd86a number of examples train: 4215 (before: 7113) validation: 758 (before: 889) test: 766 (before: 889)
- Downloads: 922
- nyanko7/yandere2023
- Yandere2023:
- Downloads: 662
- range3/cc100-ja
- range3/cc100-ja This dataset consists of parquet files from the cc100 dataset with only the Japanese language extracted and sharded.
- Downloads: 661
- llm-book/wrime-sentiment
- GitHub リポジトリ ids-cv/wrime で公開されているデータセットを利用しています。
- Downloads: 649
- DeL-TaiseiOzaki/magpie-llm-jp-3-13b-20k
- 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(LLM)を用いて自動生成された日本語の指示とそれに対する応答のコレクションです。
- Downloads: 583
- reazon-research/reazonspeech
- This dataset contains a diverse set of natural Japanese speech, collected from terrestrial television streams.
- Downloads: 529
- hotchpotch/JQaRA
- JQaRA : Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語 Q&A データセット 高性能な LLM の台頭に伴い、LLM を用いた質疑応答のユースケースが増加しています。
- Downloads: 475
- globis-university/aozorabunko-clean
- Overview This dataset provides a convenient and user-friendly format of data from Aozora Bunko (青空文庫), a website that compiles public-domain books in Japan, ideal for Machine Learning applications.
- Downloads: 471
- nu-dialogue/real-persona-chat
- Dataset Summary RealPersonaChat は,話者本人のペルソナと性格特性を含む,約14,000件の日本語雑談対話からなるコーパスです.
- Downloads: 456
- JMMMU/JMMMU
- JMMMU:
- Downloads: 452
- hotchpotch/wikipedia-passages-jawiki-embeddings
- wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換したもの。
- Downloads: 441
- jaCappella/jaCappella
- jaCappella corpus : Japanese a cappella vocal ensemble corpus The jaCappella corpus is a corpus of Japanese a cappella vocal ensembles.
- Downloads: 440
- kumapo/JAQKET
- Please feel free to open an issue or pull request.
- Downloads: 433
- p1atdev/danbooru-ja-tag-pair-20241015
- danbooru-ja-tag-pair-20241015 2024/10/15に作成したdanbooruタグと日本語タグのペアデータセット(約15万件) p1atdev/danbooru-ja-tag-pair-20240715 との違いは、 ベースのwikiデータが増えたのでその分対応タグも増えた fasttextでのフィルタリングを挟むようにした 「明らかに他言語のタグ」が混じる頻度はちょっと減った気がするけど、完全ではない (calm3くんの処理に)ミスがなければ、最低一つ以上の日本語タグ (other_names フィールド) が存在するはず 作成過程 isek-ai/danbooru-wiki-2024 の #202408-at20240906 revision を元に、 other_names (基本的にPixivのタグ)がついているものから、日本語じゃないもの・曖昧・意味の過不足が大きいタグを除去。
- Downloads: 429
- matsuxr/JaGovFaqs-22k
- このデータセットについて このデータは、日本の官公庁のWebサイトに掲載されている「よくある質問」を手作業で抽出し、インストラクション用のデータセットとしたものです。
- Downloads: 428
- kunishou/J-ResearchCorpus
- J-ResearchCorpus Update: 2024/3/16言語処理学会第30回年次大会(NLP2024)を含む、論文 1,343 本のデータを追加 2024/2/25言語処理学会誌「自然言語処理」のうち CC-BY-4.0 で公開されている論文 360 本のデータを追加 概要 CC-BY-* ライセンスで公開されている日本語論文や学会誌等から抜粋した高品質なテキストのデータセットです。
- Downloads: 423
- llm-book/ner-wikipedia-dataset
- Githubリポジトリstockmarkteam/ner-wikipedia-datasetで公開されているデータセットを利用しています。
- Downloads: 398
- kunishou/HelpSteer-35k-ja
- NVIDIA が公開している SteerLM 向けのトライアルデータセット HelpSteerを日本語に自動翻訳したデータセットになります。
- Downloads: 395
- kunishou/oasst1-89k-ja
- This dataset was created by automatically translating "OpenAssistant/oasst1" into Japanese.
- Downloads: 385
- bandad/sayoko-tts-corpus
- サヨ子 音声コーパス ダウンロード方法 データセットを圧縮したzipファイルを、gdriveに置いています。
- Downloads: 324
- JapanDegitalMaterial/Places_in_Japan
- Places in japan.
- Downloads: 315
- izumi-lab/llm-japanese-dataset
- llm-japanese-dataset LLM構築用の日本語インストラクション(チャット)データセット 主に,英語で構築されたLLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.
- Downloads: 312
- alfredplpl/simple-zundamon
- シンプルずんだもんデータセット はじめに ずんだもんの設定が詰まったシンプルなデータセットです。
- Downloads: 309
- TLME/Umamusume-voice-transcription
- Umamusume-voice-transcription Total charcters: 77 Comes with transcription.
- Downloads: 296
- kanhatakeyama/SyntheticText
- 以下のデータ源からランダムに抽出したテキストをもとに、phi3で再生成した文章です。 Wikibooks Wikipedia Cosmopedia 判例データ データ parquetファイルが数十GB程度あります datasetsライブラリからでは、はじめの数GB程度しか読み込めない可能性があります。git lfsなどでダウンロードする必要がありそうです。 コード こちら 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。
- Downloads: 289
- kogi-jwu/jhumaneval
- This is a Japanese translated version of HumanEval, an evaluation harness for the HumanEval problem solving dataset described in the paper "Evaluating Large Language Models Trained on Code".
- Downloads: 288
- bclavie/mmarco-japanese-hard-negatives
- [Under Construction]
- Downloads: 272
- Fhrozen/CABankSakuraCHJP
- CABank Japanese CallHome Corpus Participants: 120 Type of Study: phone call Location: United States Media type: audio DOI: doi:10.21415/T5H59V Web: https://ca.talkbank.org/access/CallHome/jpn.html Citation information Some citation here.
- Downloads: 268
- hpprc/jawiki
- JaWiki WikipediaのHTML形式のダンプファイルから抽出したテキストデータセットです。
- Downloads: 266
- hotchpotch/cc100-ja-documents
- cc100-ja-documents HuggingFace で公開されている cc100 / cc100-ja は line 単位の分割のため、document 単位に結合したものです。
- Downloads: 260
- Elite35P-Server/EliteVoiceProject
- Elite Voice Project これはホロライブ所属Vtuberさくらみこ氏の声をデータセット化し音声認識などで活用できるようにする事を目的とした非公式プロジェクトです。
- Downloads: 256
- alfredplpl/anime-with-caption-cc0
- Anime with caption CC-0 dataset このデータセットはイラストに対する日本語キャプションを 倫理的に学習しやすくするためのデータセットです。
- Downloads: 249
- SkelterLabsInc/JaQuAD
- JaQuAD is developed to provide a SQuAD-like QA dataset in Japanese.
- Downloads: 246
- hatakeyama-llm-team/japanese2010
- 日本語ウェブコーパス2010 こちらのデータをhuggingfaceにアップロードしたものです。 2009 年度における著作権法の改正(平成21年通常国会 著作権法改正等について | 文化庁)に基づき,情報解析研究への利用に限って利用可能です。 形態素解析を用いて、自動で句点をつけました。 変換コード 変換スクリプト 形態素解析など
- Downloads: 238
- NilanE/ParallelFiction-Ja_En-100k
- Dataset details: Each entry in this dataset is a sentence-aligned Japanese web novel chapter and English fan translation.
- Downloads: 235
- llm-book/livedoor-news-corpus
- オリジナルのサイトと同じものを使用しています。
- Downloads: 230
- cl-nagoya/auto-wiki-qa
- AutoWikiQA 東工大が公開しているSwallow-MXを用いて、Wikipedia中のテキストを入力として「質問(query)」と「回答(answer)」を生成し、生成された質問と回答についてフィルタリングを行ったデータセットです。
- Downloads: 225
- llm-jp/oasst2-33k-ja
- oasst2-33k-ja This repository provides an instruction tuning dataset developed by LLM-jp, a collaborative project launched in Japan.
- Downloads: 224
- YANS-official/senryu-shashin
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-shashin", split="train") 概要 株式会社東建コーポレーションが運営するホームメイト・リサーチによる『ホームメイト川柳大賞』のうち、お題が画像形式で提供される『写真川柳』に関するクロールデータです。
- Downloads: 214
- team-hatakeyama-phase2/LLMChat
- LLMChat 概要 GENIAC 松尾研 LLM開発プロジェクトで開発したモデルを人手評価するために構築したLLMChatというシステムで収集された質問とLLMの回答、及び人手評価のデータです。
- Downloads: 204
- ryo0634/bsd_ja_en
- Dataset Summary This is the Business Scene Dialogue (BSD) dataset, a Japanese-English parallel corpus containing written conversations in various business scenarios.
- Downloads: 202
- llm-book/llm-jp-eval
- オリジナルのサイトと同じものを使用しています。
- Downloads: 202
- kunishou/amenokaku-code-instruct
- Amenokaku-Code-Instruct Update: 2023/12/27データセットに JaxTon , プロになるJava のコードデータ 180 レコードを追加しました。
- Downloads: 188
- taishi-i/awesome-japanese-nlp-classification-dataset
- Dataset overview This dataset identifies whether a GitHub repository description pertains to Japanese natural language processing (NLP).
- Downloads: 187
- systemk/washi
- Washi (a kind of traditional Japanese paper)
- Downloads: 184
- kanhatakeyama/japanese-corpus-categorized
- 日本語コーパス mc4-jaなどのwebコーパスをクリーニング後、教師なし学習モデルでテキストを約1万件にクラスタリングしたコーパスです。 著作権法で認められた情報解析目的で使用できます。 一部のファイルしかparquet化されていないので、ご注意ください。ファイルリストはoutフォルダ内にあります git lfsなどでダウンロードください。
- Downloads: 184
- hpprc/jsick
- Dataset.
- Downloads: 184
- kunishou/OpenMathInstruct-1-1.8m-ja
- OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセットになります。
- Downloads: 183
- Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k-formatted
- Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k-formatted 20240907 データ増量(約19800件→約39600件) 概要 gpt-4o-miniを用いて作成した日本語ロールプレイデータセットであるAratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6kにsystem messageを追加して整形したデータセットです。
- Downloads: 179
- ltvmoon/opusbook_ja_en
- language: jp en tags: translation license: cc-by-4.0
- Downloads: 168
- Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus
- Introduction This is a LLM-filtered set of the first 1M rows from ntt's JParaCrawl v3 large English-Japanese parallel corpus.
- Downloads: 166
- llm-jp/databricks-dolly-15k-ja
- databricks-dolly-15k-ja This repository provides an instruction tuning dataset developed by LLM-jp, a collaborative project launched in Japan.
- Downloads: 163
- llm-book/jawiki-sentences
- GitHub リポジトリ singletongue/wikipedia-utils で公開されているデータセットを利用しています。
- Downloads: 161
- shunk031/wrime
- In this study, we introduce a new dataset, WRIME, for emotional intensity estimation.
- Downloads: 160
- YANS-official/ogiri-bokete
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/ogiri-bokete", split="train") 概要 大喜利投稿サイトBoketeのクロールデータです。
- Downloads: 156
- yuzuai/rakuda-questions
- Rakuda - Questions for Japanese models Repository:
- Downloads: 155
- NilanE/SmallParallelDocs-Ja_En-6k
- This dataset contains document-length Japanese-English parallel texts from various sources.
- Downloads: 152
- izumi-lab/llm-japanese-dataset-vanilla
- llm-japanese-dataset-vanilla LLM構築用の日本語チャットデータセット izumi-lab/llm-japanese-dataset から,日英翻訳のデータセット等を抜いたものです.
- Downloads: 151
- turing-motors/Japanese-Heron-Bench
- Japanese-Heron-Bench Dataset Description Japanese-Heron-Bench is a benchmark for evaluating Japanese VLMs (Vision-Language Models).
- Downloads: 149
- Fhrozen/CABankSakura
- CABank Japanese Sakura Corpus Susanne Miyata Department of Medical Sciences Aichi Shukotoku University smiyata@asu.aasa.ac.jp website: https://ca.talkbank.org/access/Sakura.html Important
- Downloads: 141
- YANS-official/ogiri-test-with-references
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/bokete-ogiri-test", split="test") 概要 大喜利投稿サイトBoketeのクロールデータです。
- Downloads: 137
- YukiTomita-CC/AKU-d_ms-0.5B-v0.1_dataset
- AKU-d_ms-0.5B-v0.1_dataset Overview このリポジトリは、私の開発しているAKUシリーズの1つ目となる、AKU-d_ms-0.5B-chat-v0.1の事前学習に使用したテキストデータを集めています。
- Downloads: 134
- allganize/RAG-Evaluation-Dataset-JA
- Allganize RAG Leaderboard とは Allganize RAG Leaderboard は、5つの業種ドメイン(金融、情報通信、製造、公共、流通・小売)において、日本語のRAGの性能評価を実施したものです。
- Downloads: 132
- sergicalsix/Japanese_NER_Data_Hub
- 概要 大規模言語モデル(LLM)用の固有表現認識データセット(J-NER)のリポジトリです。
- Downloads: 132
- tanganke/kmnist
- KMNIST Dataset lassify images from the KMNIST dataset into one of the 10 classes, representing different Japanese characters.
- Downloads: 131
- kanhatakeyama/SyntheticTextWikiTranslate
- 以下のデータ源からランダムに抽出した日本語のテキストをPhi-3で再生成し、更に自動英訳したコーパスです。 Wikibooks Wikipedia コード こちら 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 データ parquetファイルが数十GB程度あります datasetsライブラリからでは、はじめの数GB程度しか読み込めない可能性があります。git lfsなどでダウンロードする必要がありそうです。
- Downloads: 125
- saldra/sakura_japanese_dataset
- Sakura_dataset 商用利用可能な超小規模高品質日本語データセット。
- Downloads: 124
- tarudesu/gendec-dataset
- Gendec: Gender Dection from Japanese Names with Machine Learning
- Downloads: 123
- turing-motors/LLaVA-Instruct-150K-JA
- Dataset Details Dataset Type:Japanese LLaVA Instruct 150K is a localized version of the original LLaVA Visual Instruct 150K dataset.
- Downloads: 122
- NekoFi/whisper_toku
- Dataset Description
- Downloads: 121
- Verah/tatoeba_dedupe_en-jp_2024-March-01
- English - Japanese pairs taken from https://tatoeba.org/en/downloads and then deduplicated.
- Downloads: 119
- range3/wiki40b-ja
- range3/wiki40b-ja This dataset consists of three parquet files from the wiki40b dataset with only Japanese data extracted.
- Downloads: 119
- Emu-Academic/pjsk-emu-dataset
- MashiroSA/sovits-emu-dataset A voice dataset collected from Project Sekai charactor Emu Otori Introduction Size: 2735, all WAV format.
- Downloads: 118
- llm-book/aio-retriever
- GitHub リポジトリ cl-tohoku/quiz-datasets で公開されているデータセットを利用しています。
- Downloads: 115
- MomoyamaSawa/Voice-KusanagiNene
- 🥕 如果兔兔的仓库对你有帮助的话点个⭐喵~ If Tutu's repository is helpful to you, please give it a ⭐ meow~ もしうさぎのリポジトリが役に立った場合は、⭐をぽちっとしてくださいにゃん~ 🍉 任何 ❓
- Downloads: 112
- sappho192/Tatoeba-Challenge-jpn-kor
- Dataset Details Dataset Sources Repository: Helsinki-NLP/Tatoeba-Challenge Detail: Japanese - Korean jpn-kor Uses The dataset can be used to train the translation model that translates Japanese sentence to Korean.
- Downloads: 111
- aixsatoshi/Chat-with-cosmopedia
- Reasoning、知識、会話の掛け合いなどの情報密度が高いマルチターンの会話データです。
- Downloads: 110
- hotchpotch/JaCWIR
- JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット 近年、大規模言語モデル(LLM)の台頭により、一般的な日本語を用いた自然な検索クエリで質問するユースケースが増えています。
- Downloads: 109
- hpprc/en-ja-align
- en-ja-align 日英対訳文対応付けデータ(内山ら, 2003)として公開されている日英対訳文データセットです。
- Downloads: 108
- shunk031/jsnli
- Dataset Preprocessing Supported Tasks and Leaderboards Languages 注釈はすべて日本語を主要言語としています。
- Downloads: 107
- Aratako/Synthetic-JP-EN-Coding-Dataset-801k
- Synthetic-JP-EN-Coding-Dataset-801k Magpieによって作成したコードSFTデータセットであるAratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69kを元に、Evol-Instructのような手法を用いて複数のinstructionとresonseを生成し拡張して作成した、日英混合801262件のコードSFT用合成データセットです。
- Downloads: 106
- Aratako/Magpie-Tanuki-8B-97k
- Magpie-Tanuki-8B-97k Magpieの手法をweblab-GENIAC/Tanuki-8B-dpo-v1.0に対して適用し作成した、97269件の日本語対話データセットです。
- Downloads: 104
- hpprc/mqa-ja
- mqaデータセットのquery--passageのペアについて重複を削除したデータセットです。
- Downloads: 104
- Mitsua/wikidata-parallel-descriptions-en-ja
- Wikidata parallel descriptions en-ja Parallel corpus for machine translation generated from wikidata dump (2024-05-06).
- Downloads: 103
- inu-ai/ggml-japanese-gpt2
- Windowsの方はggml-japanese-gpt2の実行ファイルで動くと思います。
- Downloads: 103
- mohamed-khalil/AnimeSongsLyrics
- Anime Songs Lyrics Dataset ― アニメソングの歌詞データセット Welcome to the Anime Songs Lyrics Dataset Overview This dataset compiles a diverse collection of lyrics from various anime songs, providing a rich resource for enthusiasts and researchers alike.
- Downloads: 102
- kanhatakeyama/AutoMultiTurnByCalm3-22B
- 自動生成のマルチターンデータセット オープンなデータソースから、Calm3-22bを使ってQ&Aを自動生成したものです。 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 データソース はじめの質問(q1)を、種々のデータソースから収集しました。その後のやりとりはすべて、Calmが生成しました。質問文については、元データのライセンスに準拠します。 oasst2-33k-ja apache 2.0 databricks-dolly-15k-ja cc-by-sa-3.0 minnade CC0 cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental cc-by-4.0
- Downloads: 102
- hpprc/tanaka-corpus
- HF Datasets version of Tanaka Corpus.
- Downloads: 101
- llm-book/aio-passages-bpr-bert-base-japanese-v3
- llm-book/aio-passages のデータセットに対して、llm-book/bert-base-japanese-v3-bpr-passage-encoder によるパッセージのバイナリベクトルが embeddings フィールドに追加されています。
- Downloads: 100
- ganchengguang/Sentence-Classification-and-NER-Mix-Datasets-SCNM
- The dataset of SLG framework.
- Downloads: 98
- YANS-official/senryu-test-with-references
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-test", split="test") 概要 川柳投稿サイトの『写真川柳』と『川柳投稿まるせん』のクロールデータです。
- Downloads: 98
- zan/lima-ja
- , 2023) was trained on.
- Downloads: 98
- hpprc/alt-parallel-en-ja
- Asian Language Treebank (ALT) Project ALT Parallel Corpusのうち、日英対訳部分のみを抽出したデータセットです。
- Downloads: 96
- recruit-jp/japanese-image-classification-evaluation-dataset
- recruit-jp/japanese-image-classification-evaluation-dataset Overview Developed by: Recruit Co.
- Downloads: 95
- OmniAICreator/Japanese-Roleplay-Dialogues
- Japanese-Roleplay-Dialogues This is a dialogue corpus collected from Japanese role-playing forum (commonly known as "なりきりチャット(narikiri chat)").
- Downloads: 94
- Atsushi/fungi_indexed_mycological_papers_japanese
- fungi_indexed_mycological_papers_japanese 大菌輪「論文3行まとめ」データセット最終更新日:2024/9/28(R3-12108まで) Languages Japanese This dataset is available in Japanese only.
- Downloads: 93
- Hoshikuzu/Japanese-Law-Translation
- Japanese-Law-Translation Dataset Summary
- Downloads: 92
- taishi-i/nagisa_stopwords
- Japanese stopwords for nagisa
- Downloads: 92
- Aratako/Japanese-RP-Bench-testdata-SFW
- Japanese-RP-Bench-testdata-SFW 本データセットは、LLMの日本語ロールプレイ能力を計測するベンチマークJapanese-RP-Bench用の評価データセットです。
- Downloads: 91
- hatakeyama-llm-team/AutoGeneratedJapaneseQA-other
- 自動生成Q&A データソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 チームで作成したデータおよび「Common Crawlをもとに生成しています。
- Downloads: 91
- ryota39/open_preference-v0.3
- description public RLHF dataset in Japanese the construction of the reward model was reformatted into a classification task.
- Downloads: 91
- ebisuke/liz-nojaloli-ja-ds
- ebisuke/liz-nojaloli-ja-ds License MIT License Description ebisuke/liz-nojaloli-jaの学習元のデータセットです。
- Downloads: 90
- sbintuitions/JEMHopQA
- 評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン ソース: aiishii/JEMHopQA on GitHub JEMHopQA JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
- Downloads: 89
- Calvin-Xu/Furigana-Aozora
- Derived from 青空文庫及びサピエの点字データから作成した振り仮名のデータセット(GitHub) https://github.com/ndl-lab/huriganacorpus-aozora Certain mismatches in the original corpus were eliminated during validation (307 instances) Error: 烈しい調子である。
- Downloads: 88
- SakanaAI/JA-VG-VQA-500
- JA-VG-VQA-500 Dataset Description JA-VG-VQA-500 is a 500-sample subset of Japanese Visual Genome VQA dataset.
- Downloads: 87
- stockmark/ner-wikipedia-dataset
- Wikipediaを用いた日本語の固有表現抽出データセット GitHub: https://github.com/stockmarkteam/ner-wikipedia-dataset/ LICENSE: CC-BY-SA 3.0 Developed by Stockmark Inc.
- Downloads: 86
- oshizo/japanese-wikipedia-paragraphs
- A slightly modified version of the parsing and chunking method for singletongue/wikipedia-utils.
- Downloads: 86
- oshizo/ASRClustering-ja
- 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
- Downloads: 85
- sudy-super/dialogsum-ja
- dialogsum-ja このデータセットはdialogsum、CSDSなどを翻訳した日本語対話要約データセットです。
- Downloads: 83
- mohamed-khalil/AnimeQuotes
- Anime Quotes Dataset ― アニメの名言データセット🎐 Welcome to Anime Quotes Dataset Overview This dataset contains a curated collection of inspiring and memorable quotes from various anime series, sourced from the Anime Motivation website.
- Downloads: 82
- llm-jp/mbpp-ja
- mbpp-ja
- Downloads: 82
- baobab-trees/wikipedia-human-retrieval-ja
- Japanese Wikipedia Human Retrieval dataset This is a Japanese question answereing dataset with retrieval on Wikipedia articles by trained human workers.
- Downloads: 82
- p1atdev/ja-stackoverflow
- ja-stackoverflow 日本語版 Stack Overflow の スタック・オーバーフロー のデータダンプ をもとにデータを加工し、質問文と回答文のペアになるように調整した QA データセット。
- Downloads: 80
- zetavg/ShareGPT-Processed
- ShareGPT-Processed The RyokoAI/ShareGPT52K dataset, converted to Markdown and labeled with the language used.
- Downloads: 80
- shi3z/OpenOrcaJapanese
- OpenOrcaデータセットの日本語翻訳版です https://huggingface.co/datasets/Open-Orca/OpenOrca 現在翻訳作業が続行中で、OpenOrca全体の1/5程度の翻訳が終わった状態でひとまず公開します。
- Downloads: 80
- fujiki/japanese_hh-rlhf-49k
- This is a little bit different version of kunishou/hh-rlhf-49k-ja without ng_translation == 1 examples.
- Downloads: 79
- toshi456/llava-bench-in-the-wild-ja
- This dataset is the data that corrected the translation errors and untranslated data of the Japanese data in MBZUAI/multilingual-llava-bench-in-the-wild.
- Downloads: 79
- HachiML/alpaca_jp_python
- alpaca_jp_python alpaca_jp_pythonは、 Stanford Alpacaの手法 mistralai/Mixtral-8x22B-Instruct-v0.1 で作った合成データ(Synthetic data)です。
- Downloads: 78
- Aruno/guanaco_jp
- Japanese Prompt of GuanacoDataset extracted using langdetect.
- Downloads: 78
- Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k
- Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k 20240907 データ増量(約19800件→約39600件) 概要 gpt-4o-miniを用いて作成した、約39600件の日本語ロールプレイの対話を収録した合成データセットです。
- Downloads: 78
- llm-book/ner-wikinews-dataset
- 固有表現ラベルはllm-book/ner-wikipedia-datasetと同様のものを採用しており、全部で8種類 (人名、法人名、地名、製品名、政治的組織名、施設名、その他の組織名、イベント名)あります。
- Downloads: 78
- kunishou/databricks-dolly-69k-ja-en-translation
- This dataset was created by automatically translating "databricks-dolly-15k" into Japanese.
- Downloads: 78
- SNOW-NLP/snow_simplified_japanese_corpus
- Dataset Summary SNOW T15:The simplified corpus for the Japanese language.
- Downloads: 78
- aixsatoshi/Swallow-MX-chatbot-DPO
- Chatbot Arena Conversationsの質問文から、aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2を使用して応答文を作成しました 質問文は、以下のモデルのPrompt部分を使用しました Chatbot Arena Conversations JA (calm2) 以下引用です。
- Downloads: 77
- fujiki/japanese_alpaca_data
- [github].
- Downloads: 76
- deepghs/fgo_voices_jp
- JP Voice-Text Dataset for
- Downloads: 75
- llm-jp/hh-rlhf-12k-ja
- hh-rlhf-12k-ja This repository provides a human preference dataset developed by LLM-jp, a collaborative project launched in Japan.
- Downloads: 75
- sudy-super/CoTangent
- CoTangentは人手で作成された高品質でクリーンな100セットの日本語CoT用データセットです。
- Downloads: 75
- hpprc/janli
- The JaNLI (Japanese Adversarial NLI) dataset, inspired by the English HANS dataset, is designed to necessitate an understanding of Japanese linguistic phenomena and to illuminate the vulnerabilities of models.
- Downloads: 75
- Kendamarron/jimba-instuction-1k-beta
- cyberagent/calm2-7b-chatの出力を人手でチェック・修正することで作成した日本語Instructionデータセットです。
- Downloads: 74
- Nan-Do/OpenSubtitlesJapanese
- The dataset contains (almost) the entire OpenSubtittles database for Japanese: Over 7000 tv shows and/or movies.
- Downloads: 73
- tet550/jawiki_sentences
- Jawiki Sentences Dataset このデータセットは、日本語版Wikipediaの記事を元に作成されました。
- Downloads: 73
- aixsatoshi/cosmopedia-japanese-100k
- cosmopedia-japanese-20kのデータに、kunishou様から20k-100kをご提供いただけることになり100kまで拡大しました。
- Downloads: 72
- turing-motors/LLaVA-Pretrain-JA
- Dataset Details Dataset Type:Japanese LLaVA Pretrain is a localized version of the original LLaVA Pretrain dataset.
- Downloads: 71
- Atsushi/fungi_diagnostic_chars_comparison_japanese
- fungi_diagnostic_chars_comparison_japanese大菌輪「識別形質まとめ」データセット最終更新日 /
- Downloads: 70
- Calvin-Xu/Furigana-Aozora-Speech
- Derived from 青空文庫及びサピエの音声デイジーデータから作成した振り仮名注釈付き音声コーパスのデータセット https://github.com/ndl-lab/hurigana-speech-corpus-aozora All text files in the original data were processed for 3361443 entries; duplicates and entries with no kanji were dropped post cleanup
- Downloads: 70
- Calvin-Xu/Furigana-NDLBIB
- Derived from 全国書誌データから作成した振り仮名のデータセット(GitHub)
- Downloads: 69
- ryota39/open_preference_v0.2
- description public RLHF dataset in Japanese the construction of the reward model was reformatted into a classification task Quality of Japanese text is somewhat low arise from the combination of synthetic generated text and machine translation API details reformatted dataset of open_preference_v0.1 label 1 stands for chosen sentence label 0 stands for rejected sentence
- Downloads: 69
- fujiki/guanaco_ja
- This is a Japanese portion of the Guanaco dataset.
- Downloads: 69
- BigleBomb/japanese-vet-terms
- Veterinary Medicine Japanese Dataset This dataset contains audio files of veterinary medicine terms in Japanese, categorized into drugs, diseases, and symptoms.
- Downloads: 68
- p1atdev/japanese-stackexchange
- japanese-stackexchange 英語による日本語に関する質問ができる Japanese Stack Exchange のデータダンプ をもとにデータを加工し、質問文と回答文のペアになるように調整した QA データセット。
- Downloads: 67
- llm-book/jawiki-paragraphs
- GitHub リポジトリ singletongue/wikipedia-utils で公開されているデータセットを利用しています。
- Downloads: 67
- R1b3y/NE4Mitsua
- Negative Embedding / Textual Inversion NE4Mitsua is a Negative Embedding for Mitsua Diffusion One.
- Downloads: 66
- GENIAC-Team-Ozaki/WikiHowNFQA-ja_cleaned
- Lurunchik/WikiHowNFQAを日本語に翻訳し、人手でクリーニングしたデータセットです。
- Downloads: 66
- Hoshikuzu/JParaCrawl
- For more information, see website below!
- Downloads: 66
- llm-book/jsnli
- JSNLI Version 1.1 のデータセットのうち、フィルタリング後の訓練セット (train_w_filtering)
- Downloads: 65
- kunishou/cosmopedia-100k-ja-preview
- cosmopedia-100k のindex 20k ~ 100k を日本語に自動翻訳したデータになります(テキストが長すぎて翻訳エラーになったレコードは除外しています)。
- Downloads: 65
- aixsatoshi/Longcontext-aozora-summary
- 長文からの要約データセットです。
- Downloads: 65
- nu-dialogue/jmultiwoz
- Dataset Summary JMultiWOZ is a large-scale Japanese multi-domain task-oriented dialogue dataset.
- Downloads: 64
- polm-stability/jblimp
- JBLiMP This is the data from "JBLiMP: Japanese Benchmark of Linguistic Minimal Pairs" (Someya and Oseki, 2023).
- Downloads: 64
- JapanDegitalMaterial/Scenery_of_japan
- Scenery of japan.
- Downloads: 63
- hpprc/quiz-no-mori
- クイズの杜様に掲載のクイズのうち、2024年8月5日時点において取得可能だったクイズのうち「二次利用許諾レベル」が「フリー」であったものを収載したデータセットです。
- Downloads: 63
- waddledee/three_line_summarization_for_japanese_news_articles
- ライブドアニュースコーパスの3行要約データセットです。
- Downloads: 63
- hotchpotch/ms_marco_japanese
- ms_marco_japanese ms_marco の日本語翻訳データです。
- Downloads: 63
- kanhatakeyama/CreativeCommons-RAG-QA-Mixtral8x22b
- 以下のデータ源からランダムに抽出した日本語のテキストをもとに、RAG形式のQ&Aを自動生成したものです。 Wikibooks Wikipedia 判例データ instruction datasetとしてではなく、事前学習での利用を想定しています(質疑応答をするための訓練)。 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。
- Downloads: 62
- llm-book/ja-vicuna-qa-benchmark
- オリジナルのサイトと同じものを使用しています。
- Downloads: 62
- sakusakumura/databricks-dolly-15k-ja-scored
- For the English version, please click here.
- Downloads: 61
- AhmedSSabir/Japanese-wiki-dump-sentence-dataset
- Dataset 5M (5121625) clean Japanese full sentence with the context.
- Downloads: 60
- tokyotech-llm/lmsys-chat-1m-synth
- LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En: Japanese/English Synthetic Conversation Dataset Derived from LMSYS-Chat-1M LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En is a Japanese and English conversation dataset.
- Downloads: 60
- creative-graphic-design/CAMERA
- Dataset Summary From the official README.md: CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
- Downloads: 60
- DataPilot/databricks-dolly-15k-Nyan-ja
- このデータセットはkunishou氏が公開している"databricks-dolly-15k"を日本語訳したkunishou/databricks-dolly-15k-jaデータセットの語尾をArrowPro-7B-KUJIRAを用いて「にゃん!
- Downloads: 60
- llm-book/aio-passages
- GitHub リポジトリ cl-tohoku/quiz-datasets で公開されているデータセットを利用しています。
- Downloads: 59
- dichmau/ja_vi_translation
- Japanese-Vietnamese Translated Sentence Pairs.
- Downloads: 59
- Kendamarron/jimba-wiki-instruction-calm3
- Kendamarron/jimba-wiki-instruction-calm3 grapevine-AI/CALM3-22B-Chat-GGUFのQ4_K_Mを使った合成instructionデータセットです。
- Downloads: 59
- mohamed-khalil/KaidanNihonbunka
- Kaidan Nihonbunka: A Journey Through Hyakumonogatari's Ghostly Tales Welcome to the Kaidan Nihonbunka Dataset About Name kaidan Nihonbunka translates to 怪談日本文化 in Japanese: 怪談 (Kwaidan): Ghost story or supernatural tale.
- Downloads: 59
- watashihakobashi/ogiri
- 東京大学松尾・岩澤研究室主催のLLM講座2024の第5回「SFT」演習で使用するデータセットです。
- Downloads: 59
- if001/aozorabunko-clean-sin
- this is forkhttps://huggingface.co/datasets/globis-university/aozorabunko-clean filtered row["meta"]["文字遣い種別"] == "新字新仮名"
- Downloads: 58
- ThePioneer/Artificial-super-girlfriend-for-fine-tuning
- リアル系モデルに特有の肖像権の問題について比較的クリアなモデルを作ることが可能なように、私が私自身から作り出した人工超彼女(ver 2.1系、ver 2.6系)のデータセット(約2800枚)を作成しました。
- Downloads: 58
- kanhatakeyama/AutoWikiQA
- Wikipedia日本語版からのQ&Aの自動生成 Mixtral 8x22bのGGUF(5bit)をベースに、Wikipedia日本語版の記事から、 自動生成コード1 自動生成コード2 を使ってQ&Aを作成しました。 計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 注意 回答にハルシネーション等が含まれている可能性があるので、フィルタリングをかける必要があるかもしれません。
- Downloads: 58
- Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
- Bluemoon_Top50MB_Sorted_Fixed_ja SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixedを、GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awqを用いて日本語に翻訳したロールプレイ学習用データセットです。
- Downloads: 57
- mpasila/ParallelFiction-Ja_En-100k-json
- This is my conversion of NilanE/ParallelFiction-Ja_En-100k into json which can be read by text-generation-webui when training a model.
- Downloads: 56
- Aratako/Synthetic-JP-10-Turns-Roleplay-Dialogues-Nemotron-4-1k
- Synthetic-JP-10-Turns-Roleplay-Dialogues-Nemotron-4-1k nvidia/Nemotron-4-340B-Instructを用いて作成した、約1000件・各10ターンの日本語ロールプレイの対話を収録した合成対話データセットです。
- Downloads: 56
- takosama/databricks-dolly-15k-ja-google-trans
- Dolly 日本語翻訳版 このリポジトリは、Databricksが開発したdollyプロジェクトの日本語翻訳版です。
- Downloads: 56
- Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k
- Synthetic-JP-Conversations-Magpie-Nemotron-4-10k Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、約10000件の日本語instruction tuning用データセットです。
- Downloads: 55
- shi3z/ja_conv_wikipedia_orion14B_100K
- Abstruct This is a multi-turn conversation dataset generated from the Japanese Wikipedia dataset using Orion14B-Chat.
- Downloads: 55
- hatakeyama-llm-team/CommonCrawlPDFJa
- Data extracted from CommonCrawlPDF Japanese domain Code is here
- Downloads: 55
- kunishou/HelpSteer2-20k-ja
- NVIDIA が公開している SteerLM 向けのトライアルデータセット HelpSteer2を日本語に自動翻訳したデータセットになります。
- Downloads: 55
- YANS-official/senryu-test
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-test", split="test") 概要 川柳投稿サイトの『写真川柳』と『川柳投稿まるせん』のクロールデータ、および YANS 委員が作成したデータを含みます。
- Downloads: 55
- globis-university/aozorabunko-chats
- Overview This dataset is of conversations extracted from Aozora Bunko (青空文庫), which collects public-domain books in Japan, using a simple heuristic approach.
- Downloads: 55
- kunishou/oasst1-chat-44k-ja
- oasst1-89k-jaをチャット形式に変換したデータセットになります。
- Downloads: 54
- kunishou/oasst2-chat-68k-ja
- oasst2-135k-jaをチャット形式に変換したデータセットになります。
- Downloads: 54
- Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k
- Synthetic-JP-EN-Coding-Dataset-Magpie-69k Magpieの手法を様々なモデルに対して適用し作成した、約69000件の日本語・英語のコーディング対話データセットです。
- Downloads: 53
- Sakalti/Multilingal-sakalt-data
- マルチリンガルデータセットです。
- Downloads: 53
- augmxnt/shisa-pretrain-en-ja-v1
- This pre-training dataset was created for shisa-base-7b-v1.
- Downloads: 53
- larryvrh/WikiMatrix-v1-Ja_Zh-filtered
- Filtered and modified version of Japanese/Chinese language pair data from WikiMatrix v1.
- Downloads: 53
- community-datasets/covid_tweets_japanese
- Dataset Summary 53,640 Japanese tweets with annotation if a tweet is related to COVID-19 or not.
- Downloads: 52
- HachiML/Evol-Alpaca-gen3-500
- Evol-Alpaca-gen3-500 Evol-Alpaca-gen3-500は、
- Downloads: 52
- DeL-TaiseiOzaki/reasoning-finetuning-ja
- 日本語指示・推論・回答データセット 概要 このリポジトリは、SkunkworksAI/reasoning-0.01 に含まれるインストラクションデータを基に、Qwen/Qwen2.5-32B-Instruct モデルを用いて作成した日本語版の指示・推論・回答データセットです。
- Downloads: 52
- iam-ajaymeena/Self-Instruct-Japanese-Qwen1.5-14B
- A Japanese dataset generated with Qwen/Qwen1.5-14B model.
- Downloads: 52
- tohoku-nlp/abc-multiple-choice
- abc-multiple-choice Dataset abc-multiple-choice は、競技クイズの大会「abc」で使用された4択問題を元に作成された、多肢選択式の質問応答データセットです。
- Downloads: 51
- oshizo/LawClustering-ja
- 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
- Downloads: 51
- ryota39/Aya_ja
- Aya_ja このデータセットはCohereForAI/aya_datasetの日本語インストラクションデータのみを抽出したデータセットです。
- Downloads: 51
- shi3z/ja_conv_wikipedia_llama2pro8b_10k
- This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
- Downloads: 51
- izumi-lab/sciq-ja-mbartm2m
- Dataset Description This is the Japanese Translation version of sciq.
- Downloads: 51
- turing-motors/LLaVA-v1.5-Instruct-620K-JA
- Dataset Details Dataset Type:Japanese LLaVA v1.5
- Downloads: 51
- y2lan/japan-law
- Japanese Laws This dataset comprises 8.75K law records retrieved from the official Japanese government website e-Gov.
- Downloads: 50
- shi3z/ja_conv_wikipedia_llama2pro8b_3k
- This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
- Downloads: 50
- oshizo/HSClustering-ja
- 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
- Downloads: 50
- joujiboi/bluemoon-fandom-1-1-rp-jp-translated
- bluemoon-fandom-1-1-rp-jp-translated A subset of Squish42/bluemoon-fandom-1-1-rp-cleaned translated to Japanese using command-r-08-2024.
- Downloads: 50
- Kendamarron/pret-a-porter-instruction-v0.1
- データセットについて オープンソースLLMの出力を人手でチェック・修正したinstructionにSwallow-MXでoutputを生成したデータセットです。
- Downloads: 50
- kanhatakeyama/AutoMultiTurnByMixtral8x22b
- 自動生成のマルチターンデータセット オープンなデータソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 関連コード 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 データソース はじめの質問(q1)を、種々のデータソースから収集しました。その後のやりとりはすべて、Mixtralが生成しました。質問文については、元データのライセンスに準拠します。 oasst2-33k-ja apache 2.0 databricks-dolly-15k-ja cc-by-sa-3.0 minnade CC0 cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental cc-by-4.0
- Downloads: 49
- RJZ/ConceptNetSyntheticPhi3Text_ja
- 必ずすべての情報を網羅し、日本語で出力すること。
- Downloads: 49
- YANS-official/ogiri-debug
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/ogiri-debug", split="test") 概要 大喜利生成の動作確認用データセットです。
- Downloads: 49
- kunishou/ApolloCorpus-ja
- ApolloCorpus-ja 概要 多言語医療データセットの ApolloCorpus を日本語に自動翻訳した 525k の指示チューニングデータセットになります。
- Downloads: 49
- shi3z/Japanese_Wikipedia_Conversation
- Wikipedia日本語版データセット(izumi-lab/wikipedia-ja-20230720)
- Downloads: 49
- svjack/pokemon-blip-captions-en-ja
- Dataset used to train Pokémon text to image model, add a Japanese Column of Pokémon BLIP captions BLIP generated captions for Pokémon images from Few Shot Pokémon dataset introduced by Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis (FastGAN).
- Downloads: 48
- range3/wikipedia-ja-20230101
- range3/wikipedia-ja-20230101
- Downloads: 48
- RyokoExtra/JapaneseGoblin
- Dataset Summary JapaneseGoblin is a dump of en.touhouwiki.net wiki.
- Downloads: 48
- MakiAi/Tokama_Club_QA
- 東方トカマクラブ データセット 概要 このデータセットは、東方Projectのトカマクラブに関する情報を収集したものです。
- Downloads: 48
- Silviase/Japanese-Heron-Bench
- This dataset is a clarified version of the image, context, and question set included in the Japanese-Heron-Bench for the construction of the Japanese evaluation benchmark suite.
- Downloads: 47
- tellarin-ai/llm-japanese-dataset-vanilla-aya-format
- It contains Japanese instruction-like data intended for LLM construction/tuning.
- Downloads: 47
- hatakeyama-llm-team/AutoGeneratedJapaneseQA
- 自動生成Q&A 種々のデータソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 CC-BY系またはApatch-2.0のデータソースを改変して生成しています。
- Downloads: 47
- YukiTomita-CC/ELYZA-tasks-100_Human_solved
- 概要 このデータセットは日本語LLMの評価用としてよく用いられるelyza/ELYZA-tasks-100について人間が回答を行った結果です。
- Downloads: 47
- sbintuitions/JSQuAD
- 評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン ソース: yahoojapan/JGLUE on GitHub JSQuAD JSQuAD is a Japanese version of SQuAD (Rajpurkar+, 2016), one of the datasets of reading comprehension.
- Downloads: 47
- YANS-official/ogiri-keitai
- 概要 NHKで定期的に放送されていた『着信御礼!
- Downloads: 47
- ayousanz/common-voice-speechMOS-analyze
- 概要 Common Voice Corpus 17.0をspeechMOSにて音声品質の分析を行った結果です。
- Downloads: 47
- den2nova/den2niji
- LoRAデータセット開示用データ。
- Downloads: 47
- toshi456/LLaVA-JP-Instruct-108K
- Dataset details Dataset type:
- Downloads: 46
- hatakeyama-llm-team/AutoGeneratedJapaneseQA-CC
- 自動生成Q&A データソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 Common Crawlをもとに生成しています。
- Downloads: 46
- Aratako/Synthetic-JP-Roleplay-Instruction-Nemotron-4-1k
- Synthetic-JP-Roleplay-Instruction-Nemotron-4 Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、約1000件の日本語ロールプレイ用のinstructionデータセットです。
- Downloads: 46
- ganchengguang/Text-Classification-and-Relation-Event-Extraction-Mix-datasets
- The paper of GIELLM dataset.
- Downloads: 46
- kanhatakeyama/SyntheticTextOpenMathInstruct
- 以下のデータ源からランダムに抽出した日本語のテキストをもとに、Phi-3で作文したコーパスです。 OpenMathInstruct-1-1.8m-ja コード こちら 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。
- Downloads: 46
- GENIAC-Team-Ozaki/chatbot-arena-ja-calm2-7b-chat-experimental_deduped
- chatbot-arena-ja-calm2-7b-chatからpromptが一致するデータを削除したデータセットです。
- Downloads: 46
- mpasila/ParallelFiction-Ja_En-100k-alpaca-4k-context
- This is a modified version of NilanE/ParallelFiction-Ja_En-100k which has been turned into Alpaca format.
- Downloads: 46
- ayousanz/reazon-speech-v2-all-speechMOS-analyze
- 概要 reazon-research/reazonspeech-v2[all]をspeechMOSにて音声品質の分析を行った結果です。
- Downloads: 46
- Nexdata/Chinese-Japanese_Parallel_Corpus_Data
- It covers multiple fields including general, IT, news, patent, and international engine.
- Downloads: 46
- nakayama/hh-rlhf-helpful-base-ja
- https://github.com/anthropics/hh-rlhf の内容のうち、helpful-base内のchosenに記載されている英文をfuguMTで翻訳、うまく翻訳できていないものを除外、修正したものです。
- Downloads: 46
- p1atdev/LLM-jp-Toxicity-Dataset
- LLM-jp Toxicity Dataset 日本語有害文書データセット「LLM-jp Toxicity Dataset」 See https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-toxicity-dataset
- Downloads: 46
- Nexdata/English-Japanese_Parallel_Corpus_Data
- It covers multiple fields such as tourism, medical treatment, daily life, news, etc.
- Downloads: 45
- toshi456/Rakuten-Alpaca-Data-32K
- データ生成を行う際のSEEDデータには有志の方々が作成したseed_tasks_japanese.jsonlを利用させていただきました。
- Downloads: 45
- kanhatakeyama/multiturn-conv-from-aozora-bunko
- 自動生成の対話データ 青空文庫からランダムに抜粋したテキストをもとに、Calm3-22B-chatで自動生成のマルチンターンデータを生成しました。 生成コード 吾輩は猫である 限定ver 軽いクリーニング
- Downloads: 44
- oshizo/JMDNClustering-ja
- 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
- Downloads: 44
- sbintuitions/aio-extended-answers
- AIO with extended answers AIO (AI王) is a Japanese quiz dataset.
- Downloads: 44
- hpprc/quiz-works
- Quiz Works様に掲載のクイズのうち、2024年8月4日~8月5日時点において取得可能だったクイズを収載したデータセットです。
- Downloads: 44
- longisland3/NMLE
- 医師国家試験データセット(NMLE datasets) はじめに 検索してもなかったので(調べ不足の可能性あり)、医師国家試験データセットを公開します 医師として、AIのエンジニアとして、医師国家試験のデータセットはあるべきもの、あって当然のものと思っていましたが今現在(2024/6/13時点)存在が確認できず、自分で使うのに必要だったため作成 医療用タスクに特化したLLMなどの開発も活発になっていますが、そのデータ元としてUSMLE(アメリカの医師国家試験)が使われており、およそ国内の実情と違うデータセットを使うことの弊害が生じていると思っています なので何かの役にたてばと思いこのデータセットを公開します 用途 用途として モデルの評価 進化的モデルマージのタスクにつかう(「New Task Guide」参照) RAGなどに用いる情報源 医師国家試験の俯瞰 を想定しています 構造 data = { "id": question_id, "question": question_text, "choices": choices, "answer": answers, "explanation": explan
- Downloads: 44
- GENIAC-Team-Ozaki/WikiHowNFQA-ja
- Lurunchik/WikiHowNFQAを日本語に翻訳したデータセットです。
- Downloads: 44
- shi3z/ja_conv_wikipedia_orion14B_10K
- Abstruct This is a multi-turn conversation dataset generated from the Japanese Wikipedia dataset using Orion14B-Chat.
- Downloads: 43
- werty1248/OpenOrca-EnKoZhJa-18k
- This dataset is a collection of Korean, Chinese, and Japanese OpenOrca translation datasets.
- Downloads: 43
- ayousanz/reazon-speech-v2-all-WAND-SNR-analyze
- 概要 reazon-research/reazonspeech-v2[all]をWADA SNRにて音声品質の分析を行った結果です。
- Downloads: 43
- yulanfmy/databricks-qa-ja
- データセット概要 手動で作成したDatabricksに関する質問と回答ペアの日本語データセットです。
- Downloads: 42
- tzmtwtr/tw-posts-japanese
- データ制作者(t_w)
- Downloads: 42
- kunishou/jp-effective-instructions
- oasst1-89k-ja , databricks-dolly-15k-ja , hh-rlhf-49k-ja の中から JGLUE( JcommonsenseQA , MARC-ja , JSQuAD )の観点で高品質なデータセットに絞り込んだデータセットです。
- Downloads: 42
- ikeno-ada/Japanese-English_translation_of_contents_HScodes
- 日本郵便が提供する「国際郵便 内容品の日英・中英訳、HSコード類」(2024/05/09)のデータに基づいています。
- Downloads: 42
- izumi-lab/piqa-ja-mbartm2m
- Dataset Description This is the Japanese Translation version of piqa.
- Downloads: 42
- toshi456/NLVR-JA
- This dataset was created by machine translating "nlvr" into Japanese.
- Downloads: 41
- DataPilot/Generated-dataset-by-deepseek-v2.5
- 概要 このデータセットはnull-instruct-jaとDeepSeek-v2.5のq4を用いて合成されました。
- Downloads: 41
- Atom007/mc4-japanese-data
- Reference https://huggingface.co/datasets/mc4
- Downloads: 41
- llm-book/jawiki-20220404-c400
- This dataset contains passages, each of which consists of consecutive sentences no longer than 400 characters from Japanese Wikipedia as of 2022-04-04.
- Downloads: 40
- fufufukakaka/pokemon_battle_team_dataset_regulation_f
- ポケモン(VGC)のレギュレーションF ルールにおける選出データを記録したデータセットです。
- Downloads: 40
- if001/elementray_small
- より多く作成したのがこっちhttps://huggingface.co/datasets/if001/elementray_m calm3-22bを使って簡単な日本語の例文を作成したデータセットです。
- Downloads: 40
- DeL-TaiseiOzaki/magpie-reasonig-ja-qwen2.5-72b-16k
- 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(LLM)を用いて自動生成された日本語の指示とそれに対する推論・初期応答・改善応答のコレクションです。
- Downloads: 40
- U23-lab/wiki40b_qa_ja
- wiki40b-ja から生成した質問応答データセット
- Downloads: 40
- WarriorMama777/databricks-dolly-15k-ja_cool
- Overview This dataset is edited from kunishou/databricks-dolly-15k-en.
- Downloads: 40
- yutakobayashi/diet-members-voice-embeddings
- diet-members-voice-embeddings 日本の国会議員の声を speechbrain/spkrec-ecapa-voxcelebで embedding したデータセットです。
- Downloads: 39
- oshizo/japanese-wikipedia-paragraphs-embeddings
- The following data set was vectorized with the intfloat/multilingual-e5-base model and an index file created by faiss.
- Downloads: 39
- aipracticecafe/wataoshi-dialogues-rp
- このデータセットは「私の推しは悪役令嬢。
- Downloads: 39
- Aratako/Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k
- Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、約10000件の日本語のコーディング用対話データセットです。
- Downloads: 39
- YANS-official/ogiri-test
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/ogiri-test", split="test") 概要 大喜利投稿サイトBoketeのクロールデータです。
- Downloads: 39
- shi3z/ja_conv_wikipedia_llama2pro8b_30k
- This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
- Downloads: 39
- shi3z/rachel
- This is a handmade dataset for making a Japanese chatbot.
- Downloads: 39
- kubota/defamation-japanese-twitter
- defamation_japanese_twitter Twitter日本語誹謗中傷検出データセット Dataset Summary SNSにおける誹謗中傷検出のためのデータセットです.
- Downloads: 39
- hpprc/llmjp-warp-html
- llm-jp-corpus-v3のwarp_htmlのうちlevel2フィルタリングされたデータをHFフォーマットに変換し、各データに付与されたURLから元記事のタイトルを取得可能なものについては取得して付与したデータセットです。
- Downloads: 38
- yubo0306/fed_ja
- FEDデータセットをGoogle Cloud Translate API v2で日本語化したデータセットです.
- Downloads: 38
- Aratako/Synthetic-JP-EN-Translation-Dataset-Magpie-Nemotron-4-20k
- Synthetic-JP-EN-Translation-Dataset-Magpie-Nemotron-4-20k Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、20000件の日⇔英翻訳データセットです。
- Downloads: 38
- DataPilot/in-foxhound-ja
- 概要 このデータセットはglaive-aiが公開しているin-foxhoundをKUJIRAを用いて日本語に翻訳したものになります。
- Downloads: 38
- YANS-official/senryu-marusen
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-marusen", split="train") 概要 月に1万句以上の投稿がある国内最大級の川柳投稿サイト『川柳投稿まるせん』のクロールデータです。
- Downloads: 38
- Aratako/LLMChat-Judge-Results
- LLMChat-Judge-Results team-hatakeyama-phase2/LLMChatの2つのモデルの応答に対して、様々なモデルを用いてPairwise評価を行った結果のデータです。
- Downloads: 38
- kai271/TinyStories-Japanese
- Dataset containing ~7000 synthetically generated (by GPT-4o-mini) children's stories in Japanese that only use simple words.
- Downloads: 37
- Atsushi/fungi_trait_circus_database
- fungi_trait_circus_database大菌輪「Trait Circus」データセット(統制形質)最終更新日:2023/12/29 Languages Japanese and English Please do not use this dataset for academic purposes for the time being.
- Downloads: 37
- Nexdata/Japanese_Conversational_Speech_by_Mobile_Phone
- They had free discussion on a number of given topics, with a wide range of fields; the voice was natural and fluent, in line with the actual dialogue scene.
- Downloads: 37
- FreedomIntelligence/MMLU_Japanese
- Japanese version of MMLU dataset tranlasted by gpt-3.5-turbo.
- Downloads: 37
- shi3z/Qarasu_Wikipedia_multiturn_human_gpt_10K
- Japanese multi-turn conversation data was generated using Qarasu14B based on Wikipedia data.
- Downloads: 37
- toshi456/ViQuAE-JA
- This dataset was created by machine translating "ViQuAE" into Japanese.
- Downloads: 37
- Hoshikuzu/Tanaka-corpus
- For more information, see website below!
- Downloads: 37
- FrancophonIA/XFUND
- Dataset origin: https://github.com/doc-analysis/XFUND XFUND:
- Downloads: 37
- MilosNaniwa/WarChestDojo
- データセットの各キーとその説明: state_id: ゲームの状態を一意に識別するためのID。
- Downloads: 37
- hotchpotch/jaqket_cc
- JAQKET から CC-BY-SA のデータのみを含めたデータセット AI王 公式配布データセット(JAQKET) で配布されているクイズデータのうち、ライセンスが CC-BY-SA-4.0のデータのみを含めたデータセットです。
- Downloads: 37
- shi3z/ja_conv_wikipedia_llama2pro8b_20k
- This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
- Downloads: 37
- tzmtwtr/tw-posts-japanese-v2
- データ制作者(t_w)
- Downloads: 37
- SakanaAI/ChouBun
- ChouBun Dataset Description ChouBun is a benchmark for assessing LLMs' performance in long-context tasks in the Japanese language.
- Downloads: 36
- speed/english_quotes_ja
- This dataset is a translation of https://huggingface.co/datasets/Abirate/english_quotes into Japanese using the llm-jp/llm-jp-3-3.7b-instruct model.
- Downloads: 36
- Coaso/test-dolly-15ja-for-stftrainer
- It is just a dataset of dolly-15k-jp(*1)
- Downloads: 36
- AlienKevin/ndlbib-furigana
- 国立国会図書館の書誌データから作成した振り仮名のデータセット A dataset of furigana characters created from bibliographic data from the National Diet Library.
- Downloads: 36
- karakuri-ai/corrected-mt-bench-ja
- Corrected MT-Bench-ja Inflection AIによるCorrected MT-Benchの日本語訳です。
- Downloads: 36
- ibm/AttaQ-JA
- AttaQ-JA Dataset Card AttaQ red teaming dataset was designed to evaluate Large Language Models (LLMs) by assessing their tendency to generate harmful or undesirable responses, which consists of 1402 carefully crafted adversarial questions.
- Downloads: 36
- if001/elementray_l
- calm3-22bを使って簡単な日本語の例文を作成したデータセットです。
- Downloads: 36
- p1atdev/fake-news-jp
- 日本語フェイクニュースデータセット 日本語フェイクニュースデータセット を HuggingFace datasets 用に変換。
- Downloads: 35
- seungwon929/Ja-miracl
- Ja-miracl This dataset represents a conversion of the Japanese (Ja) section from the miracl dataset into the BeIR format, making it compatible for use with mteb.
- Downloads: 35
- saillab/alpaca_japanese_taco
- This repository contains the dataset used for the TaCo paper.
- Downloads: 35
- iam-ajaymeena/Self-Instruct-Japanese-Elzya-13B
- A Japanese dataset generated with an opensource elyza/ELYZA-japanese-Llama-2-13b-instruct model.
- Downloads: 35
- tellarin-ai/ntx_llm_inst_japanese
- Dataset Details For the original NTX dataset, the conversion to the Aya instructions format, or more details, please refer to the full dataset in instruction form (https://huggingface.co/datasets/tellarin-ai/ntx_llm_instructions)
- Downloads: 35
- aixsatoshi/Longcontext-aozora-instruction
- 長文用のinstructionデータセットです。
- Downloads: 35
- p1atdev/novecomi-novel-metadata
- novecomi-novel-metadata https://dengekibunko.jp/novecomi/novel/ からスクレイピング。
- Downloads: 34
- Gustav114514/work
- Fine-tuned XLSR-53 large model for speech recognition in Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the train and validation splits of Common Voice 6.1, CSS10 and JSUT.
- Downloads: 34
- wolf4032/token-classification-japanese-search-local-cuisine
- 料理を検索するための質問文と、質問文に含まれる検索検索用キーワードの情報を持ったデータセットです 固有表現の種類は以下の4つです。
- Downloads: 34
- Calvin-Xu/FLFL-Aozora-Speech-Train
- A more aggressively cleaned up version of Calvin-Xu/Furigana-Aozora-Speech, which consists of 2,536,041 out of the 3,361,443 entries generated from the raw data 青空文庫及びサピエの音声デイジーデータから作成した振り仮名注釈付き音声コーパスのデータセット https://github.com/ndl-lab/hurigana-speech-corpus-aozora.
- Downloads: 34
- sbintuitions/JCommonsenseQA
- 評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン ソース: yahoojapan/JGLUE on GitHub JCommonsenseQA JCommonsenseQA is a Japanese version of CommonsenseQA (Talmor+, 2019), which is a multiple-choice question answering dataset that requires commonsense reasoning ability.
- Downloads: 34
- Kendamarron/jimba-instruction-simplify-200
- データセットについて Kendamarron/jimba-instuction-1k-betaのinstructionのうち200個をより単純なタスクに書き換えたデータセットです。
- Downloads: 34
- Aratako/Magpie-Tanuki-8B-annotated-96k
- Magpie-Tanuki-8B-annotated-96k Magpieの手法をweblab-GENIAC/Tanuki-8B-dpo-v1.0に対して適用し作成したデータセットであるAratako/Magpie-Tanuki-8B-97kに対して、cyberagent/calm3-22b-chatを用いてinstructionに対して難易度、クオリティ、カテゴリをアノテーションしたデータセットです。
- Downloads: 33
- tombailey/oasst1-ja
- oasst1-ja Description Based on OpenAssistant Conversations Dataset (OASST1)
- Downloads: 33
- p1atdev/oiocha
- お~いお茶新俳句大賞受賞作品データセット 221の俳句が含まれ、うち200前後は作者と審査員のコメントが付属。
- Downloads: 33
- CausalLM/GPT-4-Self-Instruct-Japanese
- Sorry, it's no longer available on Hugging Face.
- Downloads: 33
- lissette/Nanami-Chiaki-audio
- 弹丸论破的七海千秋语音数据
- Downloads: 33
- kenkensz9/nareba1691
- このデータセットは、OpenAI社のGPT-3.5を https://huggingface.co/datasets/kenkensz9/kenkensz9_1242tw2 のデータでファインチューニングした後に、更に独自に収集した人格のあるツイート330でファインチューニングしたモデルでツイートを生成し、 それに対してスコアを付与したモデルです。
- Downloads: 33
- Nexdata/Japanese-English_Parallel_Corpus_Data
- For more details, please refer to the link: https://www.nexdata.ai/datasets/nlu/153?
- Downloads: 33
- masajek/openassistant-guanaco-ja
- This dataset is a subset of the Open Assistant dataset, which contains Japanese conversations only.
- Downloads: 33
- Sakalti/hachiwari
- #Origin The name comes from "hachiwari/はちわれ" (chiikawa/ちいかわ).
- Downloads: 33
- Nexdata/Japanese_Pronunciation_Dictionary
- All words and pronunciations are produced by Japanese linguists.
- Downloads: 32
- DeL-TaiseiOzaki/magpie-qwen2.5-32B-10K-ja
- 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(Qwen2.5-32B-instruct)
- Downloads: 32
- kenkensz9/kenkensz9_1242tw2
- このデータセットは、著作者である自分がしたツイートから特に優れたもの(後述)を集めたものです。
- Downloads: 32
- Ego/jpflan
- Description This is a templated version of data from ~40 Japanese open source downstream task datasets.
- Downloads: 32
- Ego/jpflan-raw
- Description This is a collection of raw data from ~40 Japanese open source downstream task datasets.
- Downloads: 32
- if001/elementray_m
- calm3-22bを使って簡単な日本語の例文を作成したデータセットです。
- Downloads: 32
- alfredplpl/genai-terminology-en-ja
- 生成AIの日英専門用語集です。
- Downloads: 31
- saillab/alpaca-japanese-cleaned
- This repository contains the dataset used for the TaCo paper.
- Downloads: 31
- Kendamarron/multiturn-qwen2.5-32b
- Qwen/Qwen2.5-32B-Instruct-AWQで生成した3ターンのマルチターンinstructionデータセットです。
- Downloads: 24
- Rio-Rf/oscar_2023_filtered_and_ai_text_filtered
- 人間が作成したテキスト(OSCAR)とLLM生成テキスト(GPT-3.5 Turbo)から成るデータセット LLMで生成された日本語テキストの検出性能の検証のために作成した 詳細はコードを参照 https://github.com/Rio-Rf/Lab-CreateDataset
- Downloads: 22
- DeL-TaiseiOzaki/magpie-qwen2.5-32b-reasoning-100k
- 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(Qwen2.5-32B-instruct)
- Downloads: 20
- FrancophonIA/Jibiki_fr_ja
- Dataset origin: https://jibiki.fr/data/ Description Les buts du projet Jibiki.fr sont de construire de manière collaborative un dictionnaire français-japonais de qualité et à large couverture ainsi qu'un corpus bilingue aligné.
- Downloads: 18
- weblab-GENIAC/aya-ja-nemotron-dpo-masked
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 17
- hpprc/mmarco-ja
- mmarcoデータセットのquery--passageのペアについて、queryをkeyとして重複を削除したデータセットです。
- Downloads: 17
- weblab-GENIAC/OpenBookQA-Japanese-masked
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 16
- weblab-GENIAC/Open-Platypus-Japanese-masked
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 15
- weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 15
- weblab-GENIAC/jwinogrande
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 12
- weblab-GENIAC/jbbh
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 12
- weblab-GENIAC/jarc
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 12
- weblab-GENIAC/jhellaswag
- 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
- Downloads: 12
- p1atdev/ichikara-instruction
- ichikara-instruction (Non Commercial) LLMのための日本語インストラクションデータ 公開ページ 公開ページより、 本データに関して、言語処理学会第30回年次大会において発表を行います。
- Downloads: 117
- YANS-official/senryu-debug
- 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-debug", split="test") 概要 大喜利生成の動作確認用データセットです。
- Downloads: 47
- hotchpotch/jaqket_v1_qa_wikija_context
- ⚠
- Downloads: 13
- kunishou/oasst2-135k-ja
- Update: 2023/12/25oasst2-135k-jaをチャット形式に変換したoasst2-chat-68k-jaを公開しました。
- Downloads: 116
- litagin/ehehe-corpus
- You agree to the terms of the LICENSE when using this dataset.
- Downloads: 32
- Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k
- Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k 概要 gpt-4o-miniを用いて作成した、約19800件の日本語ロールプレイの対話を収録した合成データセットです。
- Downloads: 63
- Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k-formatted
- Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k-formatted 概要 gpt-4o-miniを用いて作成した日本語ロールプレイデータセットであるAratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8kにsystem messageを追加して整形したデータセットです。
- Downloads: 12
- sin2piusc/jgca_v2_50k_2
- common voice, google fleurs, JSUTv1.1, JAS_v2 (joujiboi/japanese-anime-speech-v2)
- Downloads: 11
- Aratako/Synthetic-JP-EN-Coding-Dataset-567k
- Synthetic-JP-EN-Coding-Dataset-567k Magpieによって作成したコードSFTデータセットであるAratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69kを元に、Evol-Instructのような手法を用いて複数のinstructionとresonseを生成し拡張して作成した、日英混合567077件のコードSFT用合成データセットです。
- Downloads: 153
- misdelivery/OpenMathInstruct-ja-phi-3-medium-test
- kunishou/OpenMathInstruct-1-1.8m-ja のquestion_jaをもとにphi-3-mediumによりプログラミング言語を用いない形式で生成したデータセットです。
- Downloads: 12