ChatGPT : 学習データセット

学習データセット　── GPT-3 の場合

作成: 2025-05-07
更新: 2025-05-07

Think IT から引用：

WebText2 は，Common Crawlコーパス以外のWebページのデータ。
Book1 と Book2 は書籍データ (どのような情報が使われたかについては明確にされていない。

Common Crawl コーパス
- 世界最大のオープンなコーパス
- インターネットのWebサイトをクロール (巡航)し，そこに掲載されているテキストデータをスクレイピング (データ取得)して，コーパスに。
- https://commoncrawl.org/
コーパス corpus
- 文章や会話などを大量に集めて，コンピュータで処理しやすいように構造化した，言語データベース。