BookCorpus

BookCorpus (также иногда называемый Toronto Book Corpus) представляет собой набор данных, состоящий из текстов около 11 000 неопубликованных книг, извлеченных из Интернета. Это был основной корпус, использовавшийся для обучения начальной версии GPT OpenAI[1], он также использовался в качестве обучающих данных для других ранних больших языковых моделей, включая BERT от Google[2]. Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в его состав, охватывают целый ряд жанров, включая романы, научную фантастику и фэнтези[2].

Корпус был представлен в статье 2015 года исследователей из Университета Торонто и Массачусетского технологического института под названием «Сопоставление книг и фильмов: на пути к сюжетным визуальным объяснениям путем просмотра фильмов и чтения книг». Авторы описали его как состоящий из «бесплатных книг, написанных ещё неопубликованными авторами»[3][4]. Набор данных изначально размещался на веб-странице Университета Торонто[4]. Официальная версия исходного набора данных больше не является общедоступной, хотя была создана по крайней мере одна замена, BookCorpusOpen. Хотя это и не было задокументировано в оригинальной статье 2015 года, сайт, с которого были извлечены книги корпуса, теперь известен как Smashwords[4][5].

Примечания

  1. Improving Language Understanding by Generative Pre-Training (англ.). OpenAI.com. Дата обращения: 9 июня 2020. Архивировано 26 января 2021 года.
  2. 1 2 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 октября 2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v2 [cs.CL].
  3. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. Proceedings of the IEEE International Conference on Computer Vision (ICCV). Архивировано 5 февраля 2023. Дата обращения: 9 апреля 2023.
  4. 1 2 3 Lea, Richard. Google swallows 11,000 novels to improve AI's conversation (англ.). The Guardian (28 сентября 2016). Дата обращения: 9 апреля 2023. Архивировано 25 марта 2023 года.
  5. Bandy, John; Vincent, Nicholas. Addressing "Documentation Debt" in Machine Learning: A Retrospective Datasheet for BookCorpus (англ.). Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks (2021). Дата обращения: 9 апреля 2023. Архивировано 29 марта 2023 года.

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.