Share to: share facebook share twitter share wa share telegram print page

Internet Archive

Internet Archive
Посиланняarchive.org
Гасло (девіз)universal access to all knowledge[1]
Типнеприбуткова організація[2]
архів
вебсайт
онлайн-бібліотека і вебархівd
Реєстраціянеобов'язкова
Мовианглійська
ВласникБрюстер Кейл
ЗасновникБрюстер Кейл
АвторБрюстер Кейгл
Започаткованотравень 1996[3]
Рейтинг Alexa199[4]
Адреса офісуFourth Church of Christ, Scientistd
CMNS: Internet Archive у Вікісховищі

«Internet Archive» — вебсервіс архівування та неприбуткова організація, розташована в Сан-Франциско, Каліфорнія. Її мета — збереження культурного надбання. Вебсервіс підтримує електронну бібліотеку, архів мережевих і мультимедійних ресурсів, програмного забезпечення, фільмів, книг і звукозаписів. Архів «Wayback Machine» містить копії сторінок вебсайтів у різні проміжки часу (за правило, що два місця). Щоб гарантувати стабільність архіву, вебдзеркало сервісу також зберігається в Новій Олександрійській бібліотеці в Єгипті. Інтернет-архів доступний безоплатно. З 2007 р. входить до складу Американської бібліотечної асоціації і офіційно визнається штатом Каліфорнія як бібліотека.

штаб-квартира Internet Archive

Історія

Брюстер Кейл заснував Internet Archive у травні 1996 року, приблизно в той самий час, коли він заснував комерційну компанію Alexa Internet, що займається веб-скануванням [5][6]. Найдавніша відома заархівована сторінка на сайті була збережена 10 травня 1996 року о 14:42 за UTC (7:42 ранку PDT). До жовтня того ж року Інтернет-архів почав архівувати та зберігати великі обсяги Всесвітньої павутини.[7][8] Архівний контент став більш доступним для широкої публіки у 2001 році за допомогою Wayback Machine.

Наприкінці 1999 року Архів розширив свої колекції за межі веб-архіву, почавши з Prelinger Archives. Зараз Інтернет-архів містить тексти, аудіо, рухомі зображення та програмне забезпечення. У ньому розміщено низку інших проектів: NASA Images Archive, контрактна пошукова служба Archive-It, а також вікі-редагований бібліотечний каталог і книжковий інформаційний сайт Open Library. Незабаром після цього Архів почав працювати над наданням спеціалізованих послуг, пов'язаних з потребами доступу до інформації для людей з вадами зору; загальнодоступні книги стали доступні у захищеному форматі цифрової доступної інформаційної системи (DAISY) [9].

У серпні 2012 року Архів оголосив [10], що додав BitTorrent до своїх можливостей завантаження файлів для понад 1,3 мільйона існуючих і всіх нових завантажених файлів[11][12]. Цей метод є найшвидшим засобом завантаження медіа з Архіву, оскільки файли обслуговуються з двох дата-центрів Архіву, на додаток до інших торрент-клієнтів, які завантажили і продовжують обслуговувати файли. 6 листопада 2013 року штаб-квартира Інтернет-архіву в районі Річмонд у Сан-Франциско загорілася,[13] знищивши обладнання та пошкодивши кілька сусідніх квартир.[14] За даними архіву, він втратив бічну будівлю, в якій знаходився один з 30 його скануючих центрів; камери, освітлення та скануюче обладнання вартістю сотні тисяч доларів; і «можливо, 20 ящиків книг і фільмів, деякі незамінні, більшість вже оцифровані, а деякі можна було б замінити».[15] Неприбутковий архів звернувся за допомогою до благодійних пожертвувань, аби компенсувати збитки, які, за попередніми підрахунками, становлять 600 000 доларів [16].

Капітальний ремонт сайту розпочався у вигляді бета-версії у листопаді 2014 року, а старий макет було видалено у березні 2016 року [17][18].

У листопаді 2016 року Кайл оголосив, що Internet Archive будує Інтернет-архів Канади, копію архіву, який базуватиметься десь у Канаді. Ця заява набула широкого розголосу через припущення, що рішення про створення резервного архіву в іншій країні пов'язане з майбутнім президентством Дональда Трампа , - цитують слова Кале[19][20]:

9 листопада в Америці ми прокинулися з новою адміністрацією, яка обіцяла радикальні зміни. Це стало чітким нагадуванням, що такі інституції, як наша, побудовані на довгострокову перспективу, повинні проектуватися з урахуванням змін. Для нас це означає збереження наших культурних матеріалів у безпеці, конфіденційності та постійному доступі. Це означає підготовку до Інтернету, який може зіткнутися з більшими обмеженнями. Це означає служити меценатам у світі, в якому урядовий нагляд нікуди не дінеться; більше того, схоже, що він посилюватиметься. Протягом всієї історії бібліотеки боролися проти жахливих порушень приватності, коли людей хапали просто за те, що вони читали. В Інтернет-архіві ми боремося за захист приватності наших читачів у цифровому світі.[19]

Починаючи з 2017 року, OCLC та Інтернет-архів співпрацюють, щоб зробити записи оцифрованих книг архіву доступними у WorldCat [21].

З 2018 року резиденція візуального мистецтва в Internet Archive, організована Аміром Сабером Есфахані та Ендрю МакКлінтоком, допомагає художникам працювати з більш ніж 48 петабайтами[22] оцифрованих матеріалів архіву. Протягом річної резиденції візуальні митці створюють низку робіт, кульмінацією яких стає виставка. Мета резиденції - поєднати цифрову історію з мистецтвом і створити щось, що майбутні покоління зможуть оцінити онлайн чи офлайн [23]. Серед попередніх резидентів - Тарават Талепасанд, Вітні Лінн і Дженні Оделл .

Internet Archive отримує більшість матеріалів з пожертв,[24] таких як сотні тисяч дисків на 78 об/хв з Бостонської публічної бібліотеки у 2017 році,[25] 250 000 книг з Університету Трента у 2018 році[26], а також всю колекцію бібліотеки Меріґровського коледжу у 2020 році після її закриття[27]. Потім усі матеріали оцифровуються і зберігаються в цифровому сховищі, тоді, як цифрова копія повертається власнику оригіналу, а копія Інтернет-архіву, якщо вона не є суспільним надбанням, надається по одному користувачеві по всьому світу відповідно до теорії контрольованого цифрового абонемента (CDL), що базується на доктрині першого продажу [28].

27 травня 2024 року, Інтернет-архів зазнав низки розподілених DDoS-атак, які робили його сервіси недоступними з перервами, іноді на кілька годин поспіль, протягом кількох днів [29][30][31].

9 жовтня 2024 року сайт знову зазнав серйозних DDoS-атак, які спричинили значні перебої в роботі та зробили його сервіси тимчасово недоступними. Команда Інтернет-архіву, включно з архівістом Джейсоном Скоттом, підтвердила факт DDoS-атаки. У випливному вікні на сайті стверджувалося, що сталося «катастрофічне» порушення безпеки [32]. Повідомлялося, що постраждало близько 31 мільйона облікових записів користувачів [33][34].

28 вересня 2024 року стався витік бази данних з данними понад 31 мільйона користувачів. Стався витік бази данних під назвою «ia_users.sql» об'ємом 6,4 ГБ, яка включала в себе хешовані типом bcrypt паролі та електронні скриньки користувачів. Дослідник кібербезпеки Скотт Хельме підтвердив що хешований пароль у записі данних збігається з його хешованим паролем в його менеджері паролів. Він також підтвердив, що дата зміни пароля в записі збігається з датою коли він останнє змінював пароль у своєму менеджері паролів. При спробі відкрити сайт відображалось JavaScript попередження:

"Have you ever felt like the Internet Archive runs on sticks and is constantly on the verge of suffering a catastrophic security breach? It just happened. See 31 million of you on HIBP!".

Засновник Інтернет Архіву Брюсер Кейл 10 жовтня 2024 року опублікував оновлення на X підтверджуючи витік данних, також він зазначив що сайт пошкоджили через JavaScript бібліотеку. На данний момет сайт працює, але в Wayback Machine недоступне збереження сторінки за допомогою URL [35]

Wayback Machine

URL: http://archive.org/

Приклади з архіву Wayback Machine:

Wayback Machine — вебархів, що складається з копій сторінок вебсайтів, які беруться з Alexa Internet. Цей архів дозволяє користувачам бачити версії вебсторінок у тому вигляді, у якому вони були у різні проміжки часу.

Архів Wayback Machine стає доступним поступово. Проміжок часу з моменту копіювання та архівації вебсторінки до моменту, коли вона стає доступною у Wayback Machine, може становити до шести-дванадцяти місяців. Як альтернатива, користувачі, які хочуть заархівувати матеріал і негайно його процитувати, можуть скористатися Archive-it[36]. Станом на 2006 рік Wayback Machine містила майже два петабайта даних, збільшуючись на 20 терабайтів щомісяця.

Станом на 3 січня 2024 року Wayback Machine містила більше ніж 99 петабайтів даних[37].

Метою «Архіву Інтернету» стала боротьба з вимиранням посилань — більшість вебсторінок, що створювалися, не були довговічними.

Мультимедійні ресурси

На додаток до мережевих архівів, сервіс підтримує широку колекцію цифрових мультимедійних ресурсів, які або є суспільним надбанням, або розповсюджуються за Creative Commons License чи еквівалентною ліцензією, яка дозволяє вільне використання та розповсюдження.

Сервери вебдзеркала вебархіву в Олександрії

openlibrary.org (Open Library, вільна бібліотека) — сайт, що нараховує більше мільйона оцифрованих книжок, які перебувають у суспільному надбанні США.

BookServer

Некомерційний проєкт Internet Archive восени 2009 року оголосив про запуск BookServer — універсальної і відкритої системи дистрибуції електронних книг.[38][39] BookServer повинен стати архітектурою, яка об'єднає різні формати й пристрої для читання електронних текстів. Система забезпечить каталогізацію всіх книг, наявних в магазинах, бібліотеках або у відкритому доступі. Пошукові системи зможуть проіндексувати цей каталог, і читачам стане набагато простіше шукати необхідну інформацію.

BookServer забезпечить сумісність придбаної книги, конвертуючи її в потрібний формат. Електронний текст можна буде прочитати на будь-якому кінцевому пристрої, чи то нетбуці, смартфоні або спеціалізованій читалці на зразок Kindle.

Проєкт не обмежується книгами, які можна буде вивантажити безкоштовно. Залежно від умов ліцензії, знайдену книгу можна буде купити або взяти в оренду. В майбутньому в BookServer збираються інтегрувати платіжну систему.

Ключовий компонент проєкту — стандарт електронного каталога книг OPDS[en] (Open Publication Distribution System), який побудований на базі розширюваної мови розмітки Atom. Основним форматом для книг є відкритий і вільний EPUB, представлений в 2007 році.

На момент оголошення в 20 центрах сканування Internet Archive, розташованих в 5 країнах світу, йшла робота з оцифрування книг, призначених для відкритого доступу, і цей каталог налічував більше 1,6 мільйонів найменувань. Але приблизно половина з них — книги, відскановані Google в рамках проєкту Book Search і завантажені згодом користувачами на сайт Internet Archive.

Попередня версія системи BookServer вже працює на сайті самої Internet Archive і в проєкті з дистрибуції електронних книг Feedbooks[en]. Видавництво O'Reilly Media, яке надавало допомогу в реалізації проєкту, планує включити в систему всі свої книги. З BookServer співпрацюють також компанія Adobe, університет Торонто і проєкт «One Laptop Per Child».

Див. також

Примітки

  1. https://www.youtube.com/watch?v=8YYJPtCXf4I
  2. https://projects.propublica.org/nonprofits/organizations/943242767
  3. Internet Archive: Bios
  4. https://www.alexa.com/siteinfo/archive.org
  5. Brügger, Niels (2011-04). Consalvo, Mia; Ess, Charles (ред.). Web Archiving – between Past, Present, and Future. The Handbook of Internet Studies (англ.) (вид. 1). Wiley. с. 24—42. doi:10.1002/9781444314861.ch2. ISBN 978-1-4051-8588-2.
  6. Archiving the Internet.
  7. Get Microsoft Internet Explore.
  8. In the Collections.
  9. DAISY.
  10. Over 1,000,000 Torrents of Downloadable Books, Music, and Movies | Internet Archive Blogs (амер.). 7 серпня 2012. Процитовано 10 жовтня 2024.
  11. Internet Archive Starts Seeding 1,398,875 Torrents * TorrentFreak (англ.). Процитовано 10 жовтня 2024.
  12. Hot List for bt1.us.archive.org (Updated August 3 2012, 1:36 am UTC).
  13. Part of Internet Archive building badly burned in early morning fire | Richmond District Blog (амер.). 6 листопада 2013. Процитовано 10 жовтня 2024.
  14. Kurtis, Alexander (Nov 6, 2013). Internet Archive's S.F. office damaged in fire (англ.).
  15. Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. | Internet Archive Blogs (амер.). 6 листопада 2013. Процитовано 10 жовтня 2024.
  16. Shu, Catherine (7 листопада 2013). Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch (амер.). Процитовано 10 жовтня 2024.
  17. Redesigning Archive.org | Internet Archive Blogs (амер.). 5 листопада 2014. Процитовано 10 жовтня 2024.
  18. Internet Archive: Digital Library of Free Books, Movies, Music & Wayb…. archive.ph. 25 березня 2016. Процитовано 10 жовтня 2024.
  19. а б Help Us Keep the Archive Free, Accessible, and Reader Private | Internet Archive Blogs (амер.). 29 листопада 2016. Процитовано 10 жовтня 2024.
  20. Rothschild, Mike (2 грудня 2016). A Respected Business Just Moved to Canada out of Fear for the First Amendment Under Trump. ATTN: (англ.). Процитовано 10 жовтня 2024.
  21. Syncing Catalogs with thousands of Libraries in 120 Countries through OCLC | Internet Archive Blogs (амер.). 12 жовтня 2017. Процитовано 10 жовтня 2024.
  22. Used Paired Space The statistics were last updated Tuesday, 2 April 2019 at 11:47 America/Los_Angeles.
  23. The Internet Archive is helping these artists get inspired by digital history.
  24. How do I make a physical donation to the Internet Archive? – Internet Archive Help Center (амер.). Процитовано 10 жовтня 2024.
  25. Boston Public Library Transfers Sound Archives Collection to Internet Archive for Digitization, Preservation, and Public Access. www.bpl.org (амер.). 11 жовтня 2017. Процитовано 10 жовтня 2024.
  26. Trent University Donates 250,000 Books to be Digitized by Internet Archive as part of Bata Library Transformation. Trent University News (англ.). 13 вересня 2018. Процитовано 10 жовтня 2024.
  27. Seltzer, Rick. A New Home Online for Closed College Libraries?. Inside Higher Ed (англ.). Процитовано 10 жовтня 2024.
  28. Enis, Matt. Internet Archive Expands Partnerships for Open Libraries Project. Library Journal. Процитовано 10 жовтня 2024.
  29. Internet Archive Hit With DDoS Attacks. PCMAG (англ.). Процитовано 10 жовтня 2024.
  30. Baran, Guru (28 травня 2024). Internet Archive is Under DDoS Attack For Several Hours. Cyber Security News (амер.). Процитовано 10 жовтня 2024.
  31. The Internet Archive has been fending off DDoS attacks for days. Engadget (амер.). 29 травня 2024. Процитовано 10 жовтня 2024.
  32. Davis, Wes (9 жовтня 2024). The Internet Archive is under attack, with a breach revealing info for 31 million accounts. The Verge (англ.). Процитовано 10 жовтня 2024.
  33. Hacker Defaces Internet Archive, Steals Data on 31 Million Users. PCMAG (англ.). Процитовано 10 жовтня 2024.
  34. Internet Archive взломали. Похищены данные 31 млн пользователей. dev.by (ru-BY) . Процитовано 10 жовтня 2024.
  35. Internet Archive hacked, data breach impacts 31 million users. BleepingComputer (амер.). Процитовано 20 жовтня 2024.
  36. archive-it.org. Архів оригіналу за 14 квітня 2013. Процитовано 9 липня 2007.
  37. Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine. archive.org. Процитовано 27 березня 2024.
  38. Internet Archive uncloaks open ebook dream machine. theregister.co.uk. The Inquirer[en]. 20.10.2009. Архів оригіналу за 23 жовтня 2009. Процитовано 20 жовтня 2009.
  39. Internet Archive's BookServer could 'dominate' Amazon. CNET News. 19.10.2009. Архів оригіналу за 3 листопада 2009. Процитовано 20 жовтня 2009.

Посилання

Kembali kehalaman sebelumnya