Брюстер Кейл заснував Internet Archive у травні 1996 року, приблизно в той самий час, коли він заснував комерційну компанію Alexa Internet, що займається веб-скануванням [5][6]. Найдавніша відома заархівована сторінка на сайті була збережена 10 травня 1996 року о 14:42 за UTC (7:42 ранку PDT). До жовтня того ж року Інтернет-архів почав архівувати та зберігати великі обсяги Всесвітньої павутини.[7][8] Архівний контент став більш доступним для широкої публіки у 2001 році за допомогою Wayback Machine.
Наприкінці 1999 року Архів розширив свої колекції за межі веб-архіву, почавши з Prelinger Archives. Зараз Інтернет-архів містить тексти, аудіо, рухомі зображення та програмне забезпечення. У ньому розміщено низку інших проектів: NASA Images Archive, контрактна пошукова служба Archive-It, а також вікі-редагований бібліотечний каталог і книжковий інформаційний сайт Open Library. Незабаром після цього Архів почав працювати над наданням спеціалізованих послуг, пов'язаних з потребами доступу до інформації для людей з вадами зору; загальнодоступні книги стали доступні у захищеному форматі цифрової доступної інформаційної системи (DAISY) [9].
У серпні 2012 року Архів оголосив [10], що додав BitTorrent до своїх можливостей завантаження файлів для понад 1,3 мільйона існуючих і всіх нових завантажених файлів[11][12]. Цей метод є найшвидшим засобом завантаження медіа з Архіву, оскільки файли обслуговуються з двох дата-центрів Архіву, на додаток до інших торрент-клієнтів, які завантажили і продовжують обслуговувати файли. 6 листопада 2013 року штаб-квартира Інтернет-архіву в районі Річмонд у Сан-Франциско загорілася,[13] знищивши обладнання та пошкодивши кілька сусідніх квартир.[14] За даними архіву, він втратив бічну будівлю, в якій знаходився один з 30 його скануючих центрів; камери, освітлення та скануюче обладнання вартістю сотні тисяч доларів; і «можливо, 20 ящиків книг і фільмів, деякі незамінні, більшість вже оцифровані, а деякі можна було б замінити».[15] Неприбутковий архів звернувся за допомогою до благодійних пожертвувань, аби компенсувати збитки, які, за попередніми підрахунками, становлять 600 000 доларів [16].
Капітальний ремонт сайту розпочався у вигляді бета-версії у листопаді 2014 року, а старий макет було видалено у березні 2016 року [17][18].
У листопаді 2016 року Кайл оголосив, що Internet Archive будує Інтернет-архів Канади, копію архіву, який базуватиметься десь у Канаді. Ця заява набула широкого розголосу через припущення, що рішення про створення резервного архіву в іншій країні пов'язане з майбутнім президентством Дональда Трампа , - цитують слова Кале[19][20]:
9 листопада в Америці ми прокинулися з новою адміністрацією, яка обіцяла радикальні зміни. Це стало чітким нагадуванням, що такі інституції, як наша, побудовані на довгострокову перспективу, повинні проектуватися з урахуванням змін. Для нас це означає збереження наших культурних матеріалів у безпеці, конфіденційності та постійному доступі. Це означає підготовку до Інтернету, який може зіткнутися з більшими обмеженнями. Це означає служити меценатам у світі, в якому урядовий нагляд нікуди не дінеться; більше того, схоже, що він посилюватиметься. Протягом всієї історії бібліотеки боролися проти жахливих порушень приватності, коли людей хапали просто за те, що вони читали. В Інтернет-архіві ми боремося за захист приватності наших читачів у цифровому світі.[19]
Починаючи з 2017 року, OCLC та Інтернет-архів співпрацюють, щоб зробити записи оцифрованих книг архіву доступними у WorldCat[21].
З 2018 року резиденція візуального мистецтва в Internet Archive, організована Аміром Сабером Есфахані та Ендрю МакКлінтоком, допомагає художникам працювати з більш ніж 48 петабайтами[22] оцифрованих матеріалів архіву. Протягом річної резиденції візуальні митці створюють низку робіт, кульмінацією яких стає виставка. Мета резиденції - поєднати цифрову історію з мистецтвом і створити щось, що майбутні покоління зможуть оцінити онлайн чи офлайн [23]. Серед попередніх резидентів - Тарават Талепасанд, Вітні Лінн і Дженні Оделл .
Internet Archive отримує більшість матеріалів з пожертв,[24] таких як сотні тисяч дисків на 78 об/хв з Бостонської публічної бібліотеки у 2017 році,[25] 250 000 книг з Університету Трента у 2018 році[26], а також всю колекцію бібліотеки Меріґровського коледжу у 2020 році після її закриття[27]. Потім усі матеріали оцифровуються і зберігаються в цифровому сховищі, тоді, як цифрова копія повертається власнику оригіналу, а копія Інтернет-архіву, якщо вона не є суспільним надбанням, надається по одному користувачеві по всьому світу відповідно до теорії контрольованого цифрового абонемента (CDL), що базується на доктрині першого продажу [28].
27 травня 2024 року, Інтернет-архів зазнав низки розподілених DDoS-атак, які робили його сервіси недоступними з перервами, іноді на кілька годин поспіль, протягом кількох днів [29][30][31].
9 жовтня 2024 року сайт знову зазнав серйозних DDoS-атак, які спричинили значні перебої в роботі та зробили його сервіси тимчасово недоступними. Команда Інтернет-архіву, включно з архівістом Джейсоном Скоттом, підтвердила факт DDoS-атаки. У випливному вікні на сайті стверджувалося, що сталося «катастрофічне» порушення безпеки [32]. Повідомлялося, що постраждало близько 31 мільйона облікових записів користувачів [33][34].
28 вересня 2024 року стався витік бази данних з данними понад 31 мільйона користувачів. Стався витік бази данних під назвою «ia_users.sql» об'ємом 6,4 ГБ, яка включала в себе хешовані типом bcryptпаролі та електронні скриньки користувачів. Дослідник кібербезпеки Скотт Хельме підтвердив що хешований пароль у записі данних збігається з його хешованим паролем в його менеджері паролів. Він також підтвердив, що дата зміни пароля в записі збігається з датою коли він останнє змінював пароль у своєму менеджері паролів. При спробі відкрити сайт відображалось JavaScript попередження:
"Have you ever felt like the Internet Archive runs on sticks and is constantly on the verge of suffering a catastrophic security breach? It just happened. See 31 million of you on HIBP!".
Засновник Інтернет Архіву Брюсер Кейл 10 жовтня 2024 року опублікував оновлення на X підтверджуючи витік данних, також він зазначив що сайт пошкоджили через JavaScript бібліотеку. На данний момет сайт працює, але в Wayback Machine недоступне збереження сторінки за допомогою URL[35]
Wayback Machine — вебархів, що складається з копій сторінок вебсайтів, які беруться з Alexa Internet. Цей архів дозволяє користувачам бачити версії вебсторінок у тому вигляді, у якому вони були у різні проміжки часу.
Архів Wayback Machine стає доступним поступово. Проміжок часу з моменту копіювання та архівації вебсторінки до моменту, коли вона стає доступною у Wayback Machine, може становити до шести-дванадцяти місяців. Як альтернатива, користувачі, які хочуть заархівувати матеріал і негайно його процитувати, можуть скористатися Archive-it[36]. Станом на 2006 рік Wayback Machine містила майже два петабайта даних, збільшуючись на 20 терабайтів щомісяця.
Станом на 3 січня 2024 року Wayback Machine містила більше ніж 99 петабайтів даних[37].
Метою «Архіву Інтернету» стала боротьба з вимиранням посилань — більшість вебсторінок, що створювалися, не були довговічними.
Мультимедійні ресурси
На додаток до мережевих архівів, сервіс підтримує широку колекцію цифрових мультимедійних ресурсів, які або є суспільним надбанням, або розповсюджуються за Creative Commons License чи еквівалентною ліцензією, яка дозволяє вільне використання та розповсюдження.
openlibrary.org (Open Library, вільна бібліотека) — сайт, що нараховує більше мільйона оцифрованих книжок, які перебувають у суспільному надбанніСША.
BookServer
Некомерційний проєкт Internet Archive восени 2009 року оголосив про запуск BookServer — універсальної і відкритої системи дистрибуції електронних книг.[38][39] BookServer повинен стати архітектурою, яка об'єднає різні формати й пристрої для читання електронних текстів. Система забезпечить каталогізацію всіх книг, наявних в магазинах, бібліотеках або у відкритому доступі. Пошукові системи зможуть проіндексувати цей каталог, і читачам стане набагато простіше шукати необхідну інформацію.
BookServer забезпечить сумісність придбаної книги, конвертуючи її в потрібний формат. Електронний текст можна буде прочитати на будь-якому кінцевому пристрої, чи то нетбуці, смартфоні або спеціалізованій читалці на зразок Kindle.
Проєкт не обмежується книгами, які можна буде вивантажити безкоштовно. Залежно від умов ліцензії, знайдену книгу можна буде купити або взяти в оренду. В майбутньому в BookServer збираються інтегрувати платіжну систему.
Ключовий компонент проєкту — стандарт електронного каталога книг OPDS[en] (Open Publication Distribution System), який побудований на базі розширюваної мови розмітки Atom. Основним форматом для книг є відкритий і вільний EPUB, представлений в 2007 році.
На момент оголошення в 20 центрах сканування Internet Archive, розташованих в 5 країнах світу, йшла робота з оцифрування книг, призначених для відкритого доступу, і цей каталог налічував більше 1,6 мільйонів найменувань. Але приблизно половина з них — книги, відскановані Google в рамках проєкту Book Search і завантажені згодом користувачами на сайт Internet Archive.