Проект Google Book Search был запущен несколько лет назад. Его идея состоит в том, что помимо онлайновой информации есть безумное количество оффлайновой информации, которая много лет содержится в книгах. Они печатаются со времен Гутенберга, а Интернету 20 лет от роду. Идея простая: есть книги, которые можно купить (около 10%), остальные уже куплены и стоят на полках или находятся в библиотеках. Их можно осканировать, проиндексировать, сделав доступными для поиска и, соответственно, для чтения. Как это работает? Все началось с библиотеки Мичиганского универститета, в котором учился Ларри Пейдж. Именно там ему пришла в голову идея. Он помнит, как мучительно искал формулу, надо было перерыть всю книжку, и было бы просто замечательно, если имелся бы поиск по книгам.
Книги были взяты из библиотеки Калифорнии, Оксфордской библиотеки, библиотеки штата Вирджиния, библиотека Конгресса США. В прошлом году в России было издано больше 100 000 наименований книг, средний тираж – 5 000 экземпляров. 5% книг в библиотеках – современные, поступающие от издателей. 20% - общенародное достояние, книги, на которые истекают авторские права. 75% - зона неопределенности.
В Google можно напечатать любое слово или фразу, поисковик возьмет данные с миллиарда проиндексированных страниц и покажет результат с ссылкой на сайт и описанием. Book Search работет точно также. Набираете слово или фразу и Google покажет название книжки, фразу и ссылку перехода на страницу с описанием этой книги. Имеется полный текст книги, ссылка на магазин, в котором она продается или на библиотеку, в которой она находится. Когда неизвестно как обстоят дела с авторскими права, то выдается только фраза или слово, оборванные края страницы сверху и снизу. Можно также найти книгу в результатах обычного поиска Google с пометкой, что она находистя в Google Book Search.
В гипотетической библиотеке 30 миллионов книг и мы хотим ее отсканировать за 10 лет. Простым делением определяем, что надо сканировать 3 миллиона книг в год и 12 000 книг в день. Среднее количество страниц в каждой книге – 330. Таким образом, нам надо сканировать почти 4 миллиона страниц в день. Пусть средний размер страницы 5 мегабайт (с изображениями). Значит, нужно иметь сервера на 20 терабайт в день или на 5 пентабайт в год. По завершении работы у нас будет информации на 50 пентабайт. Если взять при этом, что средняя книга стоит 50 долларов, то стоимость отсканированной информации в выражении книжного рынка составляет полтора миллиарда долларов.
Для Google это безприбыльный проект, на нем нет рекламы. Google приносит пользователям информацию, которая была недоступна для поиска.







