Google радуется не по-детски


Google научил свой поисковик индексировать отсканированные текстовые страницы. При этом, текст изображения распознается самостоятельно самой поисковой системой.

В настоящее время, школьные и правительственные документы выкладываются во Всемирную паутину в основном именно в PDF-формате. До настоящего времени Google не мог распознать текст и воспринимал содержимое как картинку.

И вот, у Интернет гиганта появилась новейшая технология оптического распознавания символов (Optical Character Recognition). Векторная информация изображения преобразовывается поисковым алгоритмом в слова, которые в свою очередь легко поддаются индексированию.

«Теперь результаты поиска будут значительно шире и точнее», радуются в Google. Что касается пользователя, то у него появится возможность находить гораздо больше нужной информации.

По материалам сайта http://eterra.info/news/260

...Сообщите об этой статье своим друзьям:
Благодарю Вас!
А еще Вы можете подписаться на рассылку и первым получать самые свежие статьи.

Автор: Сергей Ваулин

Похожие записи по этой теме:

Оставить комментарий

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>