ReCAPTCHA

Материал из Machinepedia
Перейти к: навигация, поиск
02422326-photo-recaptcha1.jpg

reCAPTCHA — система, созданная в университете Карнеги — Меллон для обеспечения защиты от интернет-ботов, и в то же время для осуществления оцифровки текстов книг. Является прототипом проекта CAPTCHA. В сентябре 2009 года проект купила корпорация Google

На начало 2011 года, reCAPTCHA производила оцифровку архивов газеты «The New York Times» и книг, распространяемых в Google Book Search. Весной 2012 года Google провел эксперимент по распознаванию снимков из Google Maps с помощью сервиса ReCAPTCHA.

Содержание

Принцип работы

В разрез традиционным системам распознавания пользователя как человека, введением заданного набора символов и цифр, система reCAPTCHA предлагает пользователю ввести два слова. Одно, из которых уже известно системе, другое слово системе неизвестно и не может быть распознано программным обеспечением специализирующийся на распознавании текста. Проверка ввода происходит по тому слову, которое известно системе. Неизвестное системе слово, введённое пользователем, сохраняется на сервере для последующего использования в распознавании текста. Конечное распознание слова определяется путём вычисления наиболее часто используемого слова для ввода. Система reCAPTCHA предоставляет изображения для распознавания и собирает результаты, после чего передает их организаторам оцифровки материалов.

Влияние

Система широко применяется такими сайтами как Facebook, TicketMaster, Twitter, bash.im, StumbleUpon, «Живой журнал» и примерно 350 000 других сайтов. В среднем каждый оцифровки подвергается около 100 миллионов слов каждый день, что может давать примерно 2,5 миллиона книг в год. Количество отдельных людей, которые помогли оцифровать как минимум одно слово из книги оценивается в 750 миллионов человек. Эффективность такого подхода имеет хорошую эффективность, поскольку системе предлагается несколько распознанных вариантов.

Частичный обход

Как правило, на выбор дается два слова, одно из которых является словарным английским, а другое — нет. Для прохождения теста достаточно ввести только не словарное слово. Начиная с мая 2011 года, нужное слово выводится при помощи двойного наложения контура букв друг на друга. С недавних пор нужное слово выводится при помощи наложения на слово волнообразной линии.

Критика

reCAPTCHA используется для распознавания отсканированных текстов. Вводящие ответ пользователи вынуждены вводить примерно вдвое больше текста, чем в других системах CAPTCH’и, но не получают за это никакого вознаграждения, а весь доход от использованного распознанного текста остаётся корпорации Google, что расценивается некоторыми как принудительная эксплуатация труда.

Тем не менее, держатели сайтов вправе оставить за собой выбор способа защиты от ботов. Помимо этого reCAPTCHA подвергается критике пользователей из-за того, что картинки с трудом распознаются даже человеком.

Личные инструменты
Пространства имён

Варианты
Действия
Присоединиться сейчас к бесплатной торговой площадке №1 для промышленников в России machinebook
Навигация
Навигация
Рекламодателям
Инструменты
Яндекс.Метрика