Прочитал недавно на хабре статью, которая буквально поразила меня.
Во-первых, стало понятно почему иногда выплывают капчи типа такой.
Во-вторых, это одна из статей заработка корпорации Google. Деньги делаются из воздуха. И это гениально! Наверное, каждый человек в Интернете когда-нибудь да поработал на Google таким образом.
Начнём с начала. По сути, reCAPTCHA выполняет ту же функцию, которую выполняют другие капчи. Суть проста, пользователь вводит предложенный текст и тем самым доказывает, что он не робот. Главным отличием от других систем является то, что reCAPTCHA не только защищает сайт от спамеров, но еще и выполняет другую, достаточно интересную функцию. Что это за функция?
Как вы, наверное, заметили, reCAPTCHA предлагает ввести два слова, что практически не встречается у других капч. Суть в том, что пользователь при вводе этих слов не только доказывает, что он не робот, но еще и помогает распознавать старые книги и газеты.
Принцип работы прост:
Допустим, есть какая-то книга, которая сохранилась в малом количестве экземпляров, при этом все они в плохом состоянии. Один экземпляр в отсканированном виде попал в руки Google (владелец reCAPTCHA). Что с ним делать? Правильно, оцифровать. Как цифровать? Цифровать, используя системы распознавания символов (OCR). Но, как многим известно, эти системы очень часто грешат многочисленными ошибками в выданном результате (многие, наверное, пользовались программой FineReader). Вручную перебирать весь текст на предмет ошибок — слишком дорогое удовольствие. И вот, на помощь приходит reCAPTCHA. Одно слово в изображении распозналось системой OCR правильно, а вот второе никак нет. Второе слово — за пользователем, именно то, что он введет будет использовано в качестве замены ошибочному варианту, предложенным OCR. Наверняка, сейчас некоторые усмехнутся. Да, я знаю про то, что фактически вместо второго слова можно ввести что угодно. Но каждое непонятное для OCR слово reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при цифре в 200 миллионов генераций в день это очень мало), и в конечном итоге правильным считается тот вариант, который пользователи вводили чаще всего.
От скучного текста перейдем к иллюстрациям:
Вот так выглядит отсканированный текст. Качество, можно сказать, не на высоте, но давайте взглянем на результат работы OCR:
Красным выделены ошибки. Не правда ли, их слишком много? А теперь посмотрим, что же будет результатом работы reCAPTCHA:
Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.
Разумеется, это что-то вроде идеальной ситуации, где все складывается так, как задумывалось создателями reCAPTCHA. Но, наверняка, многие из вас сталкивались с абсолютно нечитаемыми словами, предлагаемыми для ввода. Проблема в том, что некоторые книги/газеты сохранились настолько плохо, что порой и вручную они распознаются отвратительно. Вот пример:
Изображение отвратительного качества. Посмотрим, что тут сможет сделать OCR…
… а ничего. Ошибки не подсвечены потому, что все это — одна большая ошибка.
Зато силами reCAPTCHA результат становится вполне себе читаемым, хоть и не безошибочным. Именно таким образом пользователи помогают оцифровывать книжки средствами reCAPTCHA.
Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух отсканированных слов. Одно уже заведомо известно системе, насчет второго же есть сомнения. Именно это второе слово и есть объект для распознавания силами пользователей. Грубо говоря, интерфейс reCAPTCHA мог бы выглядеть и вот так:
Читать далее
Комментарии: Добавить комментарий
Пока нет комментариев.
Добавьте ваш комментарий:
Чтобы оставить комментарий вам нужно войти на сайт или зарегистрироваться.