Рейтинг@Mail.ru

    Как работает CAPTCHA

    17.06.2011 11:51 0 комментариев
    Originally posted by '[info]'npokpyct at Как работает reCAPTCHA

    Прочитал недавно на хабре статью, которая буквально поразила меня.
    Во-первых, стало понятно почему иногда выплывают капчи типа такой.
    recaptcha
    Во-вторых, это одна из статей заработка корпорации Google. Деньги делаются из воздуха. И это гениально! Наверное, каждый человек в Интернете когда-нибудь да поработал на Google таким образом.
    Начнём с начала. По сути, reCAPTCHA выполняет ту же функцию, которую выполняют другие капчи. Суть проста, пользователь вводит предложенный текст и тем самым доказывает, что он не робот. Главным отличием от других систем является то, что reCAPTCHA не только защищает сайт от спамеров, но еще и выполняет другую, достаточно интересную функцию. Что это за функция?



    Как вы, наверное, заметили, reCAPTCHA предлагает ввести два слова, что практически не встречается у других капч. Суть в том, что пользователь при вводе этих слов не только доказывает, что он не робот, но еще и помогает распознавать старые книги и газеты.
    Принцип работы прост:
    Допустим, есть какая-то книга, которая сохранилась в малом количестве экземпляров, при этом все они в плохом состоянии. Один экземпляр в отсканированном виде попал в руки Google (владелец reCAPTCHA). Что с ним делать? Правильно, оцифровать. Как цифровать? Цифровать, используя системы распознавания символов (OCR). Но, как многим известно, эти системы очень часто грешат многочисленными ошибками в выданном результате (многие, наверное, пользовались программой FineReader). Вручную перебирать весь текст на предмет ошибок — слишком дорогое удовольствие. И вот, на помощь приходит reCAPTCHA. Одно слово в изображении распозналось системой OCR правильно, а вот второе никак нет. Второе слово — за пользователем, именно то, что он введет будет использовано в качестве замены ошибочному варианту, предложенным OCR. Наверняка, сейчас некоторые усмехнутся. Да, я знаю про то, что фактически вместо второго слова можно ввести что угодно. Но каждое непонятное для OCR слово reCAPTCHA показывает пользователям сотни, а то и тысячи раз (при цифре в 200 миллионов генераций в день это очень мало), и в конечном итоге правильным считается тот вариант, который пользователи вводили чаще всего.
    От скучного текста перейдем к иллюстрациям:
    recaptcha
    Вот так выглядит отсканированный текст. Качество, можно сказать, не на высоте, но давайте взглянем на результат работы OCR:
    recaptcha
    Красным выделены ошибки. Не правда ли, их слишком много? А теперь посмотрим, что же будет результатом работы reCAPTCHA:
    recaptcha
    Не надо быть семи пядей во лбу, что бы увидеть разницу между OCR и дуэтом OCR + reCAPTCHA. Оцифровка получилась 100% безошибочной.
    Разумеется, это что-то вроде идеальной ситуации, где все складывается так, как задумывалось создателями reCAPTCHA. Но, наверняка, многие из вас сталкивались с абсолютно нечитаемыми словами, предлагаемыми для ввода. Проблема в том, что некоторые книги/газеты сохранились настолько плохо, что порой и вручную они распознаются отвратительно. Вот пример:
    recaptcha
    Изображение отвратительного качества. Посмотрим, что тут сможет сделать OCR…
    recaptcha
    … а ничего. Ошибки не подсвечены потому, что все это — одна большая ошибка.
    recaptcha
    Зато силами reCAPTCHA результат становится вполне себе читаемым, хоть и не безошибочным. Именно таким образом пользователи помогают оцифровывать книжки средствами reCAPTCHA.
    Вкратце: изображение, генерируемое reCAPTCHA, состоит из двух отсканированных слов. Одно уже заведомо известно системе, насчет второго же есть сомнения. Именно это второе слово и есть объект для распознавания силами пользователей. Грубо говоря, интерфейс reCAPTCHA мог бы выглядеть и вот так:
    recaptcha




    Читать далее


    Комментарии: Добавить комментарий

    Пока нет комментариев.

    Добавьте ваш комментарий:

    Чтобы оставить комментарий вам нужно войти на сайт или зарегистрироваться.