Нашла парочку статей об оперантном научении. Возможно и форумчанам это будет интересно.
При оперантном научении подкреплению придается особое значение, так как оно определяет скорость и эффективность научения. При этом учитывают знак, величину, режим и время подкрепления. С подкреплением связано несколько "золотых" правил:
1. Закрепляется то, что подкрепляется.
2. Отмена положительного подкрепления несет информацию отрицательного подкрепления.
3. Вариабельный режим подкрепления способствует более быстрому закреплению действия и более медленному его угашению.
Многократное повторения действия, связанное с изменением режима подкрепления и сменой мотивации, обеспечивает автоматизацию поведенческого акта до навыка.
10 правил выработки навыка
Десять правил выработки навыка. (по Карен Прайор "Не рычите на собаку").
Карен Прайор - дрессировщица дельфинов, зоопсихолог, тренер, писательница - в своей книге "Не рычите на собаку. О дрессировке людей и животных" ярко и подробно рассказывает об обучении навыкам с точки зрения бихевиористического (поведенческого) подхода. "Эта книга о том, как обучать кого угодно: человека или животное, старого или молодого, самого себя или других - и чему угодно".
1. Повышайте критерий небольшими градациями, чтобы у субъекта всегда была реальная возможность выполнить требуемое и получить подкрепление.
Практически это означает, что, когда вы увеличиваете требования или повышаете критерий подкрепления, вы должны это делать в пределах, доступных в данный момент субъекту.
2. В конкретный промежуток времени отрабатывайте что-нибудь одно , не пытайтесь формировать поведение по двум критериям одновременно.
Если задачу можно расчленить на отдельные компоненты, которые затем формируются раздельно, обучение пойдет гораздо быстрее. Часто нам не удается добиться прогресса в каком-либо навыке, хотя мы много упражняемся, потому, что мы пытаемся сразу улучшить две или более стороны деятельности. Нужно подумать: одно ли свойство характеризует данное поведение? Нельзя ли его расчленить и работать отдельно над различными критериями? Когда вы займетесь этими вопросами, большинство проблем решаться сами собой.
3. Прежде чем увеличивать или повышать критерий, пользуйтесь подкреплением текущего уровня ответа , т.е. подкрепляйте любое исполнение данного действия, имеющегося в данный момент.
Как только поведение усвоено, вы должны начать подкреплять его не каждый раз, чтобы поддерживать его на данном уровне. Это правило составляет суть процесса выработки. Когда вы можете позволить себе подкреплять данный уровень поведения случайным образом и сохранять уверенность в получении его, вы получаете свободу в использовании подкреплений только за лучшие проявления данного поведения. Такое селективное подкрепление "сдвинет" нормальное или среднее поведение в сторону того улучшения, которое вам желательно. Хорошая выработка представляет из себя серию чуть заметных переходов между непрерывным подкреплением - когда достигнут новый уровень выполнения - и вариативным подкреплением - когда достижение закрепилось и создалась возможность избирательного подкрепления еще более хороших ответов.
4. Вводя новый критерий, временно ослабьте старые.
То, что раз выучено, не забывается, но под подавляющим воздействием нового критерия старое, хорошо выученное поведение иногда временно уходит в сторону. Следует помнить, что ругать себя или других за ошибки в выученном поведении, совершаемые при новых обстоятельствах, непедагогично. Ошибки обычно исправляются в скором времени сами по себе, а выговоры огорчают, а иногда фиксируют внимание на ошибках, которые становятся постоянными.
5. Будьте впереди того, кого вы обучаете: полностью планируйте свою программу выработки так, чтобы в случае внезапного успеха обучаемого, вы знали, что следует подкреплять далее.
Планируйте программу выработки так, что, если субъект совершит в обучении неожиданный скачок вперед, вы должны знать, что подкреплять далее. "Рывок" часто эмоционально очень значим для субъекта; даже животные, по-видимому, испытывают удовольствие от "ага!" познания, и часто впадает в состояние явно повышенного настроения. Таким образом, "рывок" - это блистательная возможность добиться значительного прогресса в кратчайшие сроки. Быть не готовым к нему и держать субъект на низком уровне обучения только потому, что вы не знаете, что делать дальше, -лучший способ потратить зря время, а в худшем случае может отбить охоту к обучению и вызывает отвращение у субъекта, который станет в будущем работать без особого желания.
6. Не меняйте тренеров на "середине реки"; у вас может быть несколько инструкторов на одного обучающегося, но придерживайтесь одной программы выработки на каждый из типов поведения.
Конечно, у каждого обучающегося может быть много различных учителей - мы не испытываем затруднений от того, что один обучает нас французскому, другой - арифметике, третий - футболу. Но то конкретное поведение, которое должно быть разучено, требует только одного учителя в каждый конкретный момент времени. На тех стадиях выработки, когда навык образован наполовину, постоянное повышение критерия осуществляется лучше, если процесс формирования данного поведения находится в одних руках. Единственный случай, когда вам следует подумать о смене преподавателя посредине процесса выработки, это, конечно, когда обучение зашло в тупик. Если обучение идет плохо или совсем не идет, то вам нечего терять от перемены.
7. Если одна процедура выработки не приносит успеха, найдите другую.
Существует столько же способов добиться нужного поведения, сколько инструкторов, способных их придумать.
8. Не кончайте тренировку, не дав положительного подкрепления - это соответствует наказанию.
Если вы хотите упрекнуть ученика, перестать обращать на него внимание - лучший способ сделать это.
9. Если навык ухудшается, "возвратитесь к детскому саду", быстро повторите весь процесс выработки с серией легких подкреплений.
Самый быстрый способ исправить такое ухудшение - не биться об него головой, заставляя субъект делать это до тех пор, пока результат не покажется вам удовлетворительным или пока вы не дадите подкрепление, а вернуться к началу процесса выработки и "очень быстро снова пройти весь путь, давая подкрепление в новых условиях (спустя двадцать лет, на публике и т.д.) и применяя по одному-два подкрепления на каждом уровне.
10. Оканчивайте, по возможности, каждую тренировку на высокой ноте и в любом случае останавливайтесь, оставаясь впереди обучаемого.
Когда остановиться, не столь важно, как на чем остановиться. Вы должны всегда прекращать работу, сохраняя ведущее положение. Это относится и ко всему уроку, и к отдельным частям его, когда вы кончаете работать над одним типом поведения и переходите к другому. Вы должны совершать переход на высокой ноте - т.е. сразу как только достигнут успех. Будучи тренером, вы должны, если это необходимо, заставлять себя останавливаться на хорошем ответе. Иногда это требует выдержки. Но на следующем уровне вы можете обнаружить, что принос предмета, сальто при прыжке в воду или вокальное упражнение выполнены не только так же хорошо, как последнее на прошлом уроке, но значительно лучше. Психологи называют это "латентным обучением". В процессе тренировки возникает некоторый стресс, хотя бы от желания сделать лучше. Этот стресс может влиять на выполнение действия, маскируя реально имеющееся обучение.
Почему положительное подкрепление работает всегда, а наказание нет?
Теория оперантного научения Б.Ф. Скиннера
В основании теории оперантного обусловливания Скиннера лежит тот простой факт, что не всегда действия живого существа являются реакцией на ту или иную комбинацию внешних воздействий - стимулов. Довольно часто (по мнению Скиннера, в большинстве случаев) поведение выглядит так, как будто бы ему не предшествуют никакие видимые стимулы.
В знаменитых опытах Скиннера лабораторная крыса помещалась в пустой ящик с педалью внутри (так называемый " ящик Скиннера") и получала полную свободу действий. В процессе хаотичного исследования ящика крыса неизбежно задевала педаль и получала порцию пищи. После нескольких случайных нажатий на педаль у крысы формировалась новая форма поведения, которая не была связана ни с какими предшествующими стимулами. Теперь, проголодавшись, крыса целенаправлено следовала к педали и, нажав на нее - получала желаемое.
Таким образом, ключевое отличие оперантного обусловливания от классического состоит в том, что в случае оперантного обусловливания живой организм своим поведением активно воздействует на окружающую среду и сталкивается с теми или иными последствиями. В случае формирования условного рефлекса такого воздействия не наблюдается. Животные в опытах Павлова были специально, в целях соблюдения чистоты эксперимента, лишены какой-либо возможности влиять на окружение. В этом смысле оперантное поведение активно и направлено на исследование окружающего мира, респондентное поведение реактивно и лишь следует тем или иным воздействиям, в процессе
классического обусловливания, приобретшим для организма определенное сигнальное воздействие.
Но сама по себе исследовательская активность ничего не дает - она лишь увеличивает шансы встретить те или иные последствия. То, каким образом видоизменяется поведение, зависит в первую очередь от характера последствий - от того, будут эти последствия приятными или неприятными. Приятные последствия Скиннера называл " подкреплением".
Экспериментируя с разными типами подкрепления, Скиннер вывел одну бесспорную и всегда воспроизводимую закономерность: образцы поведения (операнты), вслед за которыми следуют приятные последствия, в будущем встречаются чаще. Крыса чаще нажимает на педаль, если непосредственно вслед за этим действием она получает кусочек пищи.
Голубь, помещенный в клетку, на полу которой имеется красное пятно, лишь случайным образом может клюнуть в него. Но если сразу вслед за этим он получит пищу - зернышко, то этот оперант (действие в расчете на успех) будет чаще встречаться в будущем. Человек, которого вкусно накормят в одном из ресторанов города, будет чаще ходить в этот ресторан, даже если он довольно далеко расположен от дома. Эту закономерность Скиннер назвал " законом выгоды (приобретения)", иногда его еще называют первым законом оперантного научения.
Закон приобретения означал для Скиннера и его последователей следующее: если перед терапевтом или учителем встает задача сформировать новые привычки, новые образцы поведения, то единственный способ, который дает предсказуемые и надежные результаты, состоит в том, что мы специально создаем позитивные последствия для так называемого "целевого" поведения, т.е. поведения, с которым мы бы хотели чаще встречаться впредь.
Подкрепляя это поведение, мы обязательно добьемся своего: это поведение будет встречаться чаще.
Логичным кажется и другой способ модификации поведения. Многие предполагают, что поведение, которое наказывается, штрафуется, т.е. ведет к последствиям, для индивида неприятным, должно исчезнуть. Этому выводу, однако, Скиннер не нашел подтверждения. С его точки зрения,
наказание - довольно спорный способ отучить от нежелательного поведения, поскольку поведение, за которым следуют неприятные последствия, никуда не исчезает, оно лишь видоизменяется самым неожиданным образом. Человек в случае штрафа вынужден искать иные формы поведения, чтобы избежать штрафа. Часто оказывается так, что эти новые формы бывают еще менее желательными, чем те, которые вызвали наказание.
Конечно, человек (или любое другое живое существо) склонен избегать неприятных событий. Это - факт. Однако предсказать, к чему приведут его поиски альтернативных форм поведения - практически невозможно, если только не оказывать ему помощь - не продемонстрировать в явной форме образцы поведения, которые позволят наказания избежать.
И здесь Скиннер еще раз напоминал о том, что предотвращение негативных последствий само вызывает позитивные последствия, т.е. само является подкреплением. И эту форму подкрепления, конечно, можно использовать.