Sistemas inteligentes y sus sociedades Walter Fritz

Elegir una acción

 

Encontrar reglas de actuación en la memoria
El GL (General Learner) elige una respuesta apropiada a la situación actual, seleccionando una regla de actuación de su memoria. Al comienzo no existe ninguna regla de actuación en la memoria. Un programa anterior utilizaba respuestas al azar y la curiosodad (una instintiva y preprogramada regla de actuación) cuando no podía encontrar ninguna regla de actuación aplicable. Pero el GL, en este caso, no hace nada y avisa que no puede encontrar ninguna respuesta.

Veamos el caso cuando sí existen reglas de actuación en la memoria. No todas son aplicables a la situación actual. Entonces el GL primero confecciona una corta lista de todas aquellas reglas de actuación que contienen en su parte situación algún concepto que también existe en la situación actual. Las reglas de actuación de esta corta lista no son todas igualmente buenas para la situación actual.

 

Evaluando las reglas de actuación
Asumamos que la situación actual es una oración tipeada por la persona: "Dibuja una línea larga". Si existen reglas de actuación en las que su parte situación es igual a la situación actual, reciben entonces una evaluación más elevado; la suma de todos las evaluaciónes positivos de la parte situación de la regla de actuación. Por ejemplo, podríamos tener una regla de actuación como la siguiente: "dibuja una línea larga" - > (GL dibuja una línea larga), con evaluaciónes de 20, 20, 20, 20 (una evaluación por cada concepto). Esta regla de actuación cubre todos los conceptos de la situación y, por ende, es muy buena. Su evaluación total es igual a la suma de todos las evaluaciónes, o sea, 80.

Sin embargo, encontrar una regla de actuación tan perfecta, no se da normalmente. La situación actual puede tener muchas partes que no se han encontrado anteriormente y que pueden no tener importancia alguna. De manera que una regla de actuación con una parte situación como ésa, que todos sus conceptos existan en la situación actual, es eminentemente aplicable y recibe una evaluación elevado; el mismo como en el caso anterior pero sin algún valor que se debe a conceptos de la situación actual que no están cubiertos por la regla de actuación.

Consideremos el caso, por ejemplo, en que el GL también encontró la siguiente regla de actuación: "dibuja una línea" - > (GL dibuja una línea vertical), con evaluaciónes de 20, 20, 20. Si el GL no encuentra una mejor regla de actuación, entonces esta regla de actuación se toma como aplicable -- cubre la situación. Naturalmente no es tan buena como la regla de actuación que comenzaba con "dibuja una línea larga". El GL entiende esto y crea una evaluación total ajustado para esta regla de actuación casi perfecta. Se obtiene esta evaluación sumando las evaluaciónes de la regla de actuación, 60, y reduciendo este número por medio de un factor programado, por ejemplo 10, porque no contiene el "larga" en el lado de la situación de la regla de actuación. Esto da como resultado una evaluación total ajustado de 50.

 

Reglas de actuación que contienen evaluaciónes de conceptos negativos
En todos los casos, si existe un concepto en la regla de actuación que tiene una evaluación negativa, y este concepto también existe en la situación actual, entonces la evaluación total para esa regla de actuación se calcula como la suma de las evaluaciónes positivos menos el monto de la evaluación negativa. De esta manera, el GL sustrae el valor de la evaluación de ese concepto, de la evaluación total. Una evaluación de concepto negativo tal generalmente significa que el GL no usaría la regla de actuación si este concepto existe en la situación actual. Pero es aún posible que se elija esta regla de actuación para su uso, especialmente si el resto de la regla resulta ser significativamente mejor que lo que cualquier otra regla de actuación lo podría ser.

Esto es importante si el GL encuentra una tercera regla de actuación de :"dibuja una línea larga inclinada" - > (GL dibuja una línea corta horizontal), con evaluaciónes de 20, 20, 20, -30,-20 para cada concepto. (tal regla de actuación puede surgir de la aplicación de "dibuja una línea " a "dibuja una línea larga inclinada"). Las evaluaciónes negativos indican que el GL no debería usarlos en una situación en la que ocurren "larga" y/o "inclinada". Por eso la evaluación total para esta regla de actuación es la suma de las evaluaciónes positivas que existen en la situación, es decir, 60, menos la evaluación negativo del concepto "larga", dando un resultado de 30. NO incluimos el -20 en este cálculo (y tampoco lo haríamos si fuese positivo) porque nuestra situación actual -- una oración tipeada por la persona: "dibuja una línea larga" -- no incluye el concepto "inclinada"

Nota: En los ejemplos anteriores mostramos situaciones que consisten de palabras. Elegimos estos ejemplos porque se pueden representar fácilmente por medio de la escritura. Para las reglas de actuación utilizadas en jugar juegos, tanto la parte situación como la de la respuesta de la regla de actuación consisten de conceptos que se refieren a dibujos.

 

Elegir de una lista de reglas de actuación aplicables
Ahora el GL tiene una corta liste de reglas de actuación aplicables. que puede utilizar para actuar. Estas reglas, ordenadas por sus evaluaciónes totales son:

Regla de actuación (comenzando con) evaluación total
"dibuja una línea larga" 80
"dibuja una línea" 50
"dibuja una larga línea inclinada" 30

De esta lísta con evaluaciónes, el GL no siempre elige la regla de actuación del más alto evaluación total. Los investigadores han demostrado que si lo hiciera así, se limitaría el aprendizaje del GL. Esto se debe a que una vez que el programa elige una regla de actuación como ésa, la refuerza y nunca más busca otra regla de actuación, perdiendo potencialmente de esa forma una regla nueva que podría ser aún mejor. ¿Pero cómo puede ser eso?

Dar las evaluaciónes de los conceptos de una regla de aplicación es el resultado de la experiencia; así que en una situación parcialmente nueva, la evaluación total no refleja siempre el valor real de la regla de actuación. Por ello el GL elige de la lista por el azar evaluado. Esto quiere decir que elige "al azar" cualquier regla de la lista, pero más frecuentemente una regla con evaluación total más elevada.

 

Ajustar la parte respuesta
Una vez que el GL ha elegido una regla de actuación, puede ser que ajuste la parte respuesta utilizando reglas tipo patrón. El GL crea estos reglas tipo patrón durante los períodos de inactividad externa, durante el período del "sueño". Si existen algunos conceptos en la situación actual que el GL no puede encontrar en los conceptos del lado situación de la regla de actuación seleccionada, entonces busca las reglas tipo patrón aplicables a estos conceptos faltantes y ajusta la respuesta acordemente.

Por ejemplo, supongamos que tenemos una regla de actuación que dice: "dibuja una línea" -> (GL dibuja una línea). Pero la situación actual es: "dibuja una línea larga". La regla de actuación es aplicable. Los tres conceptos del lado situación de la regla de actuación existen en la situación actual ("dibuja", ""una", "línea"). Sin embargo, el concepto "larga" no existe en la regla de actuación. El GL busca una regla patrón para hacer la línea "larga". Si lo encuentra, el GL lo aplica, modificando el lado respuesta de la regla de actuación y, creando así una nueva regla de actuación. Esta nueva regla de actuación será agregada a las reglas que están en la memoria, pero NO reemplazará a la regla antigua -- el GL mantiene la regla de actuación anterior.

 

Para leer de corrido, como un libro - continua aquí
Saltar al contenido del libro electrónico / a Sistemas inteligentes artificiales / a Programas de inteligencia artificial . . . / a Programa General Learner / al inicio de esta página.


Ultimo cambio: 7 Mar. 06 / Walter Fritz
Copyright © New Horizons Press