Bendersky, D. A., and J. M. Santos. “LEARNING FROM THE ENVIRONMENT WITH A UNIVERSAL REINFORCEMENT FUNCTION”. International Journal of Computing, vol. 5, no. 3, Aug. 2014, pp. 68-74, doi:10.47839/ijc.5.3.410.