OpenAI publiceert InstructGPT - een model dat met reinforcement learning from human feedback (RLHF) is getraind om instructies beter te volgen.