항목
-
인간 피드백을 통한 강화 학습 Reinforcement learning from human feedback, 人間のフィードバックによる強..기계 학습 인간 피드백을 통한 강화 학습(Reinforcement learning from human feedback, RLHF)은 인간의 선호도를 기반으로 한 강화 학습(reinforcement learning from human preferences)을 포함하는 것으로, 기계 학습에서 인간의 피드백으로부터 직접 '보상 모델'을 학습시키고, 해당 모델을 보상 함수로 사용하여 근...도서 위키백과
-
-
모델링 (사회 인지 이론) Modeling (psychology), モデリング (心理学)피아제는 인간의 발달이, 조직화된 사고와 행동을 가능하게 하는 데에 기초가 되는 도식(schemes) 혹은 인지적 구조의 획득과 관련된다고 믿었다. 사고와 행동은 도식과 동의어가 아니며, 사고와 행동은 도식의 명시적 표시이다. 각 개인에게 사용가능한 도식은 그들이 사건에 어떻게 반응하는지를 결정한다. 도식은...도서 위키백과
-
클로드 (언어 모델) Claude (language model), Claude클로드 모델은 생성형 사전 훈련 변환기이다. 이 모델은 대량의 텍스트에서 다음 단어를 예측하도록 사전 훈련되었다. 이후 헌법적 인공지능과 인간 피드백을 통한 강화 학습(RLHF) 등을 활용하여 미세조정되었다.잡지 인용 헌법적 인공지능에 기반하여 이러한 응답을 자체 비평한 뒤 수정한다. 그런 다음 모델은 이렇게...도서 위키백과
-
프롬프트 엔지니어링 Prompt engineering, プロンプトエンジニアリング대화와 피드백을 포함 Zero-shot과 Few-shot 학습 등을 활용한 프롬프트 엔지니어링 -> 높은 효율성 "Let's think step by step"과 같은 단계적 사고 유도 기법...Chain-of-Thought 프롬프팅의 고도화 자동화된 프롬프트 최적화 기법 등장 인간 수준의 프롬프트 엔지니어링 능력 달성 주요 특징: 구조화된 프롬프트 포맷...도서 위키백과
이전페이지 없음
현재페이지1
다음페이지 없음