항목

  • 인간 피드백을 통한 강화 학습 Reinforcement learning from human feedback, 人間のフィードバックによる強..
    기계 학습 인간 피드백을 통한 강화 학습(Reinforcement learning from human feedback, RLHF)은 인간의 선호도를 기반으로 한 강화 학습(reinforcement learning from human preferences)을 포함하는 것으로, 기계 학습에서 인간피드백으로부터 직접 '보상 모델'을 학습시키고, 해당 모델을 보상 함수로 사용하여 근...
    도서 위키백과
  • 강화 학습 Reinforcement learning, 強化学習
    discount factor)로 0과 1사이의 값이다. 강화 학습은 장기, 단기의 포상 사이 트레이드오프가 존재하는 문제를 다루는 데 적합하다. 이것은 로봇 제어, 엘리베이터 스케줄링, 통신망, 백개먼과 체스 같은 게임에 성공적으로 적용되어 왔다. 통신공학 오류기반 학습 인간 피드백을 통한 강화 학습 강화학습과 인공지능
    도서 위키백과
  • 신경계의 진화 하등동물에서 인간까지
    입력을 처리하여 연결해줍니다. 포유류에 와서야 발달한 대뇌신피질이 시상을 통한 대규모의 감각입력을 처리하여 강력한 운동출력을 생성하지요. 그러한 진화의...포유류에서는 창백핵-시상-대뇌신피질의 피드백 신경로가 강화되어 운동학습의 기억이 강화되지요. 이러한 양서류-파충류-포유류에 이르는 운동의 진화가...
  • 휴먼인더루프 Human-in-the-loop
    미친다. 또한 HITL을 사용하면 다른 시뮬레이션 수단으로는 쉽게 식별할 수 없는 문제와 요구 사항을 쉽게 식별할 수 있다. HITL은 대화형 시뮬레이션이라고도 하며, 비행이나 운전 시뮬레이터와 같이 물리적 시뮬레이션에 인간 조작자가 포함되는 특별한 종류의 물리적 시뮬레이션이다. 인간 피드백을 통한 강화 학습
    도서 위키백과
  • 모델링 (사회 인지 이론) Modeling (psychology), モデリング (心理学)
    피아제는 인간의 발달이, 조직화된 사고와 행동을 가능하게 하는 데에 기초가 되는 도식(schemes) 혹은 인지적 구조의 획득과 관련된다고 믿었다. 사고와 행동은 도식과 동의어가 아니며, 사고와 행동은 도식의 명시적 표시이다. 각 개인에게 사용가능한 도식은 그들이 사건에 어떻게 반응하는지를 결정한다. 도식은...
    도서 위키백과
  • 클로드 (언어 모델) Claude (language model), Claude
    클로드 모델은 생성형 사전 훈련 변환기이다. 이 모델은 대량의 텍스트에서 다음 단어를 예측하도록 사전 훈련되었다. 이후 헌법적 인공지능과 인간 피드백을 통한 강화 학습(RLHF) 등을 활용하여 미세조정되었다.잡지 인용 헌법적 인공지능에 기반하여 이러한 응답을 자체 비평한 뒤 수정한다. 그런 다음 모델은 이렇게...
    도서 위키백과
  • 목표설정이론 Goal setting, 目标设定理论
    함으로써 학습은 목표 도달의 과정들 중 일부로 여겨진다. 비즈니스에서 목표 설정은 사회적자원교환 참여자들에게 잠재적인 노력을 하도록 장려한다. 또한 각자가 그들의 역할에 정해진 기대를 가지고 있기 때문에, 약간의 가능성은 부적절한채 남겨지고 미미한 노력은 무시된다. 관리자들은 끊임없이 동기를 유발할 수...
    도서 위키백과
  • 행동 중독 Behavioral addiction, 行動嗜癖
    인간의 약물 중독 취약성과 관련되어 있다는 것이 연구를 통해 밝혀졌다. 고지방식단을 섭취하는 비만쥐에게서는 수용체가 하향조절되어 있고, 수용체가 이보다 더 감소할 경우 강박적 섭식을 강화하였다. D2 수용체는 도파민에 반응하며, 음식, 성, 정신병 약물과 같은 보상을 제공하고 만족감을 충족시켜주는 경험...
    도서 위키백과
  • 프롬프트 엔지니어링 Prompt engineering, プロンプトエンジニアリング
    대화와 피드백을 포함 Zero-shot과 Few-shot 학습 등을 활용한 프롬프트 엔지니어링 -> 높은 효율성 "Let's think step by step"과 같은 단계적 사고 유도 기법...Chain-of-Thought 프롬프팅의 고도화 자동화된 프롬프트 최적화 기법 등장 인간 수준의 프롬프트 엔지니어링 능력 달성 주요 특징: 구조화된 프롬프트 포맷...
    도서 위키백과
이전페이지 없음 현재페이지1 다음페이지 없음