릴게임추천 ↘ R᷉F̩C̈́2̈́3᷾4᷁.T͂O̐P᷉ ∋ 모바일릴게임
페이지 정보
작성자 화수여라 쪽지보내기 메일보내기 자기소개 아이디로 검색 전체게시물 작성일25-12-28 16:29조회0회 댓글0건
관련링크
-
http://54.rwp341.top
0회 연결
-
http://46.rnz845.top
0회 연결
본문
【R᷉F̩C̈́2̈́3᷾4᷁.T͂O̐P᷉】
바다신2 다운로드 ☜ R᷉F̩C̈́2̈́3᷾4᷁.T͂O̐P᷉ ↗ 바다신2 다운로드
릴게임바다이야기사이트 ┒ R᷉F̩C̈́2̈́3᷾4᷁.T͂O̐P᷉ ㎋ 백경게임
릴게임 ╆ R᷉F̩C̈́2̈́3᷾4᷁.T͂O̐P᷉ ㈐ 사아다쿨
바다이야기릴게임 ㎤ R᷉F̩C̈́2̈́3᷾4᷁.T͂O̐P᷉ ≤ 바다이야기오리지널
릴게임끝판왕 바로가기 go !!
(왼쪽부터) 박진우 KAIST 전기 및 전자공학부 박사, 조승근 석사과정, 한동수 교수.ⓒKAIST
한국과학기술원(KAIST) 연구진이 비싼 데이터센터 GPU를 덜 쓰고, 주변에 있는 저렴한 GPU를 활용해 AI 서비스를 더 싸게 제공할 수 있는 기술을 개발했다.
KAIST는 한동수 전기 및 전자공학부 교수 연구팀이 데이터센터 밖에 널리 보급된 저렴한 소비자급 GPU를 활용해 LLM 인프라 비용을 크게 낮출 수 있는 새로운 기술 ‘스펙엣지(SpecEdge)’를 개발했다고 28일 밝혔다.
SpecEdge는 데이터 쿨사이다릴게임 센터 GPU와 개인 PC나 소형 서버 등에 탑재된 엣지 GPU가 역할을 나눠 LLM 추론 인프라를 함께 구성하는 방식이다. 이 기술을 적용한 결과 기존 데이터센터 GPU만 사용하는 방식에 비해 토큰(AI가 문장을 만들어내는 최소 단위)당 비용을 약 67.6% 절감할 수 있었다.
연구팀은 이를 위해 추측적 디코딩(Speculative Dec 뽀빠이릴게임 oding)이라는 방법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하면 데이터센터의 대규모 언어모델이 이를 일괄 검증하는 방식이다. 이 과정에서 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어, LLM 추론 속도와 인프라 효율을 동시에 높였다.
데이터센터 GPU에서만 추측적 디코딩 카카오야마토 을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다. 특히 일반적인 인터넷 속도에서도 문제없이 작동해, 별도의 특수한 네트워크 환경 없이도 실제 서비스에 바로 적용할 수 있는 기술임을 확인했다.
또 서버는 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계돼, GPU 유휴 시간 없이 더 많은 요청 바다이야기릴게임2 을 동시에 처리할 수 있다. 이를 통해 데이터센터 자원을 보다 효율적으로 활용할 수 있는 LLM 서빙 인프라 구조를 구현했다.
이번 연구는 데이터센터에 집중돼 있던 LLM 연산을 엣지로 분산시켜 AI 서비스의 기반이 되는 인프라 비용은 줄이고 접근성은 높일 수 있는 새로운 가능성을 제시했다.
향후 스마트폰, 개인용 컴퓨터 릴게임 , 신경망 처리장치(NPU) 등 다양한 엣지 기기로 확장될 경우, 고품질 AI 서비스가 보다 많은 사용자에게 제공될 수 있을 것으로 기대된다.
한 교수는 “데이터센터를 넘어 사용자의 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표”라며 “이를 통해 AI 서비스 제공 비용을 낮추고, 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다”고 말했다.
연구에는 KAIST 박진우 박사와 조승근 석사과정이 참여했으며 연구 결과는 지난 2~7일 미국 샌디에이고에서 열린 AI 분야 최고 권위 국제 학회인 신경정보처리시스템 학회(NeurIPS)에서 스포트라이트(Spotlight)로 발표됐다.
한국과학기술원(KAIST) 연구진이 비싼 데이터센터 GPU를 덜 쓰고, 주변에 있는 저렴한 GPU를 활용해 AI 서비스를 더 싸게 제공할 수 있는 기술을 개발했다.
KAIST는 한동수 전기 및 전자공학부 교수 연구팀이 데이터센터 밖에 널리 보급된 저렴한 소비자급 GPU를 활용해 LLM 인프라 비용을 크게 낮출 수 있는 새로운 기술 ‘스펙엣지(SpecEdge)’를 개발했다고 28일 밝혔다.
SpecEdge는 데이터 쿨사이다릴게임 센터 GPU와 개인 PC나 소형 서버 등에 탑재된 엣지 GPU가 역할을 나눠 LLM 추론 인프라를 함께 구성하는 방식이다. 이 기술을 적용한 결과 기존 데이터센터 GPU만 사용하는 방식에 비해 토큰(AI가 문장을 만들어내는 최소 단위)당 비용을 약 67.6% 절감할 수 있었다.
연구팀은 이를 위해 추측적 디코딩(Speculative Dec 뽀빠이릴게임 oding)이라는 방법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하면 데이터센터의 대규모 언어모델이 이를 일괄 검증하는 방식이다. 이 과정에서 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어, LLM 추론 속도와 인프라 효율을 동시에 높였다.
데이터센터 GPU에서만 추측적 디코딩 카카오야마토 을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다. 특히 일반적인 인터넷 속도에서도 문제없이 작동해, 별도의 특수한 네트워크 환경 없이도 실제 서비스에 바로 적용할 수 있는 기술임을 확인했다.
또 서버는 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계돼, GPU 유휴 시간 없이 더 많은 요청 바다이야기릴게임2 을 동시에 처리할 수 있다. 이를 통해 데이터센터 자원을 보다 효율적으로 활용할 수 있는 LLM 서빙 인프라 구조를 구현했다.
이번 연구는 데이터센터에 집중돼 있던 LLM 연산을 엣지로 분산시켜 AI 서비스의 기반이 되는 인프라 비용은 줄이고 접근성은 높일 수 있는 새로운 가능성을 제시했다.
향후 스마트폰, 개인용 컴퓨터 릴게임 , 신경망 처리장치(NPU) 등 다양한 엣지 기기로 확장될 경우, 고품질 AI 서비스가 보다 많은 사용자에게 제공될 수 있을 것으로 기대된다.
한 교수는 “데이터센터를 넘어 사용자의 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표”라며 “이를 통해 AI 서비스 제공 비용을 낮추고, 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다”고 말했다.
연구에는 KAIST 박진우 박사와 조승근 석사과정이 참여했으며 연구 결과는 지난 2~7일 미국 샌디에이고에서 열린 AI 분야 최고 권위 국제 학회인 신경정보처리시스템 학회(NeurIPS)에서 스포트라이트(Spotlight)로 발표됐다.
댓글목록
등록된 댓글이 없습니다.



