최근 텍스트-이미지 생성의 발전은 확산 모델에 의해 주도되었지만, 단일 단계 모델은 계산 효율성과 이미지 디테일 개선에 어려움을 겪고 있습니다. 이 문제를 해결하기 위해 저자들은 먼저 저해상도 이미지를 생성한 다음 릴레이 기반의 초고해상도를 적용하여 텍스트-이미지 확산을 향상시키는 계단식 프레임워크인 CogView3를 제안합니다. 이 접근 방식은 훈련 및 추론 비용을 크게 줄이면서 경쟁력 있는 텍스트-이미지 변환 결과를 제공합니다. 실험 결과에 따르면 CogView3는 인간 평가에서 현재의 최신 오픈 소스 텍스트-이미지 확산 모델인 SDXL보다 77.0% 더 뛰어난 성능을 보였으며, 그 증류 버전은 1/10의 추론 시간만 사용하면서 비슷한 성능을 달성했습니다.

점점 더 많은 볼륨을 그리는 AI, 코그뷰-3 플러스 효과 종합 업그레이드
원본 가방 알고리즘 노트 가방 알고리즘 노트
2024년 9월 27일 10:01 베이징
스마트 스펙트럼의 제 친구는 최근의 빈센느 모델이 몇 번이고 반복되어 코그뷰 모델에서 코그뷰-3 플러스로 업그레이드되었으며, 이번에는 정말 최고 수준이라고 말했습니다.

제 생각에 코그뷰는 LLM이 탄생하기 전의 대형 모델 시대의 산물로, SD로 대표되는 코그뷰 모델이 죽여 왔지만 중국은 시작과 후속 조치가 늦고 중국 모델이 중국어를 이해하지 못하는 경우가 많으며 많은 조화로운 지형을 만듭니다.

예를 들어, '다람쥐 만다린 물고기

'부처님, 벽을 뛰어넘다'와 같은 사진

'당나귀 고기 핫케이크' 등의 사진


비어덕과 같은 사진


이번엔 정말 다르네요, 제가 먼저 생성한 여성을 보여드릴게요.


실제로 디테일, 브러시 스트로크, 이미지 인식에서 점점 더 좋아지고 있다는 느낌이 있습니다. 사례는 종종 많은 말도 안되는 말을하지만 효과의 구체적인 적용은 수많은 테스트 결과의 다양한 시나리오의 모든 차원에서 신중하게 고려해야 할 방법입니다.

먼저 자랑하지 말고 장면, 콘텐츠, 렌즈, 스타일, 브러시 스트로크 등 다양한 각도에서 조상 테스트 세트가 있으니 몇 가지를 고문해 보자고 말했습니다.

유화 프롬프트: 유화 스타일의 화려한 파란색 드레스를 입은 금발의 귀족 여성을 묘사한 고전적인 유화입니다.
사진

사진 프롬프트: 안셀 아담스의 흑백 스타일로 고요한 산악 호수가 주변 소나무 숲에 반사되어 있습니다. 아침 안개, 멀리 보이는 구불구불한 언덕, 하늘의 희미한 아침 햇살.


수채화 프롬프트: 부드럽고 푹신한 털로 조용히 웅크리고 자고 있는 갈색 새끼 고양이가 매우 귀여운 수채화입니다.



스케치 프롬프트: 울창한 숲과 산을 배경으로 잔디 평원에 서 있는 인상적인 호랑이의 세밀한 연필 스케치로, 동물의 모든 근육선이 생생하게 새겨져 있습니다.


크레용 프롬프트 : 초록 초원에 둘러싸인 빨간 집, 하늘 높이 떠 있는 태양, 문 앞에 서서 아이처럼 손을 잡고 웃고 있는 네 명의 인물이 그려진 한 가족의 크레파스 그림입니다.




어린이 그림책 프롬프트: 별이 가득한 하늘에 둘러싸인 달 위에 책을 펴고 앉아 있는 어린 소년의 모습을 담은 어린이 그림책 일러스트로, 밤하늘은 따뜻함과 평온함을 드러냅니다. 그림
우표 디자인 프롬프트: 독수리가 사냥하는 모습을 묘사한 우표 디자인으로, 광활한 하늘을 배경으로 독수리의 날개가 웅장하게 펼쳐져 있습니다.