챗GPT가 IT 뉴스를 도배하다시피 하고 있다.
뉴스뿐 아니라 실제로 관련 기업들은 아마도 매우 숨가쁘게 대응하고 있을 것이다. 20여년전 인터넷 붐이 일어났을때, 초창기 선두권을 달리던 인터넷 기업들은 거의 다 사라졌다. Yahoo, Netscape 한국의 여러 수 많은 기업들. 그리고 이후 나타난 구글, 아마존, 페이스북이 인터넷 세상을 지배하고 있는 것이다.
인공지능 또한 유사할 것이다. 인공지능은 크게 두번의 겨울을 보내왔다고 한다.
첫 번째 "AI의 겨울"은 1970년대 말과 1980년대 초 인공 지능 연구를 둘러싼 자금과 과대 광고가 크게 감소한 기간을 말하며 종종 "AI 겨울"이라고 한다. 이는 AI 연구 및 개발에 대한 과도한 약속 및 미달 제공, 경제적 및 기술적 요인 등 여러 요인이 복합적으로 작용했기 때문이다. 두 번째 "AI의 겨울"은 2015년경부터 AI와 머신 러닝 기술에 대한 과대 광고, 그리고 이를 제대로 현실화가 안되자 뒤이은 투자 감소를 경험한 최근의 기간을 의미한다고 볼 수 있다.
이번 챗GPT로 불어닥친 이 돌풍이 두번째 겨울 이후에 찾아온, 진정한 봄이 될까. 아니면 잠시 스쳐 지나가는 훈풍에 지나지 않을까. 이에 대한 판단하기에 앞서, 제대로 GPT 에 대한 이해가 있어야 할 듯 하다. 아래는 위키피디아의 GPT-3에 대한 설명이다. 물론 3.5도 포함되어 있다.

ChatGPT-3.5가 대답한 ChatGPT 3.5의 간단한 소개
ChatGPT-3.5 is a language model developed by OpenAI that utilizes the latest advancements in AI technology to generate human-like text. It has been fine-tuned on a massive dataset, making it capable of understanding and generating text across a wide range of topics and styles. It can perform various tasks such as answering questions, summarizing articles, generating creative writing, and more. With its cutting-edge technology and powerful performance, ChatGPT-3.5 is changing the way we interact with AI.
ChatGPT-3.5는 AI 기술의 최신 발전을 활용하여 인간과 유사한 텍스트를 생성하는 OpenAI에서 개발한 언어 모델입니다. 방대한 데이터 세트에서 미세 조정되어 다양한 주제와 스타일에 걸쳐 텍스트를 이해하고 생성할 수 있습니다. 질문에 답하고, 기사를 요약하고, 창의적인 글을 쓰는 등 다양한 작업을 수행할 수 있습니다. 최첨단 기술과 강력한 성능을 갖춘 ChatGPT-3.5는 우리가 AI와 상호 작용하는 방식을 변화시키고 있습니다.
|
GPT Generative Pre-trained Transformer 3
GPT-3(Generative Pre-trained Transformer 3)은 2020년에 출시된 자동 회귀 언어 모델로 딥 러닝을 사용하여 사람과 유사한 텍스트를 생성합니다. 초기 텍스트를 프롬프트로 지정하면 프롬프트를 계속하는 텍스트를 생성합니다.
이 아키텍처는 2048개의 토큰 길이 컨텍스트와 1,750억 개의 매개변수라는 전례 없는 크기를 가진 디코더 전용 변환기 네트워크로, 저장하는 데 800GB가 필요합니다. 모델은 생성 사전 훈련을 사용하여 훈련되었습니다. 이전 토큰을 기반으로 다음 토큰이 무엇인지 예측하도록 훈련됩니다. 이 모델은 많은 작업에서 강력한 제로샷 및 퓨샷 학습을 보여주었습니다.[2] 저자는 자연어 처리(NLP)의 언어 이해 성능이 "레이블이 지정되지 않은 다양한 텍스트 코퍼스에 대한 언어 모델의 생성적 사전 훈련 후 각 특정 항목에 대한 차별적 미세 조정" 프로세스를 통해 GPT-n에서 어떻게 개선되었는지 설명했습니다. 일." 이것은 사람의 감독과 시간이 많이 걸리는 수동 라벨링의 필요성을 제거했습니다.[2]
샌프란시스코에 기반을 둔 인공지능 연구소인 OpenAI에서 만든 GPT-2의 후속 모델인 GPT 시리즈의 3세대 언어 예측 모델입니다.[3] 2020년 5월에 도입되어 2020년 7월 현재 베타 테스트 중인 GPT-3[4]는 사전 훈련된 언어 표현의 자연어 처리(NLP) 시스템 트렌드의 일부입니다.[1]
GPT-3에 의해 생성된 텍스트의 품질은 매우 높아서 사람이 작성했는지 여부를 판단하기 어려울 수 있으며 이점과 위험이 모두 있습니다.[5] 31명의 OpenAI 연구원과 엔지니어가 2020년 5월 28일 GPT-3를 소개하는 원본 논문을 발표했습니다. 그들의 논문에서 그들은 GPT-3의 잠재적 위험에 대해 경고하고 위험을 완화하기 위한 연구를 촉구했습니다.[1]: 34 호주 철학자인 David Chalmers는 GPT-3를 "지금까지 생산된 가장 흥미롭고 중요한 AI 시스템 중 하나"라고 설명했습니다. "[6] The New York Times의 2022년 4월 리뷰에서는 GPT-3의 기능이 인간과 동등한 유창함으로 독창적인 산문을 작성할 수 있다고 설명했습니다.[7]
Microsoft는 2020년 9월 22일에 GPT-3의 "독점적" 사용을 허가했다고 발표했습니다. 다른 사람들은 여전히 공개 API를 사용하여 출력을 수신할 수 있지만 Microsoft만이 GPT-3의 기본 모델에 액세스할 수 있습니다.[8
배경 Background
추가 정보: GPT-2 § 배경
The Economist에 따르면 개선된 알고리즘, 강력한 컴퓨터 및 디지털화된 데이터의 증가는 기계 학습의 혁명을 불러일으켰으며 2010년대에는 새로운 기술이 언어 조작을 포함하여 "작업의 급속한 개선"을 가져왔습니다.[9] 소프트웨어 모델은 "뇌의 신경 구조에 느슨하게 기반한 구조"에서 수천 또는 수백만 개의 예제를 사용하여 학습하도록 훈련됩니다.[9] 자연어 처리(NLP)에 사용되는 아키텍처 중 하나는 2017년에 처음 소개된 트랜스포머[10]라는 딥 러닝 모델을 기반으로 하는 신경망입니다. GPT-n 모델은 Transformer 기반 딥러닝 신경망 아키텍처입니다. 텍스트 입력을 처리, 마이닝, 구성, 연결 및 대조하고 질문에 올바르게 대답할 수 있는 NLP 시스템이 많이 있습니다.[11]
2018년 6월 11일, OpenAI 연구원과 엔지니어는 생성적 사전이라고 하는 프로세스에서 데이터 세트를 통해 방대하고 다양한 텍스트 코퍼스로 사전 훈련될 수 있는 생성적 모델(언어 모델, 인공 지능 시스템)에 대한 원본 논문을 게시했습니다. 훈련(GP).[2] 저자는 자연어 처리(NLP)의 언어 이해 성능이 "레이블이 지정되지 않은 다양한 텍스트 코퍼스에 대한 언어 모델의 생성적 사전 훈련 후 각 특정 항목에 대한 차별적 미세 조정" 프로세스를 통해 GPT-n에서 어떻게 개선되었는지 설명했습니다. 일." 이것은 사람의 감독과 시간이 많이 걸리는 수동 라벨링의 필요성을 제거했습니다.[2]
교육 및 기능 Training and capabilities
2020년 2월 Microsoft는 T-NLG(Turing Natural Language Generation)를 도입했는데, 이는 "170억 개의 매개변수로 게시된 가장 큰 언어 모델"이라고 주장했습니다. 텍스트 요약 및 질문에 대한 답변을 포함하는 작업.
2020년 5월 28일, OpenAI의 31명의 엔지니어 및 연구원 그룹이 arXiv 프리프린트에서 3세대 "최첨단 언어 모델"인 GPT-3의 개발에 대해 설명했습니다.[1][5] 팀은 GPT-3의 용량을 이전 모델인 GPT-2보다 2배 이상 증가시켜[14] GPT-3를 현재까지 가장 큰 희소하지 않은 언어 모델로 만들었습니다. (희소 모델에서는 많은 매개변수가 상수 값으로 설정되어 있기 때문에 전체 매개변수가 더 많아도 의미 있는 정보가 적습니다.)[1]: 14 [3] GPT-3는 구조적으로 전임자[1] 더 큰 정확도는 증가된 용량과 더 많은 매개변수 수에 기인합니다.[15] GPT-3의 용량은 당시 알려진 차세대 NLP 모델인 Microsoft의 Turing NLG보다 10배 더 큽니다.[5]

GPT-3에 대한 가중 사전 교육 데이터 세트의 60%는 4,100억 바이트 쌍으로 인코딩된 토큰으로 구성된 필터링된 버전의 Common Crawl에서 가져옵니다.[1]: 9 기타 소스는 WebText2의 190억 토큰으로, 가중 총계, 8%를 나타내는 Books1의 120억 토큰, 8%를 나타내는 Books2의 550억 토큰, 3%를 나타내는 Wikipedia의 30억 토큰. CSS, JSX, Python 등으로 코딩할 수 있습니다.[4]
GPT-3 training data
Dataset
|
# tokens
|
Proportion
within training
|
410 billion
|
60%
|
|
WebText2
|
19 billion
|
22%
|
Books1
|
12 billion
|
8%
|
Books2
|
55 billion
|
8%
|
Wikipedia
|
3 billion
|
3%
|
GPT-3의 훈련 데이터는 모든 것을 포괄하므로 별도의 언어 작업에 대한 추가 훈련이 필요하지 않습니다.[4] 훈련 데이터에는 때때로 유독한 언어가 포함되어 있으며 GPT-3는 훈련 데이터를 모방한 결과 때때로 유독한 언어를 생성합니다. 워싱턴 대학의 연구에 따르면 GPT-3는 GPT-2 및 CTRL의 유사한 자연어 처리 모델과 비슷한 독성 수준의 독성 언어를 생성하는 것으로 나타났습니다. OpenAI는 GPT-3에서 생성되는 독성 언어의 양을 제한하기 위해 여러 가지 전략을 구현했습니다. 결과적으로 GPT-3는 이전 모델인 GPT-1에 비해 덜 독성이 있는 언어를 생성했지만, 전적으로 Wikipedia 데이터에 대해 훈련된 언어 모델인 CTRL Wiki에 비해 더 많은 세대와 더 높은 독성 언어를 생성했습니다.[16 ]
2020년 6월 11일, OpenAI는 OpenAI가 이 새로운 기술의 "강점과 한계를 탐색"하는 데 도움이 되는 사용자 친화적인 GPT-3 API("기계 학습 도구 세트")에 대한 액세스를 요청할 수 있다고 발표했습니다.[17][18 ] 초대장은 이 API가 일반적인 단일 사용 사례 대신 거의 "모든 영어 작업"을 완료할 수 있는 범용 "텍스트 입력, 텍스트 출력" 인터페이스를 가지고 있는 방법을 설명했습니다.[17] OpenAI GPT-3 API의 비공개 초기 릴리스에 액세스할 수 있었던 한 사용자에 따르면 GPT-3는 몇 가지 간단한 프롬프트만으로 "놀라울 정도로 일관성 있는 텍스트"를 작성하는 데 "엄청나게 뛰어났습니다".[19] 초기 실험에서 80명의 미국 피험자들에게 ~200단어의 짧은 기사가 인간에 의해 쓰여졌는지 또는 GPT-3에 의해 쓰여졌는지 판단하도록 요청받았습니다. 참가자들은 시간의 52%를 정확하게 판단했으며 무작위 추측보다 약간 더 나을 뿐입니다.[1]
2021년 11월 18일, OpenAI는 API에 대한 액세스가 제한되지 않도록 충분한 안전 장치가 구현되었다고 발표했습니다.[20] OpenAI는 개발자가 OpenAI의 콘텐츠 정책을 준수하는 데 도움이 되는 콘텐츠 조정 도구를 제공했습니다.[21] 2022년 1월 27일, OpenAI는 총칭하여 InstructGPT라고 하는 최신 GPT-3 언어 모델이 이제 API에서 사용되는 기본 언어 모델이라고 발표했습니다. OpenAI에 따르면 InstructGPT는 지침을 더 잘 따르고, 더 적은 구성 사실을 생성하고, 다소 덜 유해한 콘텐츠를 생성하여 사용자 의도에 더 잘 부합하는 콘텐츠를 생성했습니다.[22]
GPT-3는 "인간 평가자가 인간이 작성한 기사와 구별하기 어려운 뉴스 기사를 생성"할 수 있기 때문에 GPT-3는 "언어 모델의 유익한 적용과 유해한 적용을 모두 발전시킬 수 있는 잠재력"이 있습니다.[1]: 34 2020년 5월 28일자 논문에서 연구원들은 "잘못된 정보, 스팸, 피싱, 법적 및 정부 프로세스의 남용, 사기성 학술 에세이 작성 및 사회 공학적 프리텍스팅을 포함하는" GPT-3의 잠재적인 유해한 영향"[5]을 자세히 설명했습니다. ".[1] 저자는 위험 완화에 대한 연구를 요구하기 위해 이러한 위험에 주의를 기울입니다.[1][23]: 34
GPT-3는 제로샷, 퓨샷 및 원샷 학습을 수행할 수 있습니다.[1]
2022년 6월, Almira Osmanovic Thunström은 GPT-3가 자신에 대한 기사의 주요 저자이며 출판을 위해 제출했으며[24] 검토 완료를 기다리는 동안 사전 출판되었다고 썼습니다.[24] 25]

GPT-3.5
2022년 3월 15일, OpenAI는 "text-davinci-003" 및 "code-davinci-002"라는 이름으로 편집 및 삽입 기능이 있는 API에서 GPT-3 및 Codex의 새 버전을 사용할 수 있게 했습니다.[26] 이러한 모델은 이전 버전보다 더 뛰어난 것으로 설명되었으며 2021년 6월까지 데이터에 대해 교육을 받았습니다.[27] 2022년 11월 30일, OpenAI는 이러한 모델을 "GPT-3.5" 시리즈에 속하는 것으로 언급하기 시작했으며[28] GPT-3.5 시리즈의 모델에서 미세 조정된 ChatGPT를 출시했습니다.[29]
'테크놀로지' 카테고리의 다른 글
챗GPT 검색 비용은 얼마일까 #챗GPT #GPU (0) | 2023.02.12 |
---|---|
사라진 갈락티카, 그리고 곤경에 처한 바드 #구글 #메타 #챗GPT (0) | 2023.02.12 |
챗GPT가 쏘아올린 공에 흔들리는 구글 #알파벳 #주가급락 (0) | 2023.02.12 |
어떻게 AI가 쓴 글을 구별할까? #챗GPT #텍스트감지기 (0) | 2023.02.04 |
챗GPT에 관한 6가지 비밀 #챗GPT #비밀 (0) | 2023.02.04 |