반응형
블로그 이미지
개발자로서 현장에서 일하면서 새로 접하는 기술들이나 알게된 정보 등을 정리하기 위한 블로그입니다. 운 좋게 미국에서 큰 회사들의 프로젝트에서 컬설턴트로 일하고 있어서 새로운 기술들을 접할 기회가 많이 있습니다. 미국의 IT 프로젝트에서 사용되는 툴들에 대해 많은 분들과 정보를 공유하고 싶습니다.
솔웅

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

카테고리

Our approach to AI safety

2023. 4. 14. 00:21 | Posted by 솔웅


반응형

Our approach to AI safety (openai.com)

 

Our approach to AI safety

Ensuring that AI systems are built, deployed, and used safely is critical to our mission.

openai.com

 

Ensuring that AI systems are built, deployed, and used safely is critical to our mission.

AI 시스템이 안전하게 구축, 배포 및 사용되도록 보장하는 것은 우리의 임무에 매우 중요합니다.

 

April 5, 2023

Authors

 
 
 
 
OpenAI is committed to keeping powerful AI safe and broadly beneficial. We know our AI tools provide many benefits to people today. Our users around the world have told us that ChatGPT helps to increase their productivity, enhance their creativity, and offer tailored learning experiences. We also recognize that, like any technology, these tools come with real risks—so we work to ensure safety is built into our system at all levels.
 

OpenAI Charter

Our Charter describes the principles we use to execute on OpenAI’s mission.

openai.com

 

OpenAI는 강력한 AI를 안전하고 광범위하게 유익하게 유지하기 위해 최선을 다하고 있습니다. 우리는 AI 도구가 오늘날 사람들에게 많은 이점을 제공한다는 것을 알고 있습니다. 전 세계 사용자들은 ChatGPT가 생산성을 높이고 창의력을 향상시키며 맞춤형 학습 경험을 제공하는 데 도움이 된다고 말했습니다. 우리는 또한 모든 기술과 마찬가지로 이러한 도구에 실질적인 위험이 따른다는 것을 알고 있으므로 모든 수준에서 시스템에 안전이 구축되도록 노력합니다.

 

Building increasingly safe AI systems

Prior to releasing any new system we conduct rigorous testing, engage external experts for feedback, work to improve the model's behavior with techniques like reinforcement learning with human feedback, and build broad safety and monitoring systems.

새로운 시스템을 출시하기 전에 우리는 엄격한 테스트를 수행하고, 피드백을 위해 외부 전문가를 참여시키고, 사람의 피드백을 통한 강화 학습과 같은 기술로 모델의 동작을 개선하고, 광범위한 안전 및 모니터링 시스템을 구축합니다.

 

 

For example, after our latest model, GPT-4, finished training, we spent more than 6 months working across the organization to make it safer and more aligned prior to releasing it publicly.

 

예를 들어 최신 모델인 GPT-4가 교육을 마친 후 공개하기 전에 조직 전체에서 6개월 이상 작업하여 더 안전하고 더 잘 정렬되도록 했습니다.

 

We believe that powerful AI systems should be subject to rigorous safety evaluations. Regulation is needed to ensure that such practices are adopted, and we actively engage with governments on the best form such regulation could take.

 

우리는 강력한 AI 시스템이 엄격한 안전성 평가를 받아야 한다고 믿습니다. 그러한 관행이 채택되도록 하려면 규제가 필요하며, 우리는 그러한 규제가 취할 수 있는 최선의 형태로 정부와 적극적으로 협력합니다.

 

 

Learning from real-world use to improve safeguards

We work hard to prevent foreseeable risks before deployment, however, there is a limit to what we can learn in a lab. Despite extensive research and testing, we cannot predict all of the beneficial ways people will use our technology, nor all the ways people will abuse it. That’s why we believe that learning from real-world use is a critical component of creating and releasing increasingly safe AI systems over time.

 

우리는 배포 전에 예측 가능한 위험을 방지하기 위해 열심히 노력하지만 랩에서 배울 수 있는 것에는 한계가 있습니다. 광범위한 연구와 테스트에도 불구하고 우리는 사람들이 우리 기술을 사용할 모든 유익한 방법이나 남용할 모든 방법을 예측할 수 없습니다. 그렇기 때문에 실생활에서 배우는 것이 시간이 지남에 따라 점점 더 안전한 AI 시스템을 만들고 출시하는 데 중요한 구성 요소라고 생각합니다.

 

We cautiously and gradually release new AI systems—with substantial safeguards in place—to a steadily broadening group of people and make continuous improvements based on the lessons we learn.

 

우리는 상당한 보호 장치를 갖춘 새로운 AI 시스템을 신중하고 점진적으로 점점 더 많은 사람들에게 출시하고 우리가 배운 교훈을 바탕으로 지속적으로 개선합니다.

 

We make our most capable models available through our own services and through an API so developers can build this technology directly into their apps. This allows us to monitor for and take action on misuse, and continually build mitigations that respond to the real ways people misuse our systems—not just theories about what misuse might look like.

 

우리는 개발자가 이 기술을 앱에 직접 구축할 수 있도록 자체 서비스와 API를 통해 가장 유능한 모델을 사용할 수 있도록 합니다. 이를 통해 오용을 모니터링하고 조치를 취할 수 있으며 오용이 어떤 것인지에 대한 이론뿐만 아니라 사람들이 시스템을 오용하는 실제 방식에 대응하는 완화 조치를 지속적으로 구축할 수 있습니다.

 

Real-world use has also led us to develop increasingly nuanced policies against behavior that represents a genuine risk to people while still allowing for the many beneficial uses of our technology.

 

실제 사용은 또한 우리 기술의 많은 유익한 사용을 허용하면서 사람들에게 진정한 위험을 나타내는 행동에 대해 점점 더 미묘한 정책을 개발하도록 이끌었습니다.

 

Crucially, we believe that society must have time to update and adjust to increasingly capable AI, and that  everyone who is affected by this technology should have a significant say in how AI develops further. Iterative deployment has helped us bring various stakeholders into the conversation about the adoption of AI technology more effectively than if they hadn't had firsthand experience with these tools.

 

결정적으로, 우리는 사회가 점점 더 유능해지는 AI를 업데이트하고 적응할 시간이 있어야 하며, 이 기술의 영향을 받는 모든 사람이 AI가 어떻게 발전하는지에 대해 중요한 발언권을 가져야 한다고 믿습니다. 반복 배포를 통해 다양한 이해관계자가 이러한 도구를 직접 경험하지 않았을 때보다 더 효과적으로 AI 기술 채택에 대한 대화에 참여할 수 있었습니다.

 

 

Protecting children

One critical focus of our safety efforts is protecting children. We require that people must be 18 or older—or 13 or older with parental approval—to use our AI tools and are looking into verification options.

안전 노력의 중요한 초점 중 하나는 어린이를 보호하는 것입니다. AI 도구를 사용하려면 18세 이상(또는 부모의 승인이 있는 13세 이상)이어야 하며 인증 옵션을 검토하고 있습니다.

 

We do not permit our technology to be used to generate hateful, harassing, violent or adult content, among other categories. Our latest model, GPT-4 is 82% less likely to respond to requests for disallowed content compared to GPT-3.5 and we have established a robust system to monitor for abuse. GPT-4 is now available to ChatGPT Plus subscribers and we hope to make it available to even more people over time.

 

우리는 우리 기술이 증오, 괴롭힘, 폭력 또는 성인용 콘텐츠를 생성하는 데 사용되는 것을 허용하지 않습니다. 당사의 최신 모델인 GPT-4는 GPT-3.5에 비해 허용되지 않는 콘텐츠에 대한 요청에 응답할 가능성이 82% 낮으며 남용을 모니터링하기 위한 강력한 시스템을 구축했습니다. GPT-4는 이제 ChatGPT Plus 가입자가 사용할 수 있으며 시간이 지남에 따라 더 많은 사람들이 사용할 수 있기를 바랍니다.

 

We have made significant effort to minimize the potential for our models to generate content that harms children. For example, when users try to upload known Child Sexual Abuse Material to our image tools, we use Thorn’s Safer to detect, review and report it to the National Center for Missing and Exploited Children.

 

우리는 모델이 어린이에게 해를 끼치는 콘텐츠를 생성할 가능성을 최소화하기 위해 상당한 노력을 기울였습니다. 예를 들어 사용자가 알려진 아동 성적 학대 자료를 이미지 도구에 업로드하려고 하면 Thorn’s Safer를 사용하여 이를 감지, 검토하고 국립 실종 및 착취 아동 센터에 신고합니다.

 

In addition to our default safety guardrails, we work with developers like the non-profit Khan Academy—which has built an AI-powered assistant that functions as both a virtual tutor for students and a classroom assistant for teachers—on tailored safety mitigations for their use case. We are also working on features that will allow developers to set stricter standards for model outputs to better support developers and users who want such functionality.

 

기본 안전 가드레일 외에도 우리는 학생들을 위한 가상 튜터와 교사를 위한 교실 조교 역할을 모두 수행하는 AI 기반 조수를 구축한 비영리 Khan Academy와 같은 개발자와 협력하여 학생들을 위한 맞춤형 안전 완화를 제공합니다. 사용 사례. 또한 개발자가 이러한 기능을 원하는 개발자와 사용자를 더 잘 지원하기 위해 모델 출력에 대해 더 엄격한 표준을 설정할 수 있는 기능을 개발하고 있습니다.

 

Respecting privacy

Our large language models are trained on a broad corpus of text that includes publicly available content, licensed content, and content generated by human reviewers. We don’t use data for selling our services, advertising, or building profiles of people—we use data to make our models more helpful for people. ChatGPT, for instance, improves by further training on the conversations people have with it.

당사의 대규모 언어 모델은 공개적으로 사용 가능한 콘텐츠, 라이선스가 부여된 콘텐츠 및 인간 검토자가 생성한 콘텐츠를 포함하는 광범위한 텍스트 코퍼스에서 학습됩니다. 우리는 서비스 판매, 광고 또는 사람들의 프로필 구축을 위해 데이터를 사용하지 않습니다. 우리는 사람들에게 더 유용한 모델을 만들기 위해 데이터를 사용합니다. 예를 들어 ChatGPT는 사람들이 나누는 대화에 대한 추가 교육을 통해 개선됩니다.

 

While some of our training data includes personal information that is available on the public internet, we want our models to learn about the world, not private individuals. So we work to remove personal information from the training dataset where feasible, fine-tune models to reject requests for personal information of private individuals, and respond to requests from individuals to delete their personal information from our systems. These steps minimize the possibility that our models might generate responses that include the personal information of private individuals.

일부 교육 데이터에는 공개 인터넷에서 사용할 수 있는 개인 정보가 포함되어 있지만 모델이 개인이 아닌 세상에 대해 배우기를 원합니다. 따라서 가능한 경우 교육 데이터 세트에서 개인 정보를 제거하고 개인의 개인 정보 요청을 거부하도록 모델을 미세 조정하고 시스템에서 개인 정보를 삭제하라는 개인의 요청에 응답하기 위해 노력합니다. 이러한 단계는 우리 모델이 개인의 개인 정보를 포함하는 응답을 생성할 수 있는 가능성을 최소화합니다.

 

Improving factual accuracy

Today’s large language models predict the next series of words based on patterns they have previously seen, including the text input the user provides. In some cases, the next most likely words may not be factually accurate.

오늘날의 대규모 언어 모델은 사용자가 제공하는 텍스트 입력을 포함하여 이전에 본 패턴을 기반으로 다음 일련의 단어를 예측합니다. 경우에 따라 다음으로 가능성이 높은 단어가 사실적으로 정확하지 않을 수 있습니다.

 

Improving factual accuracy is a significant focus for OpenAI and many other AI developers, and we’re making progress. By leveraging user feedback on ChatGPT outputs that were flagged as incorrect as a main source of data—we have improved the factual accuracy of GPT-4. GPT-4 is 40% more likely to produce factual content than GPT-3.5.

 

사실적 정확성을 개선하는 것은 OpenAI와 다른 많은 AI 개발자에게 중요한 초점이며 우리는 진전을 이루고 있습니다. 주요 데이터 소스로 잘못된 것으로 표시된 ChatGPT 출력에 대한 사용자 피드백을 활용하여 GPT-4의 사실적 정확성을 개선했습니다. GPT-4는 GPT-3.5보다 사실적인 콘텐츠를 생산할 가능성이 40% 더 높습니다.

 

When users sign up to use the tool, we strive to be as transparent as possible that ChatGPT may not always be accurate. However, we recognize that there is much more work to do to further reduce the likelihood of hallucinations and to educate the public on the current limitations of these AI tools.

 

사용자가 도구를 사용하기 위해 가입할 때 ChatGPT가 항상 정확하지 않을 수 있음을 가능한 한 투명하게 하기 위해 노력합니다. 그러나 우리는 환각의 가능성을 더욱 줄이고 이러한 AI 도구의 현재 한계에 대해 대중을 교육하기 위해 해야 할 일이 훨씬 더 많다는 것을 알고 있습니다.

 

Continued research and engagement

We believe that a practical approach to solving AI safety concerns is to dedicate more time and resources to researching effective mitigations and alignment techniques and testing them against real-world abuse.

AI 안전 문제를 해결하기 위한 실용적인 접근 방식은 효과적인 완화 및 조정 기술을 연구하고 실제 남용에 대해 테스트하는 데 더 많은 시간과 자원을 투자하는 것이라고 믿습니다.

 

Importantly, we also believe that improving AI safety and capabilities should go hand in hand. Our best safety work to date has come from working with our most capable models because they are better at following users’ instructions and easier to steer or “guide.”

 

중요한 것은 AI 안전과 기능 개선이 함께 이루어져야 한다고 믿습니다. 지금까지 우리의 최고의 안전 작업은 사용자의 지시를 더 잘 따르고 조종 또는 "안내"하기가 더 쉽기 때문에 가장 유능한 모델과 함께 작업함으로써 이루어졌습니다.

 

We will be increasingly cautious with the creation and deployment of more capable models, and will continue to enhance safety precautions as our AI systems evolve.

 

우리는 보다 유능한 모델의 생성 및 배포에 점점 더 주의를 기울일 것이며 AI 시스템이 발전함에 따라 안전 예방 조치를 계속 강화할 것입니다.

 

While we waited over 6 months to deploy GPT-4 in order to better understand its capabilities, benefits, and risks, it may sometimes be necessary to take longer than that to improve AI systems' safety. Therefore, policymakers and AI providers will need to ensure that AI development and deployment is governed effectively at a global scale, so no one cuts corners to get ahead. This is a daunting challenge requiring both technical and institutional innovation, but it’s one that we are eager to contribute to.

 

GPT-4의 기능, 이점 및 위험을 더 잘 이해하기 위해 GPT-4를 배포하기까지 6개월 이상을 기다렸지만 AI 시스템의 안전을 개선하기 위해 때로는 그보다 더 오래 걸릴 수도 있습니다. 따라서 정책 입안자와 AI 공급자는 AI 개발 및 배포가 전 세계적으로 효과적으로 관리되도록 해야 합니다. 이는 기술 혁신과 제도적 혁신이 모두 필요한 벅찬 도전이지만 우리가 기꺼이 기여하고자 하는 것입니다.

 

Addressing safety issues also requires extensive debate, experimentation, and engagement, including on the bounds of AI system behavior. We have and will continue to foster collaboration and open dialogue among stakeholders to create a safe AI ecosystem.

 

안전 문제를 해결하려면 AI 시스템 동작의 범위를 포함하여 광범위한 토론, 실험 및 참여가 필요합니다. 우리는 안전한 AI 생태계를 만들기 위해 이해관계자들 사이의 협력과 열린 대화를 지속적으로 촉진해 왔으며 앞으로도 그럴 것입니다.

 

 

Learn more about AI safty 

 

Safety & responsibility

Artificial general intelligence has the potential to benefit nearly every aspect of our lives—so it must be developed and deployed responsibly.

openai.com

 

반응형