5주 만에, 설정 파일 한 줄짜리 지시문이 다층 자동 검증 시스템으로 바뀌었습니다.
처음부터 이런 시스템을 설계한 게 아닙니다. 매주 문제가 터졌고, 그때마다 구조를 바꿨습니다. 돌아보면 깔끔한 진화처럼 보이지만, 현장에서는 좌절과 시행착오의 연속이었습니다.
이 글은 5주간의 타임라인을 정리한 기록입니다. 각 주차에서 무엇이 문제였고, 어떤 구조적 변화를 도입했는지.
• • •
1주차: 규칙의 시대
시작은 단순했습니다. 설정 파일 하나에 자연어로 규칙을 적었습니다.
"코드 수정 전에 기존 상태를 확인하라." "배포 전에 테스트를 돌려라." "승인 없이 파일을 삭제하지 마라."
처음 며칠은 놀라울 정도로 잘 작동했습니다. AI가 규칙을 읽고, 그대로 따랐습니다. "이거면 되는 거 아닌가?" 싶었습니다.
문제는, 이 "잘 작동하는" 느낌이 착각이었다는 겁니다. AI는 규칙을 "이해"한 게 아니라 그 세션에서 규칙이 컨텍스트에 있었기 때문에 따른 것뿐이었습니다.
• • •
2주차: 좌절
규칙이 깨지기 시작했습니다. 매번 같은 패턴이었습니다.
AI가 규칙을 어깁니다. 제가 지적합니다. AI가 사과합니다. "앞으로는 주의하겠습니다." 그리고 다음 작업에서 똑같은 실수를 반복합니다.
사과는 완벽했습니다. 반성문도 훌륭했습니다. 그런데 행동은 바뀌지 않았습니다.
규칙을 더 추가했습니다. 5개가 10개가 되고, 10개가 18개가 됐습니다. 규칙이 많아질수록 AI가 모든 규칙을 동시에 지키기가 더 어려워졌습니다. 한쪽을 지키면 다른 쪽이 무너지는 상황이 반복됐습니다.
가장 답답했던 건, 같은 맥락에서 같은 종류의 실수가 반복된다는 점이었습니다. 승인 없이 파일을 수정하거나, 기존 상태를 확인하지 않고 코드를 덮어쓰거나, 범위를 확장해서 요청하지 않은 것까지 건드리거나.
이때 깨달았습니다. 자연어 규칙만으로는 AI의 행동을 통제할 수 없다. 규칙의 수가 문제가 아니라, 규칙이라는 형식 자체가 한계였습니다.
규칙 수 vs 실제 준수율
규칙을 늘리면 준수율이 떨어집니다. 역설적이지만 사실입니다.
• • •
3주차: 구조적 전환
전환점은 하나의 질문에서 시작됐습니다. "AI를 교육하는 게 아니라, AI가 벗어날 수 없는 구조를 만들면 어떨까?"
두 가지를 도입했습니다.
첫째, 검증 에이전트. 코드를 수정하는 AI와 검증하는 AI를 분리했습니다. 같은 AI가 만들고 같은 AI가 검토하면 자기 실수를 못 잡습니다. 그래서 별도 AI 모델을 사용하는 검증 에이전트를 도입했습니다. 코드 수정이 끝나면 자동으로 검증 에이전트가 호출되어 보안, 성능, 범위 이탈 등을 체크합니다.
둘째, 자동 트리거. 세션이 시작될 때 자동으로 컨텍스트를 로드하는 트리거를 만들었습니다. AI가 "규칙을 기억하는" 게 아니라, 세션 시작 시점에 구조적으로 규칙이 주입되는 방식입니다. 기억에 의존하지 않으니 까먹을 수가 없습니다.
| 항목 |
2주차까지 |
3주차부터 |
| 규칙 적용 |
AI가 "기억"에 의존 |
구조적으로 자동 주입 |
| 검증 |
사람이 직접 확인 |
별도 AI 모델이 자동 검증 |
| 실수 대응 |
"다음엔 주의하겠습니다" |
구조적으로 실수가 불가능 |
이 전환 이후, 위반 사고가 눈에 띄게 줄었습니다. 완전히 없어진 건 아니지만, "같은 종류의 실수가 반복되는" 패턴은 확실히 끊겼습니다.
• • •
4주차: 승인 모델
3주차의 구조가 안정되자, 새로운 문제가 보였습니다. 모든 것을 자동화하면 사고가 터질 때 막을 수 없다.
검증 에이전트가 잡아내는 건 "코드 품질"이지, "이걸 지금 해야 하느냐"는 판단이 아니었습니다. AI가 기술적으로 완벽한 코드를 작성하더라도, 그 작업 자체가 지금 필요한 것인지는 사람만 판단할 수 있습니다.
그래서 승인 모델을 도입했습니다.
위험도 기반 분류
배포 · 삭제 · 외부 전송전체 체크리스트 + 승인
신호등 체계도 이 시기에 도입했습니다. 제품 관련 결정을 내릴 때마다 "이 결정이 사용자에게 제한을 가하는가?"를 자동으로 체크하는 시스템입니다. 녹색이면 진행, 노란색이면 논의, 빨간색이면 즉시 재설계.
"사용자가 불편하면 그건 제품이 아니다"라는 원칙이 이 시기에 확립됐습니다. 구현 난이도나 스코프 확장을 이유로 사용자 경험을 타협하지 않겠다는 결정.
• • •
5주차: 체계 완성
마지막 주에 모든 것이 정리됐습니다.
규칙 18개를 핵심 원칙 5개로 압축. 많은 규칙이 문제라는 걸 2주차에 배웠습니다. 18개를 5개로 줄이되, 각 원칙이 구조적으로 강제되도록 만들었습니다.
검증 에이전트를 다층으로 확장. 단일 코드 검증 에이전트에서, 계획 검증 → 코드 검증 → 스펙 확인 → 배포 보호까지 4단계 검증 체인으로 발전시켰습니다. 각 에이전트는 별도 AI 모델을 사용합니다.
워크플로우 스킬 도입. 반복되는 작업 패턴을 재사용 가능한 스킬로 만들었습니다. 기능 개발, 배포, 회의, 콘텐츠 생성 등 각각에 표준화된 절차를 부여했습니다.
5주차 최종 구조
핵심 원칙
5개 (18개에서 압축)
각 원칙이 구조적으로 강제됨
검증 에이전트
다중 에이전트 체인
계획 → 코드 → 스펙 → 배포 순차 검증
자동 트리거
2개 (7개에서 정리)
세션 시작 + 입력 기반 컨텍스트 주입
워크플로우 스킬
15개
빌드, 런칭, 인사이트 3개 카테고리
1주차에는 구조적 강제가 0개였습니다. 5주차에는 다층 자동 검증 시스템이 작동하고 있었습니다. 이 변화는 계획된 것이 아니라, 매주 터진 문제에 대응하면서 자연스럽게 쌓인 결과입니다.
• • •
핵심 통찰
5주간의 진화에서 얻은 가장 중요한 통찰은 이겁니다.
AI를 교육하는 게 아니라, AI가 벗어날 수 없는 구조를 만드는 것.
AI에게 "이렇게 하라"고 말하는 건 효과가 제한적입니다. AI는 사과를 잘 하고, 반성문을 잘 쓰고, 다음에도 같은 실수를 합니다. 이건 AI의 결함이 아니라, 자연어 지시의 한계입니다.
구조적 강제란, AI가 규칙을 "지키려고 노력"하는 게 아니라, 규칙을 어기는 것 자체가 시스템적으로 불가능한 상태를 만드는 것입니다.
예를 들어:
- "기존 상태를 확인하라"는 규칙 대신 → 기존 상태 확인 결과가 없으면 다음 단계로 넘어가지 못하는 구조
- "코드를 검증하라"는 규칙 대신 → 코드 수정이 끝나면 자동으로 별도 AI가 검증하는 구조
- "배포 전에 테스트를 돌려라"는 규칙 대신 → 자동화 테스트를 통과하지 않으면 배포 자체가 차단되는 구조
이 원칙은 AI뿐 아니라 사람에게도 적용됩니다. 가장 좋은 규칙은 지키려고 노력할 필요가 없는 규칙입니다. 구조가 강제하니까요.
이 프레임워크는 아직 진화 중입니다. 6주차, 7주차에도 새로운 문제가 터질 것이고, 그때마다 구조가 또 바뀔 겁니다. 중요한 건, 그 변화의 방향이 항상 "더 많은 규칙"이 아니라 "더 강한 구조"여야 한다는 겁니다.
In 5 weeks, a single-line instruction in a configuration file evolved into a multi-layered automated verification system.
This system was not designed from the start. Problems erupted every week, and the structure changed each time. In hindsight it looks like a clean evolution, but on the ground it was a relentless series of frustrations and trial-and-error.
This article is a record of the 5-week timeline. What went wrong each week, and what structural changes were introduced.
• • •
Week 1: The Age of Rules
It started simply. Natural language rules written in a single configuration file.
"Check the current state before modifying code." "Run tests before deploying." "Do not delete files without approval."
The first few days worked surprisingly well. The AI read the rules and followed them. "Maybe this is all you need?"
Week 1 Structure
Governance Tool
1 config file
Verification
Manual review
The problem was that this "it works" feeling was an illusion. The AI did not "understand" the rules — it followed them only because they were in the context for that session.
• • •
Week 2: Frustration
Rules started breaking. The same pattern every time.
The AI violates a rule. I point it out. The AI apologizes. "I will be more careful going forward." Then it repeats the exact same mistake on the next task.
The apologies were perfect. The self-reflections were excellent. But the behavior never changed.
More rules were added. 5 became 10, 10 became 18. The more rules there were, the harder it became for the AI to follow all of them simultaneously. Fixing one side broke the other.
The most frustrating part was that the same types of mistakes kept repeating in the same contexts. Modifying files without approval, overwriting code without checking current state, expanding scope to touch things that were never requested.
That is when the realization hit. Natural language rules alone cannot control AI behavior. The problem was not the number of rules, but the fundamental limitations of rules as a format.
Number of Rules vs Actual Compliance
At 5 rules~90% compliance
At 10 rules~70% compliance
At 18 rules~50% compliance
More rules, lower compliance. Paradoxical but true.
• • •
Week 3: Structural Shift
The turning point began with one question. "Instead of educating the AI, what if we built a structure it cannot escape?"
Two things were introduced.
First, verification agents. The AI that writes code and the AI that verifies it were separated. When the same AI creates and reviews, it cannot catch its own mistakes. So a verification agent using a separate AI model was introduced. After code changes are complete, the verification agent is automatically triggered to check security, performance, scope deviation, and more.
Second, auto-triggers. Triggers that automatically load context at session start were created. Instead of the AI "remembering" rules, rules are structurally injected at session start. No reliance on memory means nothing can be forgotten.
| Aspect |
Through Week 2 |
From Week 3 |
| Rule Application |
AI relies on "memory" |
Structurally auto-injected |
| Verification |
Human manual check |
Separate AI model auto-verifies |
| Error Response |
"I will be careful next time" |
Structurally impossible to err |
After this shift, violation incidents decreased noticeably. They did not disappear entirely, but the pattern of "same type of mistake repeating" was decisively broken.
• • •
Week 4: Approval Model
Once Week 3's structure stabilized, a new problem emerged. If everything is automated, there is no way to stop incidents when they occur.
What verification agents catch is "code quality," not "should this be done right now?" Even if the AI writes technically perfect code, only a human can judge whether the work itself is needed at this moment.
So the approval model was introduced.
Risk-Based Classification
Read · Verify · AnalyzeAuto-proceed
File Modify · Code ChangeProceed after approval
Deploy · Delete · External SendFull checklist + approval
The traffic light system was also introduced during this period. A system that automatically checks "does this decision impose restrictions on the user?" for every product decision. Green means proceed, yellow means discuss, red means immediate redesign.
The principle "if the user is inconvenienced, it is not a product" was established during this period. A decision to never compromise user experience for implementation difficulty or scope expansion.
• • •
Week 5: System Complete
In the final week, everything came together.
18 rules compressed to 5 core principles. Week 2 taught us that too many rules are the problem. We reduced 18 to 5, but made each principle structurally enforceable.
Verification agents expanded to multi-layer. From a single code review agent to a 4-stage verification chain: plan review, code review, spec check, and deploy guard. Each agent uses a separate AI model.
Workflow skills introduced. Recurring work patterns were turned into reusable skills. Feature development, deployment, meetings, content creation — each received a standardized procedure.
Week 5 Final Structure
Core Principles
5 (compressed from 18)
Each principle structurally enforced
Verification Agents
Multi-agent chain
Plan → Code → Spec → Deploy sequential verification
Auto-Triggers
2 (refined from 7)
Session start + input-based context injection
Workflow Skills
15
Build, Launch, Insight — 3 categories
In Week 1, there were 0 structural enforcements. By Week 5, a multi-layered automated verification system was operational. This change was not planned — it was the natural result of responding to problems that erupted each week.
• • •
Key Insights
The most important insight from 5 weeks of evolution is this.
Do not educate the AI. Build a structure it cannot escape.
Telling AI "do it this way" has limited effectiveness. AI apologizes well, writes great self-reflections, and makes the same mistake next time. This is not an AI defect — it is the limitation of natural language instructions.
Structural enforcement means creating a state where violating rules is systemically impossible, rather than the AI "trying to follow" the rules.
For example:
- Instead of "check current state" rule → a structure where the next step cannot proceed without current state verification results
- Instead of "verify the code" rule → a structure where a separate AI automatically verifies after code changes
- Instead of "run tests before deploying" rule → a structure where deployment is blocked unless automated tests pass
This principle applies to humans too, not just AI. The best rules are rules you do not need to try to follow. Because the structure enforces them.
This framework is still evolving. New problems will emerge in Week 6, Week 7, and the structure will change again each time. What matters is that the direction of change is always "stronger structure," not "more rules."