Chọn một định dạng tệp
Dùng YAML cho các bộ eval.- chuỗi nguồn chung nhóm một dưới
tests - định nghĩa một hoặc nhiều biến thể ngôn ngữ trong
locales - tùy chọn định nghĩa các biến thể mô hình bên dưới
experiments - tùy chọn xác định cấu hình giám khảo bên dưới
judge - đặt văn bản đáng tin cậy ở phía đích dưới
reference - chỉ thêm
assertkhi bạn cần kỳ vọng đạt/không đạt rõ ràng
Ví dụ YAML
Ví dụ tối giản
Quy tắc định dạng
experiments[]là tùy chọnexperiments[].providervàexperiments[].modellà bắt buộc khi có một thử nghiệmexperiments[].id,experiments[].profilevàexperiments[].promptlà tùy chọnjudgelà tùy chọnjudge.provider,judge.model,judge.promptvàjudge.assertions[]là tùy chọntests[].idlà bắt buộctests[].vars.sourcelà bắt buộctests[].locales[]phải chứa ít nhất một ngôn ngữ localetests[].locales[].localelà bắt buộcvars.queryđược chấp nhận làm bí danh chovars.sourcevars.contextlà tùy chọnlocales[].referencelà tùy chọn nhưng là trường phía đích thông thường khi bạn có một bản dịch đáng tin cậy- top-level
assertlà tùy chọn và áp dụng cho mọi biến thể ngôn ngữ trong bài kiểm tra - mức ngôn ngữ
assertlà tùy chọn và chỉ được thêm cho ngôn ngữ đó
Quy tắc thử nghiệm
- dùng
experimentskhi bạn muốn chính bộ eval xác định những mô hình nào sẽ được chạy - nếu các cờ thử nghiệm CLI chưa được đặt, tập dữ liệu
experimentssẽ được sử dụng - nếu bạn truyền CLI
--profile,--provider,--model, hoặc--prompt, thì CLI sẽ ghi đè datasetexperiments
Quy tắc của thẩm phán
- dùng
judgekhi bạn muốn chính tập eval tự định nghĩa cấu hình giám khảo LLM judge.assertionschấp nhận cùng các tên khẳng định như CLI--assertion- CLI
--eval-provider,--eval-model,--eval-prompt, và--assertionghi đè từng trường của tập dữ liệujudgetừng trường một - nếu yêu cầu đánh giá của judge và cả CLI lẫn YAML đều không đặt nhà cung cấp/mô hình, Hyperlocalise sẽ mặc định là
openaivàgpt-5.2
Chọn phạm vi bao phủ đại diện
Bao gồm một sự kết hợp các kiểu chuỗi để bạn có thể phát hiện các lỗi hồi quy trên các dạng nội dung khác nhau.- chuỗi giao diện ngắn: nút, nhãn, mục меню và văn bản lỗi ngắn gọn
- chuỗi dạng dài: các bước hướng dẫn ban đầu, văn bản trợ giúp, nội dung pháp lý và các thông điệp giao dịch
- ICU và định dạng phức tạp: quy tắc số nhiều, biến thể theo giới tính, câu lệnh select và các chỗ giữ chỗ định dạng ngày hoặc số
- placeholder và biến: các token như
{name},%s, hoặc{{count}}phải được giữ nguyên
Giữ ngữ cảnh gần với từng trường hợp
Với mỗi trường hợp, hãy lưu một id ổn định và bao gồm đủ ngữ cảnh cho người xem xét.- giữ văn bản nguồn được chia sẻ trong
vars.source - bao gồm ảnh chụp màn hình, tên tính năng hoặc ghi chú mục đích trong
vars.context - đặt các tham chiếu cụ thể theo từng ngôn ngữ dưới mỗi mục ngôn ngữ khi bạn đã có bản dịch đáng tin cậy
- giữ cho các ID ổn định để các trường hợp mở rộng vẫn có thể so sánh giữa các lần chạy
Sử dụng các khẳng định một cách có chủ đích
assert là tùy chọn. Nếu bạn bỏ qua nó, lần chạy eval vẫn tạo ra điểm heuristic, điểm đánh giá tùy chọn, và chẩn đoán báo cáo.
Sử dụng các khẳng định xác định khi bạn biết chính xác điều gì phải xuất hiện trong đầu ra.
containsnot_containsequals
judge.translation_qualityjudge.factualityjudge.g_evaljudge.model_graded_closedqajudge.answer_relevancejudge.context_faithfulnessjudge.context_recalljudge.context_relevance
Duy trì chất lượng theo thời gian
Xem bộ eval như dữ liệu kiểm thử production.- xem xét và làm mới bộ này khi UI hoặc nội dung sản phẩm thay đổi
- xóa các trường hợp cũ không còn ánh xạ tới các tính năng đang hoạt động
- duy trì sự cân bằng giữa các chuỗi dễ, trung bình và khó
- chạy cùng một bộ lặp đi lặp lại để so sánh công bằng các thay đổi về mô hình hoặc prompt