Tính năng này đang ở giai đoạn thử nghiệm. Cờ, hình dạng đầu ra và hành vi có thể thay đổi giữa các bản phát hành. Hãy sử dụng trong các quy trình làm việc được kiểm soát và cố định phiên bản trong CI.Lược đồ báo cáo và hành vi chấm điểm có thể thay đổi khi các quy trình đánh giá trưởng thành.
eval để đánh giá chất lượng bản dịch trên một bộ eval đại diện và áp dụng các ngưỡng chất lượng trong CI.
Cách sử dụng
chạy eval
Chạy một hoặc nhiều biến thể thí nghiệm trên bộ eval của bạn.Luồng đánh giá
Lệnh này làm gì
- Tải bộ dữ liệu eval từ
--eval-set. - Mở rộng các biến thể thử nghiệm từ tập dữ liệu
experimentshoặc từ các hồ sơ, nhà cung cấp, mô hình và ghi đè prompt bạn đã chọn. - Thực thi mọi trường hợp đối với mọi biến thể thử nghiệm.
- Chấm điểm mỗi bản dịch bằng làn heuristic tích hợp sẵn.
- Tùy chọn thêm một làn đánh giá LLM khi bạn truyền cả
--eval-providervà--eval-model. - Hòa giải chất lượng heuristic và điểm đánh giá thành công thành một
finalScorecho mỗi lần chạy. - Ghi một báo cáo JSON khi bạn truyền
--output. - In ra bảng tóm tắt ngắn gọn cho từng thí nghiệm.
Cờ
--eval-set: đường dẫn đến bộ dữ liệu đánh giá (.yaml,.yml) (bắt buộc)--profile: ghi đè tên hồ sơ (có thể lặp lại)--provider: ghi đè nhà cung cấp (có thể lặp lại)--model: ghi đè mô hình (có thể lặp lại)--prompt-file: ghi đè tệp prompt--prompt: ghi đè lời nhắc nội tuyến (loại trừ lẫn nhau với--prompt-file)--eval-provider: nhà cung cấp cho đánh giá LLM. Mặc định làopenaikhi yêu cầu đánh giá của giám khảo.--eval-model: mô hình để đánh giá LLM. Mặc định làgpt-5.2khi đánh giá của judge được yêu cầu.--eval-prompt-file: ghi đè tệp prompt đánh giá--eval-prompt: ghi đè lời nhắc đánh giá nội tuyến (loại trừ lẫn nhau với--eval-prompt-file)--assertion: xác định mệnh đề để chạy (có thể lặp lại). Giá trị được hỗ trợ:llm-rubric,factuality,g-eval,model-graded-closedqa,answer-relevance,context-faithfulness,context-recall--baseline: đường dẫn JSON của báo cáo đánh giá cơ sở để so sánh khi sử dụng--interactive--output: đường dẫn báo cáo đầu ra JSON
--eval-provider, --eval-model, --eval-prompt, hoặc --assertion, hoặc một cách ngầm thông qua các khẳng định của judge trong eval-set.
Nếu yêu cầu đánh giá của judge và bạn bỏ qua provider/model, Hyperlocalise sẽ mặc định là openai và gpt-5.2.
Các cờ dịch của bạn vẫn giữ nguyên ý nghĩa hiện tại. Các cờ --eval-* chỉ kiểm soát làn phán xét.
Bản dịch tham chiếu là tùy chọn ở chế độ đánh giá LLM. Khi có, bộ đánh giá sẽ dùng chúng làm hướng dẫn về phong cách và giọng điệu.
Trong định dạng eval-set YAML, reference là trường phía đích thông thường. assert là tùy chọn.
Các experiments và judge ở cấp bộ dữ liệu là tùy chọn. Nếu bạn định nghĩa chúng trong YAML và không truyền ghi đè qua CLI, eval run sẽ sử dụng trực tiếp các cài đặt đó.
Nếu bạn truyền bất kỳ giá trị nào trong --profile, --provider, --model hoặc --prompt, ma trận thử nghiệm CLI sẽ ghi đè tập dữ liệu experiments.
Nếu bạn truyền bất kỳ giá trị nào trong số --eval-provider, --eval-model, --eval-prompt hoặc --assertion, thì các giá trị CLI đó sẽ ghi đè các trường judge của bộ dữ liệu.
Nếu bạn không truyền --assertion, thì khẳng định mặc định của judge là llm-rubric.
Các tên khẳng định không xác định sẽ thất bại ngay lập tức.
Cách chấm điểm hoạt động
quality.weightedAggregatelà điểm heuristic tích hợp sẵn cho lần chạy.judgeAggregateScorelà giá trị trung bình của các khẳng định phán quyết thành công cho lần chạy đó.finalScorelà điểm số đã được đối chiếu được dùng để chẩn đoán trong báo cáo.decisionlà một kết quả thô cho lần chạy:pass,review, hoặcfail.
- lỗi dịch buộc
finalScore=0vàdecision=fail - lỗi cứng theo heuristic buộc
finalScore=0vàdecision=fail - khi làn đường của phán quyết không khả dụng,
finalScoresẽ quay về điểm số heuristic - khi cả hai làn đều khả dụng,
finalScore = 0.65 * heuristic + 0.35 * judge
Các trường của bảng tóm tắt
score: điểm chất lượng trung bình có trọng số cho thử nghiệmpass_rate: số lần chạy thành công / tổng số lần chạy của thí nghiệmplaceholder_violations: số lượng vi phạm toàn vẹn placeholder không thể chấp nhận đượclatency_ms: độ trễ trung bình của thí nghiệm
Ví dụ
Chạy với các giá trị mặc định từ cấu hình của bạn và viết một báo cáo:Ví dụ báo cáo
Bộ eval ví dụ:--output:
experimentSummarieslà cách nhanh nhất để so sánh các biến thể mô hình theofinalScore,weightedScore, hoặc tổ hợp pass/review/fail.aggregate.byLocalelà cách nhanh nhất để bản địa hóa các lỗi hồi quy.llmEvaluation.averageScoreByNamecho thấy họ khẳng định nào đang kéo làn đường thẩm phán xuống.assertionResultscho biết liệu các kỳ vọng eval-set rõ ràng có được đáp ứng hay không.judgeResultschi tiết giải thích các lỗi cụ thể của câu khẳng định, chẳng hạn như ảo giác, các tuyên bố không được hỗ trợ hoặc thiếu các факт ngữ cảnh.
đánh giá so sánh
So sánh báo cáo của ứng viên với báo cáo chuẩn. Dùng lệnh này trong CI để ngăn chặn sự suy giảm chất lượng. Quy trình vẫn giữ nguyên: hãy chạyeval run trước, rồi chạy eval compare.
Cờ
--candidate: đường dẫn JSON của báo cáo ứng viên (bắt buộc)--baseline: đường dẫn JSON của báo cáo cơ sở (bắt buộc)--min-score: điểm ứng viên tối thiểu--max-regression: mức suy giảm điểm số tối đa cho phép từ baseline đến candidate
Hành vi CI
eval compare ưu tiên điểm tổng hợp LLM khi cả hai báo cáo đều bao gồm một điểm tổng hợp từ bộ đánh giá LLM có thể sử dụng. Nếu không, nó sẽ quay về điểm có trọng số theo heuristic.
Điều này có nghĩa là eval compare hiện đang phụ thuộc vào:
- Tổng hợp đánh giá của LLM khi đánh giá LLM được bật trong cả hai báo cáo
- tổng hợp heuristic khi không có tổng hợp phán đoán LLM khả dụng
finalScore.
Lệnh sẽ thoát với lỗi khi:
- điểm ứng viên thấp hơn
--min-score, hoặc - điểm hồi quy vượt quá
--max-regression.
Các ví dụ
So sánh báo cáo và chỉ in các giá trị tóm tắt:0.82 hoặc bị giảm sút quá 0.02: