Tính năng này đang trong giai đoạn thử nghiệm. Các cờ, hình dạng đầu ra và hành vi có thể thay đổi giữa các bản phát hành. Hãy sử dụng trong các quy trình được kiểm soát và ghim phiên bản trong CI.Sơ đồ báo cáo và cách đánh giá điểm có thể thay đổi khi quy trình đánh giá phát triển hoàn thiện hơn.
eval các lệnh để đánh giá chất lượng bản dịch trên một tập đánh giá đại diện và thực thi ngưỡng chất lượng trong CI.
Sử dụng
chạy eval
Chạy một hoặc nhiều biến thể thử nghiệm trên tập đánh giá của bạn.Lệnh này làm gì
Tải tập dữ liệu đánh giá từ--eval-set.
2. Mở rộng các biến thể thí nghiệm từ các hồ sơ, nhà cung cấp, mô hình và ghi đè lời nhắc bạn đã chọn.
3. Thực thi mọi trường hợp kiểm thử với mọi biến thể thử nghiệm.
4. Tạo báo cáo JSON khi bạn truyền --output.
5. In một bản tóm tắt cho mỗi-bảng tóm tắt thí nghiệm.
Cờ hiệu
--eval-set: đường dẫn đến tập dữ liệu đánh giá (.json,.jsonc,.csv) (bắt buộc)--profileghi đè tên hồ sơ (lặp lại được)--provider: ghi đè nhà cung cấp (có thể lặp lại)--modelghi đè mô hình (lặp lại được)--prompt-fileghi đè tệp lời nhắc--prompt: ghi đè nhắc nhở nội tuyến (loại trừ lẫn nhau với--prompt-file)--outputĐường dẫn báo cáo đầu ra JSON
Các trường trong bảng tóm tắt
scoređiểm chất lượng trung bình có trọng số cho thí nghiệmpass_ratesố lần chạy thành công / tổng số lần chạy cho thí nghiệmplaceholder_violationssố lượng tính toàn vẹn của placeholder khó-thất bại vi phạmlatency_msđộ trễ trung bình cho thí nghiệm
Ví dụ
Chạy với các thiết lập mặc định từ cấu hình của bạn và viết báo cáo:đánh giá so sánh
So sánh một báo cáo ứng viên với một báo cáo cơ sở. Sử dụng lệnh này trong CI để ngăn ngừa sự suy giảm chất lượng.Cờ
--candidate: báo cáo ứng viên đường dẫn JSON (bắt buộc)--baselineđường dẫn JSON báo cáo cơ sở (bắt buộc)--min-scoređiểm trọng số ứng viên tối thiểu--max-regression: mức giảm điểm tối đa cho phép từ đường cơ sở đến ứng viên
Hành vi CI
Lệnh thoát với lỗi khi:- điểm trọng số của ứng viên thấp hơn
--min-scorehoặc - điểm hồi quy vượt quá
--max-regression.
Ví dụ
So sánh báo cáo và chỉ in các giá trị tóm tắt:0.82 hoặc giảm nhiều hơn 0.02: