Vazifa
Onlayn e’lonlar sohasidagi yirik o’yinchi foydalanuvchi xabarlarini filtrlash tizimini joriy etish maqsadini qo’ydi. Talablar qattiq edi:
- keraksiz va taqiqlangan kontentni bloklash
- shaxsiy ma’lumotlar uzatilishining oldini olish
- dialoglarda zaharlilik darajasini kamaytirish
- muloqot tezligini kechikishsiz saqlash
Gap oddiy kalit so’zlar bo’yicha filtrlash haqida emas, balki niyat, ohang va yashirin formulirovkalarni farqlay oladigan kontekstli model haqida edi.
Yondashuv
1. Klassifikatsiya mantiqini ishlab chiqish
Mijoz kategoriyalar ro’yxati bilan texnik topshiriqni taqdim etdi. Biz noaniq talqinlar va sinflar kesishishining oldini olish uchun uni aniqlashtirmalar bilan to’ldirdik.
Pilot bosqichda mijoz jamoasi bilan birgalikda:
- haqoratlar, tahdidlar, salbiy iboralar uchun mezonlarni detallashtirib chiqdik
- shaxsiy ma’lumotlar uzatilishi belgilarini aniqladik
- platforma tashqarisida uchrashishlar bo’yicha kelishuvlar holatlarini ajratib oldik
- aniq bo’lmagan formulirovkalar va yashirin ishora-imoralrni tahlil qildik
Matn to’g’ridan-to’g’ri qoidalarni buzmagan, lekin kontekst xavfni ko’rsatadigan chegara stsenariylariga alohida e’tibor qaratildi.
2. Foydalanuvchilarning real xatti-harakatlarini hisobga olgan holda annotatsiya
Annotatorlar jamoasi abstrakt til bilan emas, balki jonli xabarlar bilan ishladi.
Quyidagilar hisobga olindi:
- suhbat uslubi va sleng
- ironiya va sarkazm
- formulirovkalarning hududiy xususiyatlari
- ma’noning oldingi replikalarга bog’liqligi
Har bir xabar bir nechta asosiy yo’nalish bo’yicha tasniflandi:
- me’yoriy bo’lmagan va haqoratomuz leksika
- shaxsiy ma’lumotlarni oshkor qilish
- to’g’ridan-to’g’ri va bilvosita haqoratlar
- muloqotni platforma tashqarisiga o’tkazish urinishlari
3. Sifat nazorati va bahsli keyslar bo’yicha kelishish
Biz ko’p bosqichli validatsiya tizimini qurib chiqdik:
- belgilangan tanlamalarni tajribali validatorlar tomonidan tekshirish
- murakkab holatlarni jamoaviy tahlil qilish
- mezonlarni kalibrlashning muntazam sessiyalari
- murakkab kategoriyalar bo’yicha annotatorlar uchun maqsadli mini-testlar
Xatolar shunchaki qayd etilmasdi, balki qoidalarni yaxshilash manbai sifatida tahlil qilindi. Bu talqinlardagi kelishmovchiliklarni bosqichma-bosqich kamaytirish va ma’lumotlar izchilligini oshirish imkonini berdi.
Ish jadvali
1-2 hafta: kategoriyalarni kelishish, texnik talablarni aniqlashtirish, pilot belgilash
3-4 hafta: klassifikatorni to’g’rilash, annotatorlarni kalibrlash, belgilashni ishga tushirish
5-7 hafta: asosiy annotatsiya bosqichi, validatsiya
8-hafta: yakuniy audit, ma’lumotlar to’plamini topshirish
Natija
Tayyorlangan ma’lumotlar to’plamida o’rgatilgan model mijozning real xabarlarning tasodifiy tanlamalarida ichki testdan muvaffaqiyatli o’tdi.
Tizim:
- Zaharli va taqiqlangan kontentni to’g’ri blokladi
- Shaxsiy ma’lumot uzatish urinishlarini aniqladi
- Noaniq dialoglarda kontekstli adekvatlikni saqladi