LegalTech platformasi uchun yuridik hujjatlarni annotatsiya qilish

Yuridik til murakkab, o’zgaruvchan va xatolarga sezgir. Biz talqinlar izchilligini ta’minlaydigan va huquqiy ob’ektlarni ajratib olish modellari uchun ishonchli o’quv ma’lumotlar to’plamini shakllantiradigan annotatsiya tizimini ishlab chiqdik.

Yuridik hujjatlar erkin talqin qilishga yo’l qo’ymaydi. Bir xatboshidagi formulirovkani o’zgartirish butun hujjatning ma’nosiga ta’sir qilishi mumkin.

LegalTech kompaniyasi uchun biz ob’ektlarni ajratib olish va ular o’rtasida mantiqiy bog’lanishlar qurish bilan 6 000 dan ortiq murakkab huquqiy hujjatlarni annotatsiya qilish loyihasini amalga oshirdik. Vazifa shunchaki belgilashni emas, balki tuzilmagan yuridik til bilan ishlashning barqaror metodologiyasini qurishni talab qildi.

Image
Soha
Xavfsizlik & LegalTech
Hamkorlik formati
8 hafta

Vazifa

Mijoz Label Studio’dan foydalangan va yuridik ob’ektlar hamda ularning o’zaro bog’lanishlarini ajratib olish modeli uchun o’quv ma’lumotlar to’plamini shakllantirishni maqsad qilgan edi.

Quyidagilarni amalga oshirish kerak edi:

  • asosiy ob’ektlarni ajratish: sotuvchi, xaridor, ajratilayotgan huquq, vakil va boshqalar
  • ularni aniq hujjat mantig’i doirasida to’g’ri bog’lash
  • kontekst va shartli tuzilmalarni hisobga olish

Asosiy qiyinchiliklar:

  • murakkab sintaktik tuzilmalar va ichki shartlar
  • xatolarga yuqori sezgirlik — bitta atamani o’tkazib yuborish ma’noni buzadi
  • formatlarning birlashmasligi: shartnomalar, meros guvohnomalari, ishonchnomalar, kelishuvlar

Aslida bu alohida so’zlarni emas, balki mazmuniy tuzilmani belgilash haqida gap ketardi.

Yechim

Metodologik tayyorgarlik

Asosiy bosqichni boshlashdan oldin biz batafsil qoidalar tizimini shakllantirdik:

  • 20 dan ortiq belgilash stsenariysi uchun texnik yo’riqnomalar ishlab chiqdik
  • muntazam ravishda yangilanadigan bahsli holatlari bo’yicha Q&A bilan yagona hujjat yaratdik
  • har bir ob’ekt turi uchun skrinshotlar bilan annotatsiya namunalarini tayyorladik
  • o’quv videolarini yozdik va birinchi vazifalar bo’yicha shaxsiy fikr-mulohazalar berdik
  • savollarni tezkor hal qilish uchun helpdesk modeli asosida ichki qo’llab-quvvatlash kanalini joriy etdik

Bu talqinlar o’zgaruvchanligini kamaytirish va annotatorlar o’rtasida yuridik mantiqni tushunishni tenglashtirishga imkon berdi.

Annotatsiya jarayoni

Annotatorlar:

  • asosiy yuridik ob’ektlarni ajratdilar
  • ular o’rtasida qo’lda bog’lanishlar qurishdi
  • munosabatlarni qayd etdilar, masalan, ajratilayotgan huquqni bir vaqtning o’zida sotuvchi va bitim ob’ekti bilan bog’ladilar
  • tuzilma bog’liqligini, shu jumladan vakilni asosiy tomonга to’g’ri bog’lashni ta’minladilar

Label Studio maydonlarni aniq sozlash, bog’lanishlar mantig’i va ma’lumotlar formatini nazorat qilish uchun ishlatildi.

Sifat nazorati

Har bir hujjat majburiy validatsiyadan o’tdi:

  • bog’lanishlar va ob’ektlarni qayta tekshirish
  • validatsiya jadvallarida xatolarni batafsil tavsiflash
  • aniq izohlar bilan qayta ishlashga qaytarish

Doimiy fikr-mulohazalar belgilash aniqligini bosqichma-bosqich oshirish va takroriy tuzatishlar sonini kamaytirishga imkon berdi.

Ish jadvali

1-hafta — Hujjatlar tanlamasini tahlil qilish, yo’riqnomalarni shakllantirish, ob’ektlar tuzilmasi bo’yicha kelishish

2-hafta — Pilot belgilash, ko’rsatmalarni to’g’rilash, sifat mezonlarini yakunlash

3-8 haftalar — Parallel validatsiya va muntazam fikr-mulohaza sessiyalari bilan asosiy annotatsiya bosqichiYakuniy bosqich — Ma’lumotlar to’plami izchilligini nazorat qilish, buyurtmachiga topshirish

Natija

  • 6 000 dan ortiq yuridik hujjat belgilandi — yuqori murakkablikdagi
  • Yuqori aniqlik ta’minlandi — ob’ektlar va mantiqiy bog’lanishlarni ajratib olishda
  • Kengaytiriluvchi metodologiya shakllandi — birlashtirilmagan huquqiy matnlar bilan ishlash uchun
  • Annotatorlar ekspertizasi oshirildi — tizimli o’qitish va muntazam nazorat hisobiga

Bizning holatlarimiz

Image

Chakana savdoda tovarlarni klassifikatsiya qilish uchun rasmlarni annotatsiya qilish

Tokchada tovarlarni aniqlash shunchaki rasmlarni klassifikatsiya qilish emas, balki daromadni boshqarishning muhim vositasidir. Biz xarajatlarni kamaytirish va real vaqt rejimidagi model uchun toza ma'lumotlar to'plamini tayyorlash imkonini beruvchi annotatsiya metodologiyasini ishlab chiqdik.
Learn more
Image

Platforma xavfsizligi uchun xabarlarni filtrlash

Auditoriya o'sishi har doim zaharli va taqiqlangan kontent hajmini oshiradi. Kuniga millionlab dialogda qo'lda nazorat boshqarilishi mumkin bo'lmay qoladi. Biz klassifikatsiya tizimini qurib chiqdik va filtrlashni bashorat qilinadigan va kengaytiriluvchi qilgan ma'lumotlar to'plamini tayyorladik.
Learn more
Image

LegalTech platformasi uchun yuridik hujjatlarni annotatsiya qilish

Yuridik til murakkab, o'zgaruvchan va xatolarga sezgir. Biz talqinlar izchilligini ta'minlaydigan va huquqiy ob'ektlarni ajratib olish modellari uchun ishonchli o'quv ma'lumotlar to'plamini shakllantiradigan annotatsiya tizimini ishlab chiqdik.
Learn more
Image

Moliya sektori uchun audio transkripsiyasi

Moliyaviy qo'ng'iroqlar maksimal aniqlikni talab qiladi. Biz har bir fragment tizimli jarayon va ko'p bosqichli sifat nazoratidan o'tadigan kengaytiriluvchi audio annotatsiya tizimini yaratdik.
Learn more
Image

Qurol aniqlash uchun ma’lumotlar yig’ish va belgilash

Noyob vazifalar uchun tayyor ma'lumotlar to'plamlari mavjud bo'lmaganda, ularni noldan yaratish talab etiladi. Biz shahar muhitida qurolni aniqlash tizimi uchun video ma'lumotlarni yig'ish va belgilashni tashkil qildik hamda 99% aniqlik darajasiga erishdik.
Learn more
Image

Yangiliklar portali uchun sharhlarni moderatsiya qilish

Yangilik rezonans qo'zg'atganda, sharhlar xavf zonasiga aylanadi. Biz kuniga o'n minglab xabarlarni qayta ishlagan, so'z erkinligi va platformani himoya qilish o'rtasidagi muvozanatni saqlab qolgan 40 moderatordan iborat operatsion modelni yaratdik.
Learn more
Image

Onlayn chat qo’llab-quvvatlashni noldan ishga tushirish

B2B qo'llab-quvvatlash bir vaqtning o'zida aniqlik va tezlikni talab qiladi. Biz chat xizmatini ikki hafta ichida ishga tushirdik va ikki oy ichida jarayonni bashorat qilinadigan, o'lchanadigan natijalarga yetkazdik.
Learn more
Image

Hissiyotlarni aniqlash uchun Multiview Emotion Capture

Hissiyotlarni aniqlash algoritm bilan emas, balki yozuv sifati bilan boshlanadi. Biz kadrma-kadr sinxronlash, barqaror yorug'lik va qat'iy QC orqali hissiy reaktsiyalarni buzilishlarsiz qayd etish imkonini beruvchi jarayonni qurib chiqdik.
Learn more

Ma'lumotlarni yig'ish loyihasini boshlashga tayyormisiz?