Tinjauan di balik layar tentang membangun pipeline penyortiran atribut berbasis AI untuk jutaan SKU.Tinjauan di balik layar tentang membangun pipeline penyortiran atribut berbasis AI untuk jutaan SKU.

Bagaimana Saya Menggunakan AI untuk Memperbaiki Nilai Atribut yang Tidak Konsisten dalam Skala Besar di E-commerce

Ketika orang membicarakan tentang penskalaan e-commerce, mereka fokus pada tantangan rekayasa besar: pencarian terdistribusi, inventaris real-time, mesin rekomendasi, dan optimisasi checkout. Namun di balik semua itu terdapat masalah yang lebih tenang dan persisten yang hampir setiap retailer hadapi: nilai atribut.

Atribut adalah tulang punggung penemuan produk. Mereka menggerakkan filter, perbandingan, peringkat pencarian, dan logika rekomendasi. Namun dalam katalog nyata, nilai atribut jarang bersih. Mereka tidak konsisten, terduplikasi, salah format, atau ambigu secara semantik.

Ambil contoh yang sederhana seperti Ukuran. Anda mungkin melihat:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

Atau Warna:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Secara individu, inkonsistensi ini terlihat tidak berbahaya. Namun kalikan mereka di lebih dari 3 juta SKU, masing-masing dengan puluhan atribut, dan masalahnya menjadi sistemik. Filter berperilaku tidak terduga, mesin pencari kehilangan relevansi, merchandiser tenggelam dalam pembersihan manual, dan penemuan produk menjadi lebih lambat dan lebih membuat frustrasi bagi pelanggan.

Ini adalah tantangan yang saya hadapi sebagai software engineer full-stack di Zoro, masalah yang mudah diabaikan tetapi memengaruhi setiap halaman produk.

Pendekatan Saya: AI Hibrid Bertemu Determinisme

Saya tidak menginginkan AI kotak hitam misterius yang hanya menyortir sesuatu. Sistem seperti itu sulit dipercaya, di-debug, atau diskalakan. Sebaliknya, saya bertujuan untuk pipeline yang:

  • dapat dijelaskan
  • dapat diprediksi
  • dapat diskalakan
  • dapat dikontrol oleh manusia

Hasilnya adalah pipeline AI hibrid yang menggabungkan penalaran kontekstual dari LLM dengan aturan yang jelas dan kontrol merchandiser. Ini bertindak cerdas saat dibutuhkan, tetapi selalu tetap dapat diprediksi. Ini adalah AI dengan pagar pembatas, bukan AI yang tidak terkendali.

Background Jobs: Dibangun untuk Throughput

Semua pemrosesan atribut terjadi dalam background jobs offline, bukan secara real-time. Ini bukan kompromi; ini adalah pilihan arsitektur strategis.

Pipeline real-time terdengar menarik, tetapi pada skala e-commerce, mereka memperkenalkan:

  • latensi yang tidak dapat diprediksi
  • dependensi yang rapuh
  • lonjakan komputasi yang mahal
  • kerapuhan operasional

Offline jobs, di sisi lain, memberi kami:

  • Throughput tinggi: batch besar diproses tanpa memengaruhi sistem live
  • Ketahanan: kegagalan tidak pernah memengaruhi lalu lintas pelanggan
  • Kontrol biaya: komputasi dapat dijadwalkan selama waktu lalu lintas rendah
  • Isolasi: latensi LLM tidak pernah memengaruhi halaman produk
  • Konsistensi: pembaruan bersifat atomik dan dapat diprediksi

Menjaga sistem yang menghadap pelanggan terpisah dari pipeline pemrosesan data sangat penting saat bekerja dengan jutaan SKU.

Pembersihan & Normalisasi

Sebelum menggunakan AI pada data, saya menjalankan langkah preprocessing yang jelas untuk menghilangkan noise dan kebingungan. Langkah ini mungkin terdengar sederhana, tetapi sangat meningkatkan penalaran LLM.

Pipeline pembersihan termasuk:

  • memangkas whitespace
  • menghapus nilai kosong
  • mendeduplikasi nilai
  • meratakan breadcrumb kategori menjadi string kontekstual

Ini memastikan LLM menerima input yang bersih dan jelas, yang merupakan kunci untuk hasil yang konsisten. Garbage in, garbage out. Pada skala ini, bahkan kesalahan kecil dapat menyebabkan masalah yang lebih besar nantinya.

LLM Service dengan Konteks

LLM tidak hanya menyortir nilai secara alfabetis. Ini menalar tentang mereka.

Layanan menerima:

  • nilai atribut yang dibersihkan
  • breadcrumb kategori
  • metadata atribut

Dengan konteks ini, model dapat memahami:

  • Bahwa "Voltage" di Power Tools bersifat numerik
  • bahwa "Size" di Clothing mengikuti perkembangan yang diketahui
  • bahwa "Colour" di Paints mungkin mengikuti standar RAL
  • bahwa "Material" di Hardware memiliki hubungan semantik

Model mengembalikan:

  • nilai yang diurutkan
  • nama atribut yang disempurnakan
  • keputusan: pengurutan deterministik atau kontekstual

Ini memungkinkan pipeline menangani berbagai jenis atribut tanpa hardcoding aturan untuk setiap kategori.

Fallback Deterministik

Tidak setiap atribut memerlukan AI.

Faktanya, banyak atribut lebih baik ditangani oleh logika deterministik.

Rentang numerik, nilai berbasis unit, dan set sederhana sering mendapat manfaat dari:

  • pemrosesan lebih cepat
  • pengurutan yang dapat diprediksi
  • biaya lebih rendah
  • nol ambiguitas

Pipeline secara otomatis mendeteksi kasus-kasus ini dan menggunakan logika deterministik untuk mereka. Ini menjaga sistem tetap efisien dan menghindari panggilan LLM yang tidak perlu.

Tagging Manual vs LLM

Merchandiser masih memerlukan kontrol, terutama untuk atribut yang sensitif terhadap bisnis.

Jadi setiap kategori dapat ditandai sebagai:

  • LLM_SORT — biarkan model memutuskan
  • MANUAL_SORT — merchandiser menentukan urutan

Sistem dual-tag ini memungkinkan orang membuat keputusan akhir sementara AI melakukan sebagian besar pekerjaan. Ini juga membangun kepercayaan, karena merchandiser dapat menimpa model saat diperlukan tanpa merusak pipeline.

Persistence & Control

Semua hasil disimpan langsung dalam database Product MongoDB, menjaga arsitektur tetap sederhana dan terpusat.

MongoDB menjadi penyimpanan operasional tunggal untuk:

  • nilai atribut yang diurutkan
  • nama atribut yang disempurnakan
  • tag sort tingkat kategori
  • field sortOrder tingkat produk

Ini memudahkan untuk meninjau perubahan, menimpa nilai, memproses ulang kategori, dan menyinkronkan dengan sistem lain.

Integrasi Pencarian

Setelah diurutkan, nilai mengalir ke:

  • Elasticsearch untuk pencarian berbasis kata kunci
  • Vespa untuk pencarian semantik dan berbasis vektor

Ini memastikan bahwa:

  • filter muncul dalam urutan logis
  • Halaman produk menampilkan atribut yang konsisten
  • mesin pencari memberi peringkat produk lebih akurat
  • Pelanggan dapat menelusuri kategori lebih mudah

Pencarian adalah tempat di mana penyortiran atribut paling terlihat, dan di mana konsistensi paling penting.

Ikhtisar Arsitektur

Untuk membuat ini berfungsi di jutaan SKU, saya merancang pipeline modular yang dibangun di sekitar background jobs, penalaran AI, dan integrasi pencarian. Diagram arsitektur di bawah ini menangkap alur penuh:

  • Data produk masuk dari Product Information System
  • Attribute Extraction Job menarik nilai atribut dan konteks kategori
  • Ini diteruskan ke AI Sorting Service
  • Dokumen produk yang diperbarui ditulis ke Product MongoDB
  • Outbound Sync Job memperbarui Product Information System dengan urutan sortir
  • Elasticsearch dan Vespa Sync Jobs mendorong data yang diurutkan ke sistem pencarian masing-masing
  • API Services menghubungkan Elasticsearch dan Vespa ke Client Application

Alur ini memastikan bahwa setiap nilai atribut, baik diurutkan oleh AI atau diatur secara manual, tercermin dalam pencarian, merchandising, dan pengalaman pelanggan.

Solusi dalam Aksi

Berikut cara nilai yang berantakan ditransformasi:

| Attribute | Raw Values | Ordered Output | |----|----|----| | Size | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Color | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Material | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeric | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Contoh-contoh ini menunjukkan bagaimana pipeline menggabungkan penalaran kontekstual dengan aturan yang jelas untuk menciptakan urutan yang bersih dan mudah dipahami.

Mengapa Offline Jobs Daripada Pemrosesan Real-Time?

Pemrosesan real-time akan memperkenalkan:

  • latensi yang tidak dapat diprediksi
  • Biaya komputasi lebih tinggi
  • dependensi yang rapuh
  • kompleksitas operasional

Offline jobs memberi kami:

  • efisiensi batch
  • panggilan LLM asinkron
  • logika retry dan antrian error
  • jendela peninjauan manusia
  • pengeluaran komputasi yang dapat diprediksi

Trade-off-nya adalah penundaan kecil antara ingestion data dan tampilan, tetapi manfaatnya adalah konsistensi dalam skala, yang pelanggan hargai jauh lebih banyak.

Dampak

Hasilnya signifikan:

  • Pengurutan atribut yang konsisten di 3M+ SKU
  • Penyortiran numerik yang dapat diprediksi melalui fallback deterministik
  • Kontrol merchandiser melalui tagging manual
  • Halaman produk yang lebih bersih dan filter yang lebih intuitif
  • Relevansi pencarian yang ditingkatkan
  • Kepercayaan pelanggan dan konversi yang lebih tinggi

Ini bukan hanya kemenangan teknis; ini juga kemenangan untuk pengalaman pengguna dan pendapatan.

Pelajaran yang Dipetik

  • Pipeline hibrid mengungguli AI murni dalam skala. Pagar pembatas penting.
  • Konteks secara dramatis meningkatkan akurasi LLM
  • Offline jobs sangat penting untuk throughput dan ketahanan
  • Mekanisme override manusia membangun kepercayaan dan adopsi
  • Input yang bersih adalah fondasi dari output AI yang andal

Pemikiran Akhir

Menyortir nilai atribut terdengar sederhana, tetapi menjadi tantangan nyata ketika Anda harus melakukannya untuk jutaan produk.

Dengan menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol merchandiser, saya mengubah masalah yang kompleks dan tersembunyi menjadi sistem yang bersih dan dapat diskalakan.

Ini adalah pengingat bahwa beberapa kemenangan terbesar datang dari memecahkan masalah yang membosankan, yang mudah terlewatkan tetapi muncul di setiap halaman produk.

\n \n \n

Peluang Pasar
Logo Sleepless AI
Harga Sleepless AI(AI)
$0.03831
$0.03831$0.03831
0.00%
USD
Grafik Harga Live Sleepless AI (AI)
Penafian: Artikel yang diterbitkan ulang di situs web ini bersumber dari platform publik dan disediakan hanya sebagai informasi. Artikel tersebut belum tentu mencerminkan pandangan MEXC. Seluruh hak cipta tetap dimiliki oleh penulis aslinya. Jika Anda meyakini bahwa ada konten yang melanggar hak pihak ketiga, silakan hubungi [email protected] agar konten tersebut dihapus. MEXC tidak menjamin keakuratan, kelengkapan, atau keaktualan konten dan tidak bertanggung jawab atas tindakan apa pun yang dilakukan berdasarkan informasi yang diberikan. Konten tersebut bukan merupakan saran keuangan, hukum, atau profesional lainnya, juga tidak boleh dianggap sebagai rekomendasi atau dukungan oleh MEXC.