মেশিন লার্নিংয়ের জন্য একটি শিল্প শ্রেণিবদ্ধকারী তৈরি করুন

পাঠ্য শ্রেণিবিন্যাসের জন্য একটি বহু-শ্রেণীর পদ্ধতির

বিপণন লক্ষ্যমাত্রা এবং সাফল্য অর্জনের জন্য প্রযুক্তি যে অফার দিচ্ছে তা মার্টেক সবচেয়ে ভাল কাটছে এবং এটি এক্সপ্লোর করার ভাল কারণ।

এই নিবন্ধে, আমরা একটি শিল্প শ্রেণিবদ্ধ তৈরির জন্য আমাদের কঠোর অর্জিত অন্তর্দৃষ্টি আপনার সাথে ভাগ করে নিচ্ছি। আমরা আপনাকে দেখাব যে আমরা কীভাবে একটি উচ্চতর সম্ভাবনা প্রান্তিকের সম্পর্কে শিক্ষিত অনুমানগুলি তৈরি করতে এবং ম্যানুয়াল এবং ত্রুটিমুক্ত কার্যকরকরণের জন্য সময় লাগে তার বিভিন্ন অংশে স্বয়ংক্রিয়ভাবে বিভিন্ন ইমেলগুলি তাদের নিজ নিজ বিভাগে শ্রেণিবদ্ধকরণ করার জন্য একটি মডেলকে প্রশিক্ষণ দিয়েছি।

প্রেরণা

আমরা প্রতিদিন কয়েক মিলিয়ন ইমেল প্রেরণ করি এবং শিল্পে অরক্ষিত ইমেল পাথগুলি থেকে স্প্যাগেটি ব্যবহৃত হত এখন শিল্প দ্বারা শ্রেণিবদ্ধ ইমেল পাথের একটি ঝরঝরে সংগ্রহ। আমরা যে মডেলটি তৈরি করেছি তাতে আমাদের প্রথমে আমাদের অ্যালগরিদম প্রশিক্ষণ করতে হয়েছিল। সুতরাং, ইমেলগুলি যাতে "পোশাক", "ফ্যাশন", "ট্রেন্ডস" এর মতো শব্দগুলি ডিজাইন বা প্রযুক্তির চেয়ে ফ্যাশন শিল্পের জন্য আরও বেশি যোগ্য বলে মনে হয়েছিল। যাইহোক, এটি এখনও দেখা গেল যে কোন ইনপুট পদ্ধতিটি কোনও কঠিন শ্রেণিবিন্যাসের গ্যারান্টি দিতে পারে: ইমেল সামগ্রী, ওয়েবসাইট সামগ্রী বা উভয়ের সংমিশ্রণ?

কৃত্রিম বুদ্ধি থেকে কৌশল এবং অ্যালগরিদম সহ, আমরা আমাদের শক্তিশালী শিল্প শ্রেণিবদ্ধের বিকাশ করেছি। কম্পিউটার বিজ্ঞান, ডেটা বিশ্লেষণ এবং প্যাটার্ন স্বীকৃতি ব্যবহার করে আমরা মেশিন লার্নিংয়ের ভিত্তিতে আরেকটি উচ্চ-স্তরের অ্যাপ্লিকেশন তৈরি করতে সক্ষম হয়েছি।

মেশিন লার্নিং বড় ডেটা এবং গভীর শিক্ষার উপর ভিত্তি করে তৈরি করে এবং কেবলমাত্র কম্পিউটারকে নির্দিষ্ট ক্রিয়াকলাপের জন্য স্পষ্টভাবেই না আমাদের সক্ষম করে। এটি আমাদেরকে স্বয়ংক্রিয়ভাবে সিদ্ধান্ত নিতে শেখাতে সক্ষম করে।

প্রশিক্ষণ ডেটা

এটির জন্য একটি অ্যালগরিদম তৈরি করতে, আমাদের মডেল ইমেল সামগ্রীটি সংশ্লিষ্ট শিল্পের জন্য কেমন লাগে তা আমাদের প্রোগ্রামটি শিখতে হবে। একবার আমরা ইমেল সামগ্রী, ওয়েবসাইট সামগ্রী এবং উভয়ের সংমিশ্রণ নিয়ে আমাদের মডেলকে প্রশিক্ষণ দিলে আমরা আমাদের মডেলের যথার্থতা পরীক্ষা করি।

পাঠ্য শ্রেণিবিন্যাস তত্ত্বাবধানে শেখার একটি ফর্ম। উদ্দেশ্যটি হ'ল একটি সম্পূর্ণ পাঠ্যটিকে তার উপাদানগুলিতে বিভক্ত করা এবং স্বয়ংক্রিয়ভাবে বিধি তৈরি করার জন্য নিদর্শনগুলি চিহ্নিত করা। এটি অর্জন করতে, বেশ কয়েকটি সুপরিচিত বিভাগ সহ প্রশিক্ষণ উপকরণগুলির একটি সিরিজ বিধি হিসাবে কাজ করে যা শ্রেণিবদ্ধগুলি উত্পন্ন করে। এই প্রক্রিয়া শেষে, অন্য যে কোনও নথির সঠিক বিভাগে আসা উচিত। সি = {সি 1, সি 2, সি 3, ..., সিএন} হিসাবে পরিচিত বিভাগগুলির সাথে প্রশিক্ষণ ডেটা ডি = {ডি 1, ডি 2, ডি 3, ..., ডিএন} এর সেট ব্যবহার করে একটি নতুন লেবেলযুক্ত নথি Q এর বিভাগের পূর্বাভাস দেওয়া হয়েছে।

আমরা কীভাবে শব্দের মধ্যে পার্থক্য করব? উপরে বর্ণিত হিসাবে, অ্যালগরিদমের মূল ধারণাটি এমন শব্দের সন্ধান যা কোনও শিল্পের জন্য শব্দার্থগতভাবে প্রতীকী। সত্যটি হ'ল সরল এবং জটিল দুটি শব্দই রয়েছে। "সরল" দ্বারা আমরা এমন শব্দগুলি বোঝি যা বিভিন্ন ধরণের পাঠ্যে সর্বব্যাপী, যদিও জটিল শব্দগুলি কোনও বিষয়ের জন্য আরও বৈশিষ্ট্যযুক্ত এবং নির্দিষ্ট অঞ্চল, অঞ্চল বা শৃঙ্খলার থিমের বিষয়বস্তুর জন্য অত্যন্ত প্রাসঙ্গিক। শিল্পের বিভাগটি যেভাবে পড়ে তা ম্যানুয়ালিভাবে নির্ধারণ করার জন্য একটি সম্পূর্ণ পাঠ্য প্রক্রিয়া না করেই বেশ কয়েকটি শব্দ রয়েছে যা প্রতিটি শিল্পের সনাক্তকারী হিসাবে কাজ করে (লেবেলযুক্ত)। "ল্যাপটপ" এর মতো শব্দ প্রযুক্তিতে প্রচলিত উদাহরণস্বরূপ এবং ফ্যাশনে "টি-শার্ট"। সুতরাং, এই শব্দগুলি আমাদের গবেষণার কেন্দ্রবিন্দু।

প্রণালী বিজ্ঞান

ডেটা অধিগ্রহণ

প্রথম পদক্ষেপটি হ'ল ইন্টারনেট থেকে আমাদের ডেটা সংগ্রহ করা। ওয়েবসাইটগুলি থেকে তথ্য আহরণের জন্য, সেগুলি থেকে দরকারী তথ্য পুনরুদ্ধার এবং সংগ্রহের জন্য আমাদের একটি ওয়েব স্ক্র্যাপ তৈরি করতে হবে। পাইথন বিউটিফুল স্যুপ, কোলা, পাইপ্পিডার এবং স্কেরাপির মতো ওয়েব স্ক্র্যাপিং ফ্রেমওয়ার্ক ব্যবহার করে এইচটিএমএল এবং এক্সএমএল ফাইলগুলি থেকে ডেটা পুনরুদ্ধার করা সহজ করে তোলে।

ইন্টারনেটে, প্রধান বিভাগ, ট্যাগ এবং পাঠ্য সামগ্রী শিল্প সম্পর্কে ভাল পরিমাণে তথ্য সরবরাহ করতে পারে। তবে ইমেল সামগ্রীর একটি বড় অসুবিধা রয়েছে: এটি ইনপুটটির ধারাবাহিকভাবে নির্ভরযোগ্য উত্স নয়। বেশিরভাগ ক্ষেত্রেই, ইমেলগুলির তথ্যের অভাব হয় বা তাদের বিষয়বস্তু আমাদের গবেষণার জন্য বিবেচ্য নয়। এই পরিস্থিতিগুলি শেখার প্রক্রিয়াটিকে প্রভাবিত করতে পারে তবে কিছু ক্ষেত্রে তারা আমাদের আরও জটিল জটিল নিদর্শনগুলি ডেটাতে সনাক্ত করতে বা তাদের যে ক্লাস্টারের সাথে সম্পর্কিত তা সরাসরি সহায়তা করতে সহায়তা করতে পারে।

ওয়ার্ড প্রসেসর

ডেটা ক্লিনিজিং / স্ট্যান্ডার্ডাইজেশন এবং প্রসেসিং মেশিন লার্নিংয়ের একটি কেন্দ্রীয় উপাদান। আমাদের ডেটার "শব্দ" কমাতে এবং শিক্ষার মান উন্নত করতে আমাদের এইচটিএমএল ট্যাগগুলি মুছে ফেলা এবং তারপরে এনএলপি (প্রাকৃতিক ভাষা প্রসেসিং) কৌশলগুলি চালিয়ে যাওয়া দরকার। এটি অর্জন করতে আমরা পাইথনের এনএলটিকে পাঠাগারটি ব্যবহার করি। প্রথমে আমরা পাঠ্যটিকে টোকানাইজ করব, অর্থাত্, পাঠ্যটিকে স্বাধীন শব্দের মধ্যে বিভক্ত করুন। তারপরে আমরা "এবং", "" "ইত্যাদির মতো স্টপ শব্দগুলি সরিয়ে ফেলি, যার শনাক্তকারী হিসাবে ওজন কম থাকে। অবশেষে, আমরা একটি সাধারণ শব্দের মূল খুঁজে পেতে এবং আমাদের শব্দভাণ্ডার হ্রাস করতে প্রতিটি শব্দকে উপসর্গ এবং প্রত্যয় দিয়ে সরিয়ে বা প্রতিস্থাপন করি।

শব্দের পকেট

এখন যেহেতু আমরা বেশ কয়েকটি শব্দ সংগ্রহ করেছি, পরবর্তী পদক্ষেপটি হ'ল লেবেলযুক্ত বাক্যটির জটিলতা হ্রাস করা এবং দরকারী তথ্য বের করা। এটি শব্দের একটি ম্যাট্রিক্স (কলাম দ্বারা উপস্থাপিত) এবং নথিগুলি (সারি দ্বারা উপস্থাপিত) তৈরি করে অর্জন করা যায়। টিফ-আইডিএফ (মুদ্রণ ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি) সহ ব্যাগ অফ ওয়ার্ডস (বোডাব্লু) ব্যবহার করা এই কাজটি করার সবচেয়ে সহজ এবং সর্বাধিক কার্যকর উপায়। বিশেষত, আমরা একটি ওজনযুক্ত বোডাব্লু ব্যবহার করি, যেহেতু বো ডাব্লু সাধারণত 0.0 বা 1.0 শব্দ ব্যবহার করে, তবে আমাদের এক বা অন্য শিল্পের সাথে প্রাসঙ্গিকতা পরিমাপ করতে বিভিন্ন ওজন প্রয়োজন need

এই কারণে, BoW মডেল প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ (এনএলপি) সমস্যাগুলির একটি খুব সাধারণ সমাধান। ধারণাটি হ'ল প্রতিটি নথি একটি BoW (: ভেক্টর) এ বরাদ্দ করা এবং তাদের মিলের ভিত্তিতে বিভিন্ন ভেক্টরকে শ্রেণিবদ্ধ করা।

BoW একটি নথিতে সমস্ত অনন্য শব্দের সাথে নেয় এবং সেগুলিকে একটি তালিকায় .োকায়। তারপরে টিএফ-আইডিএফ একটি সংখ্যাগত পরিমাপ হিসাবে কাজ করে যা একটি নথির বিভিন্ন ধারা জুড়ে একটি শব্দের গুরুত্বকে মূল্যায়ণ করে এবং সবচেয়ে গুরুত্বপূর্ণ শব্দের 0.0 এবং 1.0 এর মধ্যে মান নির্ধারণ করে।

মাত্রিক হ্রাস

ওভারফিটিং এড়াতে, অর্থাত্ মডেলটি প্রশিক্ষণের ডেটা আটকে থাকে এবং প্রশিক্ষণের সেটের বাইরে একা দাঁড়িয়ে থাকতে পারে না, আমাদের নমুনার মাত্রিক বৈশিষ্ট্য স্থান হ্রাস করতে হবে। একই সাথে, আমাদের শ্রেণিবদ্ধের স্কেলিবিলিটি, দক্ষতা এবং যথার্থতা উন্নত করতে আমাদের সবচেয়ে মূল্যবান প্রাসঙ্গিক তথ্য রাখতে হবে। এখানেই একক মান ভলন (এসভিডি) আসে। আমরা আমাদের প্রশিক্ষণে এন বৈশিষ্ট্য থেকে কে বৈশিষ্ট্যে (এন> কে) রূপান্তরের সেটটিতে এসভিডি করি, যেখানে এন সমস্ত শব্দভান্ডার শব্দ এবং কে সবচেয়ে গুরুত্বপূর্ণ শব্দ।

নীচে আমরা এসভিডি অনুসারে আমাদের শিল্প ক্লাস্টারগুলি দেখি:

শ্রেণীবিন্যাস

পাঠ্য শ্রেণিবিন্যাসের সমস্যাগুলি প্রায়শই রৈখিক পৃথকভাবে পৃথক হয় এবং লিনিয়ার কার্নেলটি বিশাল সংখ্যক ফাংশন সহ কার্যকরভাবে ভালভাবে কাজ করে। এটি কারণ একটি উচ্চ মাত্রিক স্থান ডেটা ম্যাপিং মডেল এর কর্মক্ষমতা উন্নতি করে না, লিনিয়ার এসভিসি এই কাজের জন্য নিখুঁত সরঞ্জাম হিসাবে তৈরি করে।

একটি শিল্পের সাথে সম্পর্কিত কোনও গ্রাহকের সম্ভাবনা সম্পর্কে ভবিষ্যদ্বাণী করার জন্য আমরা "হার্ড" শ্রেণিবিন্যাসের চেয়ে একটি "সম্ভাব্য" শ্রেণিবিন্যাসকে প্রাধান্য দিয়েছিলাম এবং তিনটি সম্ভাব্য প্রান্তিকের উপরে শ্রেণিবিন্যাসের ফলাফলগুলি মূল্যায়ন করেছি, যথা 60, 70 এবং 80% এর সম্ভাবনা।

মূল্যায়ন সারণী

নীচের টেবিলটি প্রতিটি ইনপুট উত্সের জন্য তিনটি সম্ভাবনার প্রান্তিকের একটি সংক্ষিপ্তসার দেয়। এটি লক্ষ করা উচিত যে ইমেলগুলি অন্য দুটি বিভাগের মতো ইনপুট উত্সের পাশাপাশি কার্য সম্পাদন করে না এবং উচ্চ মানের সাথে সম্ভাব্যতার একটি নির্ভরযোগ্য উত্স হিসাবে পরিবেশন করতে পারে না কারণ তারা মানের তথ্য সরবরাহ করতে পারে না। ইমেল এবং ওয়েবসাইটগুলি থেকে আসা বিষয়বস্তুতে যখন এটি আসে তখন সম্ভাবনার প্রান্তিকতা বেশি থাকে। তবে, ওয়েবসাইটটির তুলনায় পরবর্তীটি একটি নিরাপদ পছন্দ, যা একমাত্র ইনপুট উত্স। যদিও ইমেইল এবং ওয়েবসাইটের সংশ্লিষ্ট শেয়ারের সাথে তুলনায় 60% এর সম্ভাবনা প্রান্তিকতা কম, তবে এটি নগণ্য হয়ে যায়, যেহেতু 80% এর প্রান্তিক এই প্রভাবটির জন্য ক্ষতিপূরণ দেয়। এইভাবে আমরা আরও জটিল কাঠামোকে সঠিকভাবে শ্রেণিবদ্ধ করতে পেরেছি।

মডেল

উপসংহার

অভিনন্দন! আপনি আনুষ্ঠানিকভাবে আপনার মডেলকে আলাদা এবং শ্রেণীবদ্ধ করতে শিখিয়েছেন। তবে বাস্তব জীবনের মতো, শেখা একটি চলমান প্রক্রিয়া যা ধারাবাহিকভাবে ইনপুটগুলি সহ মডেলগুলিকে সমৃদ্ধ করে। একটি সঠিক মডেল পেতে, প্রিপ্রোসেসিং এবং প্রশিক্ষণের ধরণটি শ্রেণিবদ্ধের সাফল্যের মূল চাবিকাঠি। আমাদের শ্রেণিবদ্ধকরণটিকে আরও উন্নত করার জন্য, একটি মানের ডেটা সেট এবং অপ্টিমাইজেশন পরামিতিগুলি তৈরি করার জন্য দৃ strongly়ভাবে সুপারিশ করা হয়।