Search     or:     and:
 LINUX 
 Language 
 Kernel 
 Package 
 Book 
 Test 
 OS 
 Forum 
 iakovlev.org 
 Languages
 С
 GNU С Library 
 Qt 
 STL 
 Threads 
 C++ 
 Samples 
 stanford.edu 
 ANSI C
 Libs
 LD
 Socket
 Pusher
 Pipes
 Encryption
 Plugin
 Inter-Process
 Errors
 Deep C Secrets
 C + UNIX
 Linked Lists / Trees
 Asm
 Perl
 Python
 Shell
 Erlang
 Go
 Rust
 Алгоритмы
NEWS
Последние статьи :
  Алгоритмы 12.04   
  Rust 07.11   
  Go 25.12   
  EXT4 10.11   
  FS benchmark 15.09   
  Сетунь 23.07   
  Trees 25.06   
  Apache 03.02   
  SQL 30.07   
  Python 10.06   
 
TOP 20
 Alg3...1790 
 Intel 386...741 
 Secure Programming for Li...603 
 Trees...570 
 Си за 21 день...518 
 Стивенс 1...499 
 2.0-> Linux IP Networking...498 
 Steve Pate 3...490 
 Stein-MacEachern-> Час...480 
 Ethreal 1...474 
 Lists...470 
 Ethreal 2...457 
 Стивенс 4...447 
 Python...417 
 Rodriguez 6...416 
 William Gropp...408 
 Advanced Bash Scripting G...405 
 Стивенс 5...398 
 Комментарий...369 
 Keogh 2...363 
 
  01.08.2020 : 2947670+ посещений 

iakovlev.org

Индексация поиска

Я оптимизировал поиск. Отныне он индексированный.

Индекс представляет из себя динамический многомерный массив следующей структуры:


 слово_N1 , индекс_файла_N1 , частота_N1 , индекс_файла_N2 , частота_N3 ,  ...
 слово_N2 , индекс_файла_N3 , частота_N3 , индекс_файла_N4 , частота_N4 ,  ...
 ...
 
слово_N1 - уникальное слово на весь контент сайта
индекс_файла_N1 - порядковый номер файла в файловом массиве
частота_N3 - число попаданий слова в файле

В нижеследующем скрипте показано, как за один проход происходит сканирование статических файлов, в которых находится контент сайта, и генерируется индекс, который потом сбрасывается на диск. И последующий поиск ведется теперь уже не по контенту,который разбросан по множеству файлов, а по одному-единственному файлу-индексу.

Теперь поиск на сайте состоит из двух видов :
1. с маской ИЛИ , которая установлена по умолчанию
2. с маской И

В первом случае находятся все файлы, в которых находится хотя бы одно слово из набора слов, заданных в поисковой строке.Результаты выводятся по релевантности. Во втором случае находятся только те файлы, в которые одновременно входят все слова, входящие в поисковую строку. Как вы понимаете, второй вариант является частным случаем от первого.

Код,генерирующий индекс :


 foreach $sf (@FILES)
 {
 		open(FILE,"$sf");
 		@LINES = < FILE>;
 		close(FILE);
 		$string = join(' ',@LINES);
 		$string =~ s/\n//g;		 # выкинем каретку 	
 		$string =~ s/<.+?>//gs;  # выкинем теги
 		$string =~ s/[,.=\-\[\]!{}()#%&;:*"'`~\\0?]//g;  # выкинем не-буковки
 		@words = split (/ /, $string); # бьем файл на слова
 		foreach $massiv3 (@massiv3)
 		{
 			$massiv3=0;
 		}
 		foreach $word (@words)
 		{
 			$found=0;	
 			if ($word =~ m/.{3,}/) # по крайней мере слово не менее 3 символов
 			{	
 				if(exists $hash{$word}) # есть такая буква - 
 				{
 					$ii=$hash{$word};
 					if($massiv3[$ii]!=1)# добавляем в список новую пару : файл - количество
 					{
 							$massiv2[$ii]+=1;
 							$massiv[$ii][$massiv2[$ii]]=$i;
 							$massiv2[$ii]+=1;
 							$massiv[$ii][$massiv2[$ii]] =1;
 							$massiv3[$ii]=1;
 					}
 					else # увеличиваем счетчик для данного слова в данном файле
 					{
 						$massiv[$ii][$massiv2[$ii]] +=1;
 					}
 				}	
 				else # создаем новый массив для нового слова			
 				{
 						$mc=$massiv_count;
 						$massiv[$mc][0]=$word; 
 						$massiv[$mc][1]=$i;
 						$massiv[$mc][2]=1;
 						$massiv2[$mc]=2; # позиция индекса в строке массива
 						$massiv3[$mc]=1; # переключатель курсора
 						%hash = (%hash, $word , $mc);
 						$massiv_count++; # главный индекс базового массива
 				}
 			}
 		}	
 
 	$i++;
 }
 
Похоже , тут есть что оптимизировать :-)

Оставьте свой комментарий !

Ваше имя:
Комментарий:
Оба поля являются обязательными

 Автор  Комментарий к данной статье