Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Web программирование > HTML и CSS
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 09.01.2013, 14:35   #1
Лубышев
Участник клуба
 
Аватар для Лубышев
 
Регистрация: 23.07.2007
Сообщений: 1,054
Восклицание Крик души программиста "Верстка таблицами" хорошо ли это

Неоднократно поднимался вопрос, является ли хорошим тоном верстка таблицами.
Вообще, таблицы разработаны для помещения в них контента табличного вида. Например, «Таблица тугоплавкости металлов».
Однако, программисты старой закалки или новички, не смотря на все замечания, продолжают упорно использовать метод верстки сайта таблицами.
Давным-давно я задался целью написать маленький поисковик фактографической информации. Фактографическая информация в большом объеме представлена как раз таки в таблицах, то есть передо мной встала задача написать индексатор табличного контента.
Написал парсер таблиц, который разбивал таблицу на ячейки и складывал их в БД. Но, открыв базу, я ужаснулся. Почти 70% записей в БД содержали всякий мусор, не несущий в себе ни какого фактографического смысла. И вот тогда-то я узнал, что есть метод «Верстки таблицами».
Немного повзрослев и пройдя системный анализ, я понял, что необходимо разработать алгоритм распознавания «фактографических таблиц», то есть алгоритма который бы мог ответить на вопрос «верстка это или реальная таблица с данными».
Основан был этот алгоритм на многокритериальном анализе, все характеристики таблиц я наделил весовыми коэфициентами. И создал некую переменную «Барьер проходимости». Если сумма произведений значений характеристик на их весовые коэффициенты была больше барьера, то это была фактографическая таблица. Возникла задача правильно расставить коэффициенты. Для этого я использовал метод Монтекарло и проверил работоспособность алгоритма на сотнях таблиц. И каждый раз я наталкивался на все более и более хитрую верстку таблицами.
Проверив в реальном действии мой индексатор, увидел, что всего 5% всех записей в базе были «шумами».
Но возникла другая проблема – индексатор не все «таблицы» воспринимал. Оказалось что часто различные сервисы, где хранятся рефераты, курсовые и т.п. заменяют реальные статистические таблицы на так называемые «псевдотаблицы». То есть контент оформлен с помощью тегов <pre> и в них рамки таблиц были оформлены символами – горизонтальными и вертикальными палочками. Меня это окончательно убило…. Так как информация из них была очень необходима.
Я написал еще один анализатор контента, в этот раз это было еще сложнее. Теперь «псевдотаблицы» переводились в реальные таблицы, правда не всегда верно, происходило то смещение ячеек, то склейка их.
Далее снова наткнулся на проблему – в таблицах сделанных из соображений верстки содержались реальные таблицы. Сделал рекурсивную обработку.
После этого оказалось, что еще и в некоторых ресурсах закрывающиеся тэги забывали расставлять (это не HTML 5.0 – тогда его еще не было)
В итоге казалось бы простая задача оказалась до того сложной что у меня алгоритм притормаживал. Пришлось отказаться от использования стандартных методов работы со строками и работать со строкой как с массивом.
Теперь я понимаю всю сложность работы поисковых индексаторов. Как же все-таки тяжело индексировать кривые сайты.
Оправданы ли такие усилия в индексации? Не стоит ли просто такие ресурсы игнорировать?
Может, начнем уже использовать тэги по их прямому назначению?
Писано по д'Эльфийски
Лубышев вне форума Ответить с цитированием
Старый 09.01.2013, 14:47   #2
Naive
Раздолбайских Дел
Старожил
 
Аватар для Naive
 
Регистрация: 22.05.2009
Сообщений: 3,828
По умолчанию

Аминь.
п.с. Обычно таблицы с реальными данными не содержат внутри других таблиц, можно было отталкиваться от этого, ну а преформатирование даже проще парсить, чем невалидный XML=)
Alar, верни репу!
Naive вне форума Ответить с цитированием
Старый 09.01.2013, 14:55   #3
Лубышев
Участник клуба
 
Аватар для Лубышев
 
Регистрация: 23.07.2007
Сообщений: 1,054
По умолчанию

Цитата:
п.с. Обычно таблицы с реальными данными не содержат внутри других таблиц,
это было одним из критериев) я это учитывал
Писано по д'Эльфийски
Лубышев вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
крик души!!! Кира Свободное общение 8 07.10.2011 16:15
Компас 3d v8 Крик души!!! rossijanin Свободное общение 7 25.05.2011 08:38
при вводе на листе "магазин"- код товара появлялось "описание" товара из "склада" с "продажной ценой" aleksei78 Microsoft Office Excel 13 25.08.2009 12:04
Крик души ! Qween Фриланс 17 21.08.2009 19:39